Hangi açık ağırlıklı modeli öz-barındırmalısınız?
Bir dil modelini kendiniz barındırmak, ekiplerin fazla erken görmezden geldiği ve fazla geç benimsediği bir seçenektir. Çoğu zaman "barındırılan sınırın gerisinde" diye reddedilir; oysa on iki ay önceki güncel teknoloji kalitesini bugün yinelenen maliyetin çok küçük bir bölümüyle çalıştırmak mümkündür. Benimsenme ise genellikle bir uyumluluk denetimi, başka bir sağlayıcının hizmet koşullarında çözümsüz bir engel bulduğunda panikte gerçekleşir. Bu rehber, bugün üzerine öz-barındırmalı bir yığın kuracağımız beş açık ağırlıklı modeli ve donanımınıza hangisinin uyduğunu belirleyen boyutları ele alır.

Öz-barındırma neden yeniden değerlendirmeye değer
Açık ağırlıklı modellere karşı argüman eskiden basitti: barındırılan sınır o kadar ileride ki başka herhangi bir şey çalıştırmak yanlış bir ekonomi. Bu argüman 2024 ve 2025 boyunca her çeyrekte zayıfladı. Bugünkü en güçlü açık modeller, bir yıl önce barındırılan amiral gemisinin seviyesine ulaşıyor; bu, müşteriye yönelik sohbet olmayan hemen her üretim iş yükü için yeterli kalite demektir. Keskin uca olan uçurum gerçek; "yeterince iyi"ye olan uçurum ise kapandı.
Yerel çalıştırma kararının nedeni nadiren kalitedir. Mesele veri ikametgahı, yinelenen maliyet, büyük sağlayıcıların neredeyse hiç hizmet vermediği bölgelerdeki gecikme ve sağlayıcı bir kuşağı kullanımdan kaldırdığında altınızdan kaymayan bir modeli çalıştırabilme güvencesidir. Sınıflandırma için ayda on milyon iç belge işleyen bir ekip, token başına ödeme yerine öz-barındırmalı altyapıyla yılda altı haneli bir tasarruf sağlayabilir. Düzenlenmiş verilerle çalışan bir ekip bütün bir tedarik kabusu sürecinden kurtulur. ABD veri merkezlerine yüksek gecikmeyle sahip bir bölgedeki ekip ise kullanıcılara bir büyüklük sırası daha hızlı hizmet verebilir.
Maliyet denklemi "model ağırlıkları ücretsiz" kadar basit değildir. GPU'lar için — satın alınmış ya da kiralık — ve bunları işletmek için gereken mühendislik saatleri için ödeme yaparsınız. Başa baş noktası, token hacmine bağlıdır: ayda yaklaşık yüz milyon tokenın altında barındırılan API'lar toplam maliyette neredeyse her zaman kazanır; bir milyarın üzerinde öz-barındırma neredeyse her zaman kazanır. Orta aralıkta ise iş yüküne özgü ayrıntılar belirleyicidir.
Seçimi beş kısıt tanımlar: modelin kabul edilebilir bir kalitede ne kadar VRAM gerektirdiği, kullanım senaryonuzun lisans koşulları, çevre ekosisteminin olgunluğu ve modelin donanımınızda gerçekte sunabileceği gecikme. Doğru model beşini de karşılayan modeldir; en iyi kağıt üstü kıyaslama puanına sahip model değil.

Hangi modelin uyduğuna karar veren beş boyut
Üretim öz-barındırması için açık ağırlıklı bir model seçerken karnecimizin değerlendirdiği eksenler bunlardır. Göreli ağırlıklandırma donanım bütçenize, yargı bölgenize ve ekosistem pürüzlerine toleransınıza göre kayar — ancak her ciddi aday, beşinde de asgari bir çıtayı aşmak zorundadır.
- 01 — Donanım uyumu
Gerçekte sahip olduğunuz kartlarda çalışıyor mu?
Çok GPU'lu düğüm gerektiren bir model, tek bir tüketici kartında çalışan bir modelden çok farklı bir önermedir. Her zaman dağıtmayı planladığınız niceleme düzeyinde VRAM gereksinimini hesaplayın ve hedef bağlam uzunluğundaki KV önbelleği için rahat bir marj ekleyin. En ucuz hata fazla donanım satın almaktır; en pahalısı ise az almaktır.
- 02 — Niceleme kalitesi
Sığdırabildiğiniz niceleme seviyesinde ne kadar kaybediyor?
Niceleme kaliteyi bellekle ve hızla takas eder. Bazı modeller dört bitlik nicelemeye iyi dayanır; diğerleri sekizin altında belirgin biçimde bozulur. Yayınlanan tam hassasiyetli kıyaslamalar size çok şey söylemez — donanımınızın gerçekte izin verdiği niceleme düzeyinde ölçün ve bunun sıralamayı alt üst edebileceğini kabul edin.
- 03 — Lisans koşulları
Amaçladığınız şekilde kullanabilir misiniz?
Açık ağırlıklar her zaman açık lisans anlamına gelmez. Bazıları hiçbir yükümlülük olmaksızın geniş ticari kullanıma izin verir; diğerleri kullanım eşikleri, atıf hükümleri veya yeniden dağıtım kısıtlamaları içerir. Lisansı inşa etmeden önce okuyun, sonra değil. Hukuk ekibinizin nihayetinde veto edeceği katı bir lisans yerine, biraz daha düşük kalitede daha dostane bir lisans genellikle daha iyidir.
- 04 — Ekosistem desteği
Servis yığını ham mı yoksa olgun mu?
vLLM, Ollama ve llama.cpp'de birinci sınıf desteğe sahip bir modelin, yalnızca tek bir referans komut dosyası ve umut dolu bir README ile gelen bir modele kıyasla işletilmesi büyüklük sıraları kadar ucuz olacaktır. Araç olgunluğu, çoğu ekibin küçümsediği gizli maliyettir; olaylar için harcadığınız mühendislik saatlerinde kendini gösterir.
- 05 — Donanımınızdaki gecikme
Kullanım senaryosu için yeterince hızlı üretiyor mu?
Karşılayabileceğiniz GPU'da saniyede on token üreten öz-barındırmalı bir model, sohbet için kullanamayacağınız bir modeldir. Dağıtmayı planladığınız tam kartta gerçekçi eşzamanlılık altında token-başına-saniyeyi ölçün; başkasının H100'ünden elde edilen sayılar L40S'inize aktarılmaz.
Bugün öz-barındırma için Tokonomix'in ilk 5 seçimi
Aşağıdakiler, gelecek hafta gerçekten donanım üzerine kuracağımız seçimdir. Öz-barındırma, barındırılan API dünyasından farklı bir seçim anlayışını ödüllendirir — doğru ana model, genellikle tolere edebileceğiniz niceleme düzeyinde GPU'da hâlâ hareket alanı bırakan en büyük modeldir. Büyüğe ihtiyaç duymayan sorgular için bir yönlendiricinin arkasına daha küçük ikinci bir model ekleyin; ekonomi sizin lehinize dönmeye başlar.
Meta-Llama-3_3-70B-Instruct
via OVH AI Endpoints (GRA)
Her açık ağırlık tartışmasının fiilen başladığı temel nokta. Güçlü talimat takibi, geniş dil kapsamı ve herhangi bir alternatiften daha derin bir topluluk ekosistemi (Ollama, vLLM, llama.cpp). Ciddi donanım gerektirir — iki tüketici GPU'su veya bir veri merkezi kartı — ancak o boyuttaki kalite masrafı karşılar.
- Girdi / 1M token
- $0.6700
- Çıktı / 1M token
- $0.6700
- Bağlam
- —
Qwen3-32B
via OVH AI Endpoints (GRA)
Makul bir nicelemeyle tek yüksek kaliteli tüketici GPU'suna rahatça sığar; çoğu iş yükü için daha büyük Llama'ya yakın kalite sunar. Bütçe bir kartla sınırlıyken ve İngilizce modelin iyi bilmesi gereken tek dil değilse doğru seçimdir.
- Girdi / 1M token
- $0.0800
- Çıktı / 1M token
- $0.2300
- Bağlam
- —
Mistral-Small-3.2-24B-Instruct-2506
via OVH AI Endpoints (GRA)
AB ikametgahlı altyapıda barındırılan, ABD kökenli modellerin genellikle ince karşıladığı diller için ayarlanmış, Avrupa'lı bir sağlayıcıdan izin verici lisanslı açık ağırlıklar. Tedarik kuralları AB kökenli modelleri tercih eden ya da kullanıcıları ilk üçten farklı diller konuşan ekipler için doğal bir seçim. Ticari kullanıma geçmeden önce model kartındaki lisans notunu her zaman yeniden okuyun.
- Girdi / 1M token
- $0.0900
- Çıktı / 1M token
- $0.2800
- Bağlam
- —
gpt-oss-120b
via OVH AI Endpoints (GRA)
İzin verici lisanslı, vizyon özellikli varyantlarda iyi çok modlu desteğe sahip güçlü genel amaçlı talimat modeli. Llama ve Qwen amiral gemilerinden küçük ama ağırlığının çok üzerinde performans gösteriyor; mutlak sıralamanın en tepesini kovalamaktan çok ekosistem olgunluğunun önemli olduğu durumlarda makul bir varsayılan seçim.
- Girdi / 1M token
- $0.0800
- Çıktı / 1M token
- $0.4000
- Bağlam
- —
Barındırılan fiyat referansı (öz-barındırmadığınızda)
Öz-barındırma bir seçenektir; diğeri ise aynı açık ağırlıklı modelleri sizin adınıza çalıştıran bir sağlayıcıdan çıkarım satın almaktır. Grafik, fiyat yayınlayan seçimler için milyon çıkış tokeni başına canlı barındırılan fiyatı göstermektedir — kendi öz-barındırmalı birim ekonominiz için bir sağlamlık kontrolü olarak kullanışlıdır.

Saha rehberi: hangi donanım için hangi model
Aşağıdaki eşleme, ilk öz-barındırmalı modelini seçen bir ekibe tavsiyelik yaparken kullanacağımız yaklaşımdır. Bir başlangıç noktası olarak değerlendirin, kesin bir karar olarak değil — kendi GPU'nuzda token-başına-saniyeyi ölçmek her genel tavsiyenin önüne geçer.
Tek tüketici GPU'su (24-32 GB VRAM)
İş istasyonu veya geliştirici dizüstü bilgisayarı, tek güçlü kartla. Dört bitlik nicelemeyle Mistral Small 3.2 veya Qwen3-32B bu aralıkta kart başına en iyi kaliteyi sunar. Kullanım kolaylığı için Ollama, daha yüksek iş hacmi için vLLM ile servis yapın.
Veri merkezi çıkarım düğümü
Çıkarıma adanmış bir L40S, A100 veya H100. Llama 3.3 70B güvenli varsayılandır; kalite farkı önemliyse ve donanım kaldırabiliyorsa gpt-oss-120b'ye geçin. Servis için sayfalanmış dikkatli vLLM.
Yalnızca CPU veya edge cihazı
Gömülü cihaz, dizüstü bilgisayarda gizlilik modu veya GPU'suz sunucu. Küçük modellerde kalın — Gemma 3 4B veya Mistral 7B — llama.cpp üzerinden servis edin. Gerçekçi beklentiler belirleyin: kalite barındırılan Tier A modeline ulaşmayacak.
Yönetilen açık ağırlıklı çıkarım
GPU'ları kendiniz işletmeden açık modellerin lisansını ve kökenini istiyorsunuz. OVH AI Endpoints gibi sağlayıcılar, AB ikametgahlı altyapıda token başına fiyatlandırmayla Llama, Mistral, Qwen ve Gemma'yı sunar — tam öz-barındırma ile barındırılan sınır arasında bir orta yol.

Karara bağlamadan önce kendi donanımınızda kıyaslayın
Dağıtmayı düşündüğünüz GPU'yu temin edin. İki adayı gerçekte göndereceğiniz niceleme düzeyine yükleyin — ödünç bir H100'deki tam hassasiyetli sürüme değil — ve gerçekçi eşzamanlılıkta aynı yüz istemi her ikisinden de geçirin. Hangi modelin size uyduğu konusunda bir öğleden sonrada, herhangi bir kıyaslama sayfasının bir çeyrekte söyleyebileceğinden daha fazlasını öğrenirsiniz.
Sonra çıktıları okuyun. Nicelemeyi kaldırdı mı? Eş zamanlı yük altında iş hacmi durdu mu? Lisans, hukuk ekibinizin ilk okumasından sağ çıktı mı? Seçtiğiniz servis yığını onu birinci sınıf bir vatandaş olarak mı yoksa bir ek olarak mı ele alıyor? Kendi donanımınızda kazanan model üretime giden modeldir — hiçbir sıralama tablosu onu başa koymasa bile.
Canlı test aracını açın →