İçeriğe geç
Kullanım senaryoları/Yerel ve öz-barındırmalı

Hangi açık ağırlıklı modeli öz-barındırmalısınız?

Bir dil modelini kendiniz barındırmak, ekiplerin fazla erken görmezden geldiği ve fazla geç benimsediği bir seçenektir. Çoğu zaman "barındırılan sınırın gerisinde" diye reddedilir; oysa on iki ay önceki güncel teknoloji kalitesini bugün yinelenen maliyetin çok küçük bir bölümüyle çalıştırmak mümkündür. Benimsenme ise genellikle bir uyumluluk denetimi, başka bir sağlayıcının hizmet koşullarında çözümsüz bir engel bulduğunda panikte gerçekleşir. Bu rehber, bugün üzerine öz-barındırmalı bir yığın kuracağımız beş açık ağırlıklı modeli ve donanımınıza hangisinin uyduğunu belirleyen boyutları ele alır.

Öz-barındırmalı GPU rafı — kavramsal görsel
Doğru kartta doğru açık ağırlıklı model, ölçekte barındırılan her alternatiften daha ucuzdur.

Öz-barındırma neden yeniden değerlendirmeye değer

Açık ağırlıklı modellere karşı argüman eskiden basitti: barındırılan sınır o kadar ileride ki başka herhangi bir şey çalıştırmak yanlış bir ekonomi. Bu argüman 2024 ve 2025 boyunca her çeyrekte zayıfladı. Bugünkü en güçlü açık modeller, bir yıl önce barındırılan amiral gemisinin seviyesine ulaşıyor; bu, müşteriye yönelik sohbet olmayan hemen her üretim iş yükü için yeterli kalite demektir. Keskin uca olan uçurum gerçek; "yeterince iyi"ye olan uçurum ise kapandı.

Yerel çalıştırma kararının nedeni nadiren kalitedir. Mesele veri ikametgahı, yinelenen maliyet, büyük sağlayıcıların neredeyse hiç hizmet vermediği bölgelerdeki gecikme ve sağlayıcı bir kuşağı kullanımdan kaldırdığında altınızdan kaymayan bir modeli çalıştırabilme güvencesidir. Sınıflandırma için ayda on milyon iç belge işleyen bir ekip, token başına ödeme yerine öz-barındırmalı altyapıyla yılda altı haneli bir tasarruf sağlayabilir. Düzenlenmiş verilerle çalışan bir ekip bütün bir tedarik kabusu sürecinden kurtulur. ABD veri merkezlerine yüksek gecikmeyle sahip bir bölgedeki ekip ise kullanıcılara bir büyüklük sırası daha hızlı hizmet verebilir.

Maliyet denklemi "model ağırlıkları ücretsiz" kadar basit değildir. GPU'lar için — satın alınmış ya da kiralık — ve bunları işletmek için gereken mühendislik saatleri için ödeme yaparsınız. Başa baş noktası, token hacmine bağlıdır: ayda yaklaşık yüz milyon tokenın altında barındırılan API'lar toplam maliyette neredeyse her zaman kazanır; bir milyarın üzerinde öz-barındırma neredeyse her zaman kazanır. Orta aralıkta ise iş yüküne özgü ayrıntılar belirleyicidir.

Seçimi beş kısıt tanımlar: modelin kabul edilebilir bir kalitede ne kadar VRAM gerektirdiği, kullanım senaryonuzun lisans koşulları, çevre ekosisteminin olgunluğu ve modelin donanımınızda gerçekte sunabileceği gecikme. Doğru model beşini de karşılayan modeldir; en iyi kağıt üstü kıyaslama puanına sahip model değil.

Öz-barındırmalı servis yığını — kavramsal görsel
Servis yığını — vLLM, Ollama, llama.cpp — modelin kendisi kadar belirleyicidir.

Hangi modelin uyduğuna karar veren beş boyut

Üretim öz-barındırması için açık ağırlıklı bir model seçerken karnecimizin değerlendirdiği eksenler bunlardır. Göreli ağırlıklandırma donanım bütçenize, yargı bölgenize ve ekosistem pürüzlerine toleransınıza göre kayar — ancak her ciddi aday, beşinde de asgari bir çıtayı aşmak zorundadır.

  1. 01 — Donanım uyumu

    Gerçekte sahip olduğunuz kartlarda çalışıyor mu?

    Çok GPU'lu düğüm gerektiren bir model, tek bir tüketici kartında çalışan bir modelden çok farklı bir önermedir. Her zaman dağıtmayı planladığınız niceleme düzeyinde VRAM gereksinimini hesaplayın ve hedef bağlam uzunluğundaki KV önbelleği için rahat bir marj ekleyin. En ucuz hata fazla donanım satın almaktır; en pahalısı ise az almaktır.

  2. 02 — Niceleme kalitesi

    Sığdırabildiğiniz niceleme seviyesinde ne kadar kaybediyor?

    Niceleme kaliteyi bellekle ve hızla takas eder. Bazı modeller dört bitlik nicelemeye iyi dayanır; diğerleri sekizin altında belirgin biçimde bozulur. Yayınlanan tam hassasiyetli kıyaslamalar size çok şey söylemez — donanımınızın gerçekte izin verdiği niceleme düzeyinde ölçün ve bunun sıralamayı alt üst edebileceğini kabul edin.

  3. 03 — Lisans koşulları

    Amaçladığınız şekilde kullanabilir misiniz?

    Açık ağırlıklar her zaman açık lisans anlamına gelmez. Bazıları hiçbir yükümlülük olmaksızın geniş ticari kullanıma izin verir; diğerleri kullanım eşikleri, atıf hükümleri veya yeniden dağıtım kısıtlamaları içerir. Lisansı inşa etmeden önce okuyun, sonra değil. Hukuk ekibinizin nihayetinde veto edeceği katı bir lisans yerine, biraz daha düşük kalitede daha dostane bir lisans genellikle daha iyidir.

  4. 04 — Ekosistem desteği

    Servis yığını ham mı yoksa olgun mu?

    vLLM, Ollama ve llama.cpp'de birinci sınıf desteğe sahip bir modelin, yalnızca tek bir referans komut dosyası ve umut dolu bir README ile gelen bir modele kıyasla işletilmesi büyüklük sıraları kadar ucuz olacaktır. Araç olgunluğu, çoğu ekibin küçümsediği gizli maliyettir; olaylar için harcadığınız mühendislik saatlerinde kendini gösterir.

  5. 05 — Donanımınızdaki gecikme

    Kullanım senaryosu için yeterince hızlı üretiyor mu?

    Karşılayabileceğiniz GPU'da saniyede on token üreten öz-barındırmalı bir model, sohbet için kullanamayacağınız bir modeldir. Dağıtmayı planladığınız tam kartta gerçekçi eşzamanlılık altında token-başına-saniyeyi ölçün; başkasının H100'ünden elde edilen sayılar L40S'inize aktarılmaz.

Bugün öz-barındırma için Tokonomix'in ilk 5 seçimi

Aşağıdakiler, gelecek hafta gerçekten donanım üzerine kuracağımız seçimdir. Öz-barındırma, barındırılan API dünyasından farklı bir seçim anlayışını ödüllendirir — doğru ana model, genellikle tolere edebileceğiniz niceleme düzeyinde GPU'da hâlâ hareket alanı bırakan en büyük modeldir. Büyüğe ihtiyaç duymayan sorgular için bir yönlendiricinin arkasına daha küçük ikinci bir model ekleyin; ekonomi sizin lehinize dönmeye başlar.

#1 · Referans açık ağırlık

Meta-Llama-3_3-70B-Instruct

via OVH AI Endpoints (GRA)

Her açık ağırlık tartışmasının fiilen başladığı temel nokta. Güçlü talimat takibi, geniş dil kapsamı ve herhangi bir alternatiften daha derin bir topluluk ekosistemi (Ollama, vLLM, llama.cpp). Ciddi donanım gerektirir — iki tüketici GPU'su veya bir veri merkezi kartı — ancak o boyuttaki kalite masrafı karşılar.

Girdi / 1M token
$0.6700
Çıktı / 1M token
$0.6700
Bağlam
Tam kıyaslama profili →
#2 · Tek GPU için ideal nokta

Qwen3-32B

via OVH AI Endpoints (GRA)

Makul bir nicelemeyle tek yüksek kaliteli tüketici GPU'suna rahatça sığar; çoğu iş yükü için daha büyük Llama'ya yakın kalite sunar. Bütçe bir kartla sınırlıyken ve İngilizce modelin iyi bilmesi gereken tek dil değilse doğru seçimdir.

Girdi / 1M token
$0.0800
Çıktı / 1M token
$0.2300
Bağlam
Tam kıyaslama profili →
#3 · Avrupa seçeneği

Mistral-Small-3.2-24B-Instruct-2506

via OVH AI Endpoints (GRA)

AB ikametgahlı altyapıda barındırılan, ABD kökenli modellerin genellikle ince karşıladığı diller için ayarlanmış, Avrupa'lı bir sağlayıcıdan izin verici lisanslı açık ağırlıklar. Tedarik kuralları AB kökenli modelleri tercih eden ya da kullanıcıları ilk üçten farklı diller konuşan ekipler için doğal bir seçim. Ticari kullanıma geçmeden önce model kartındaki lisans notunu her zaman yeniden okuyun.

Girdi / 1M token
$0.0900
Çıktı / 1M token
$0.2800
Bağlam
Tam kıyaslama profili →
#4 · Google'ın açık katkısıTier C

gpt-oss-120b

via OVH AI Endpoints (GRA)

İzin verici lisanslı, vizyon özellikli varyantlarda iyi çok modlu desteğe sahip güçlü genel amaçlı talimat modeli. Llama ve Qwen amiral gemilerinden küçük ama ağırlığının çok üzerinde performans gösteriyor; mutlak sıralamanın en tepesini kovalamaktan çok ekosistem olgunluğunun önemli olduğu durumlarda makul bir varsayılan seçim.

Girdi / 1M token
$0.0800
Çıktı / 1M token
$0.4000
Bağlam
Tam kıyaslama profili →

Barındırılan fiyat referansı (öz-barındırmadığınızda)

Öz-barındırma bir seçenektir; diğeri ise aynı açık ağırlıklı modelleri sizin adınıza çalıştıran bir sağlayıcıdan çıkarım satın almaktır. Grafik, fiyat yayınlayan seçimler için milyon çıkış tokeni başına canlı barındırılan fiyatı göstermektedir — kendi öz-barındırmalı birim ekonominiz için bir sağlamlık kontrolü olarak kullanışlıdır.

Modeli barındıran bir çıkarım sağlayıcısı tarafından yayınlandığı haliyle 1M çıkış tokeni başına fiyat, USD. Listelenen barındırılan fiyatı olmayan modeller çıkarılmıştır. Kaynak: Tokonomix tarafından takip edilen canlı sağlayıcı fiyatlandırması.
GPU kullanım panosu — kavramsal görsel
Önemli olan metrik: kendi donanımınızda ölçülen dolar başına token-başına-saniyedir.

Saha rehberi: hangi donanım için hangi model

Aşağıdaki eşleme, ilk öz-barındırmalı modelini seçen bir ekibe tavsiyelik yaparken kullanacağımız yaklaşımdır. Bir başlangıç noktası olarak değerlendirin, kesin bir karar olarak değil — kendi GPU'nuzda token-başına-saniyeyi ölçmek her genel tavsiyenin önüne geçer.

Pattern A

Tek tüketici GPU'su (24-32 GB VRAM)

İş istasyonu veya geliştirici dizüstü bilgisayarı, tek güçlü kartla. Dört bitlik nicelemeyle Mistral Small 3.2 veya Qwen3-32B bu aralıkta kart başına en iyi kaliteyi sunar. Kullanım kolaylığı için Ollama, daha yüksek iş hacmi için vLLM ile servis yapın.

Pattern B

Veri merkezi çıkarım düğümü

Çıkarıma adanmış bir L40S, A100 veya H100. Llama 3.3 70B güvenli varsayılandır; kalite farkı önemliyse ve donanım kaldırabiliyorsa gpt-oss-120b'ye geçin. Servis için sayfalanmış dikkatli vLLM.

Pattern C

Yalnızca CPU veya edge cihazı

Gömülü cihaz, dizüstü bilgisayarda gizlilik modu veya GPU'suz sunucu. Küçük modellerde kalın — Gemma 3 4B veya Mistral 7B — llama.cpp üzerinden servis edin. Gerçekçi beklentiler belirleyin: kalite barındırılan Tier A modeline ulaşmayacak.

Pattern D

Yönetilen açık ağırlıklı çıkarım

GPU'ları kendiniz işletmeden açık modellerin lisansını ve kökenini istiyorsunuz. OVH AI Endpoints gibi sağlayıcılar, AB ikametgahlı altyapıda token başına fiyatlandırmayla Llama, Mistral, Qwen ve Gemma'yı sunar — tam öz-barındırma ile barındırılan sınır arasında bir orta yol.

Öz-barındırmalı operasyon kurulumu — kavramsal görsel
Operasyonel yük gerçektir — yalnızca GPU süresini değil, mühendislik süresini de bütçenize katın.

Karara bağlamadan önce kendi donanımınızda kıyaslayın

Dağıtmayı düşündüğünüz GPU'yu temin edin. İki adayı gerçekte göndereceğiniz niceleme düzeyine yükleyin — ödünç bir H100'deki tam hassasiyetli sürüme değil — ve gerçekçi eşzamanlılıkta aynı yüz istemi her ikisinden de geçirin. Hangi modelin size uyduğu konusunda bir öğleden sonrada, herhangi bir kıyaslama sayfasının bir çeyrekte söyleyebileceğinden daha fazlasını öğrenirsiniz.

Sonra çıktıları okuyun. Nicelemeyi kaldırdı mı? Eş zamanlı yük altında iş hacmi durdu mu? Lisans, hukuk ekibinizin ilk okumasından sağ çıktı mı? Seçtiğiniz servis yığını onu birinci sınıf bir vatandaş olarak mı yoksa bir ek olarak mı ele alıyor? Kendi donanımınızda kazanan model üretime giden modeldir — hiçbir sıralama tablosu onu başa koymasa bile.

Canlı test aracını açın →

İlgili kullanım senaryoları