İçeriğe geç

marketing seo

220 Model Üzerinde 23.000 Benchmark Testi Bize Yapay Zeka Sınırı Hakkında Neler Öğretti

220 Model Üzerinde 23.000 Benchmark Testi Bize Yapay Zeka Sınırı Hakkında Neler Öğretti

Bir yapay zeka modeli seçmek hiç bu kadar zor görünmemişti. Piyasa, çoğu ekibin değerlendirebileceğinden daha hızlı yeni sürümler sunuyor; fiyatlandırma büyüklük sırasıyla farklılık gösteriyor ve satıcıların "sınıfının en iyisi" iddiaları neredeyse her zaman seçici ölçümler içeriyor. Biz de basın bültenlerini okumayı bırakıp ölçmeye başladık.

Altı hafta boyunca — 30 Nisan'dan 15 Haziran 2026'ya kadar — Tokonomix, takip ettiğimiz 220 modelden oluşan kataloğumuzdan seçilen 203 ayrı model üzerinde 23.373 benchmark testi yürüttü; ölçüm sırasında bunların 131'i aktif durumdaydı. Yedi sağlayıcıyı kapsıyordu: Anthropic, OpenAI, Google, OVH (AB'de barındırılan), OpenRouter, DeepSeek ve Mistral. Her model altı yetenek kategorisinde 0–100 arasında puanlandı: kodlama, akıl yürütme, olgusal doğruluk, yaratıcı yazarlık, çok dilli performans ve sağlık. Tek bir şirketin benchmark'ı değil, özenle seçilmiş demo istemleri de değil — üretim kalitesinde, sürekli güncellenen bir ölçüm.

Veriler gerçekte şunu gösteriyor.


Zirve Sandığınızdan Çok Daha Sıkışık

En çarpıcı bulgu, sınır liderlerini birbirinden ayıran mesafenin ne kadar küçük olduğu. Genel puana göre (altı kategorinin ortalaması) ilk on model, yalnızca bir puanlık bir bantta yer alıyor:

| Model | Genel Puan | |---|---| | gemini-3.1-flash-lite | 99.4 | | gemini-flash-lite-latest | 99.2 | | claude-opus-4-5 | 99.1 | | claude-opus-4-7 | 98.9 | | gpt-5-chat-latest | 98.8 | | claude-opus-4-8 | 98.7 | | claude-opus-4-6 | 98.6 | | gpt-4.1 | 98.0 | | gpt-4.1-mini | 98.0 | | gpt-4.1-nano | 98.0 |

Genel puan, 15 Haziran 2026'ya kadar ölçülen altı kategorinin ortalamasıdır. Genel sıralamamız yeni testler geldikçe sürekli güncellenir; bu nedenle canlı sıralamalar bu anlık görüntüden biraz farklı olacaktır — işte mesele tam da bu: sınır haftadan haftaya değişiyor.

Birinci sıra ile onuncu sıra arasındaki fark, 100 puanlık ölçekte yalnızca 1,4 puan. Bu sıkışıklığın pratik bir sonucu var: bir satıcının blog yazısında okuduğunuz "Model X, Model Y'den yüzde 20 daha zeki" iddiası neredeyse kesinlikle dar ve spesifik bir şeyi ölçüyor, toplam yeteneği değil. Sınırda, toplam yetenek yakınsadı.

Bu, tüm modellerin eşit olduğu anlamına gelmiyor — genel puanın aralarında seçim yapmak için yanlış bir araç olduğu anlamına geliyor. Daha derine inmek gerekiyor.


Kodlama ve Akıl Yürütme Doygunluğa Ulaşıyor

Altı kategoriyi ayrı ayrı incelediğinizde, ikisi — kodlama ve akıl yürütme — sınırda artık tavan etkisi gösteriyor. Pek çok üst düzey model her iki boyutta da 100 tavanına ulaşıyor; bu da söz konusu kategorilerin en iyi seçenekler arasında artık ayrım yapmadığı anlamına geliyor. Yalnızca yazılım geliştirme veya mantıksal problem çözme için model seçiyorsanız, şu anda ölçebildiğimiz boyutlarda hepsi temelden maksimuma ulaşmış modeller arasından seçim yapıyorsunuz demektir.

Sınırda modelleri birbirinden ayıran kategoriler ise olgusal doğruluk, çok dilli performans ve sağlık. Bunların doygunluğa ulaşması daha zor çünkü kodlama ve akıl yürütme görevlerinin ödüllendirdiği kural takibinden ziyade geniş bilgi kapsamı, kültürel nüans ve alan hassasiyeti gerektiriyorlar. Kullanım senaryonuz bu üç alan içindeyse, seçim kararı çok daha anlamlı — ve daha veriye bağımlı — hale geliyor.


Maliyet: Sınırın Yaklaşık Yüzde 98'ini Birkaç Kuruşa Satın Alabilirsiniz

Bizi en çok şaşırtan tek rakam şu: genel lider bir "flash-lite" tier modeli.

gemini-3.1-flash-lite, genel sıralamada 99.4 ile zirvede yer alıyor — herhangi bir sağlayıcının en büyük amiral gemisi modellerinin önünde. Yetenek artık en büyük, en pahalı tier'ı gerektirmiyor. Bu, puanlama metodolojimizin bir tesadüfü değil; altı haftalık ölçüm boyunca tutarlı biçimde ortaya çıkıyor.

Daha genel bir perspektiften bakıldığında, maliyet açısından verimli sınır şöyle görünüyor:

  • gpt-4.1-nano: Milyon girdi token başına 10 sent, milyon çıktı token başına 40 sent — genel puan 98.0. Bu, çoğu amiral gemisi modelinin karşılayamayacağı bir fiyata, birinci sıradaki modelin yalnızca iki puan gerisinde.
  • gpt-oss-120b (OVH aracılığıyla AB'de barındırılan): Milyon girdi token başına 8 sent, milyon çıktı token başına 40 sent — genel puan 97.5.
  • Mistral-Small-3.2-24B (OVH, AB): Milyon girdi token başına 9 sent, milyon çıktı token başına 28 sent — genel puan 93.7.

Pratik çıkarım: üretim iş yüklerinin büyük çoğunluğu için, amiral gemisi fiyatlandırmasının küçük bir kesimiyle sınırın ölçülen kalitesinin yaklaşık yüzde 98'ine ulaşabilirsiniz. Genel puandaki kalan 1–2 puan, belirli yüksek riskli görevler için önemli olabilir; ancak genel amaçlı kullanım için ekonomi, verimli tier lehine dramatik biçimde değişti.


Hız Kendi Başına Bir Eksen

Gecikme süresi kaliteyi izlemiyor. Bu kulağa bariz gelebilir, ancak veriler bunu somutlaştırıyor.

Veri setimizde ortanca yanıt süresi en hızlı olan modeller, amiral gemisi konuşmalarında adını belki duymadığınız modeller:

  • voxtral-small-24b: Yaklaşık 157 ms ortanca (p50) yanıt süresi
  • nemotron-super-49b: Yaklaşık 200 ms
  • hermes-3-llama-3.1-70b: Yaklaşık 227 ms
  • llama-4-scout: Yaklaşık 248 ms

Diğer uçta:

  • gemma-4-26b: Ortanca yaklaşık 22.950 ms
  • gemma-4-31b: Ortanca yaklaşık 21.940 ms
  • gpt-4-turbo: Yaklaşık 10.550 ms

Ölçümümüzdeki en yavaş modeller, ortancada en hızlı olandan 140 kattan fazla yavaş. Yanıt süresinin bir ürün kalite sinyali olduğu kullanıcıya yönelik uygulamalarda, bu fark insanların başvurduğu bir araç ile terk ettiği bir araç arasındaki fark demek.

Model seçimine yönelik çıkarım: kalite puanı ve gecikme süresi bağımsız değişkenlerdir. Yüksek puanlı bazı modeller yavaş. Bazı hızlı modeller kalite açısından iyi puan alıyor. Her iki ekseni de kullanım senaryonuz için eş zamanlı değerlendirmeniz gerekiyor — bir arka plan özetleme hattının gereksinimleri, gerçek zamanlı bir kodlama asistanınkinden farklı.


Egemenlikten Ödün Vermeden: AB'de Barındırılan Modeller Artık Sınıra Yakın

GDPR veya diğer veri yerelleştirme gereksinimleri kapsamında faaliyet gösteren ekipler için AB barındırması, tarihsel olarak önemli bir kalite indirimine katlanmak anlamına geliyordu. Bu artık doğru değil.

Fransa'daki OVH altyapısında barındırılan modeller arasında genel puanı 90'ın üzerinde olanlar şunlar:

  • gpt-oss-120b: 97.5
  • Qwen2.5-VL-72B: 94.3
  • Mistral-Small-3.2-24B: 93.7
  • Meta-Llama-3.3-70B: 92.7
  • Llama-3.1-8B: 91.2

AB veri yerleşimi olan bir modelden 97.5 puan, milyon girdi token başına 8 sent fiyatla, pek çok kuruluş için uyumluluk hesabını değiştiriyor. Altı ay önce bu kombinasyon bu kalite düzeyinde mevcut değildi. Şimdi var.


Peki Hangi Modeli Kullanmalısınız?

Dürüst cevap şu: "en iyi model" yanlış soru.

Veriler, ilk on modelin 1,4 puanla ayrıldığı ve flash-lite modelin genel sıralamayı önde tamamladığı bir sınır ortaya koyuyor. Bu ortamda tek yüksek toplam puan için optimizasyon yapmak, üretimde ölçemeyeceğiniz farklar için ödeme yapmanıza yol açar. Doğru soru şu: bu görev için, bu maliyette, bu gecikme bütçesiyle, bu veri yerelleştirme kısıtlamaları altında en iyi model hangisi.

Bu çerçeve değişikliği değerlendirme biçiminizi dönüştürür:

  • Maliyetin belirleyici olduğu yüksek hacimli metin işleme için: gpt-4.1-nano veya gpt-oss-120b, milyon girdi token başına 8–10 sent aralığında sınıra yakın kalite sunuyor.
  • Gecikmenin belirleyici olduğu gerçek zamanlı kullanıcıya yönelik özellikler için: 250 ms altındaki modeller başlangıç noktası; oradan belirli görev kategorinizdeki kaliteye göre filtreleme yapın.
  • Kalite farklarının hâlâ anlamlı olduğu olgusal, çok dilli veya sağlık iş yükleri için: kodlama ve akıl yürütme puanları sınırda artık ayrım yapmadığından, yan yana kategori düzeyi puanlama tam da burada en çok önem kazanıyor.
  • AB veri yerleşimi zorunluluğu için: OVH'da barındırılan tier artık tam veri yerleşimiyle genel puanı 90'ın üzerinde sunuyor — egemenliği bir geri dönüş seçeneği olarak değil, başından beri bir faktör olarak değerlendirin.

Ortak nokta şu: bu kararların hiçbiri tek bir toplu sıralamayla ya da satıcının benchmark sayfasıyla alınamaz. Gerçekten değerlendirdiğiniz modellere karşı, kendi istemlerinizle, kendi kullanım ölçeğinizde görevinizi ölçmenizi gerektiriyorlar.


Bunu kendiniz denemek istiyorsanız, /live-test/consensus adresinde kendi istemlerinizde aynı çok modelli konsensüs değerlendirmesini çalıştırabilirsiniz. Sorgunuzu eş zamanlı olarak birden fazla model üzerinde çalıştırır; uyum, uyumsuzluk ve kategori düzeyi performansı yüzeye çıkarır — böylece tam olarak yanıtlamaya çalıştığınız soruya ilişkin modellerin nerede buluştuğunu, nerede ayrıştığını görebilirsiniz.

Sınır bir yıl öncesine kıyasla daha kalabalık, daha uygun fiyatlı ve daha geniş coğrafi dağılıma sahip. Bu süreçte başarılı olacak ekipler, varsayım yerine ölçüm yapanlardır.