İçeriğe geç

Benchmarks

Metodoloji

Tokonomix'in AI model performansını nasıl ölçtüğü. Tedarikçi etkisi yok. Sponsorlu sonuç yok. Şeffaf metodoloji, açık veri.

Mes Kalkan, Kurucu, Tokonomix··

Hız

Model ne kadar hızlı yanıt veriyor? Sabit uzunlukta bir çıktı istemi için son token'a kadar geçen süreyi ölçüyoruz.

🧠

Zekâ

Model ne kadar doğru ve yetenekli? Bir hakim LLM, 6 kategoride 0–100 ölçeğinde yanıtları değerlendirir.

💚

Sağlık

API erişilebilir mi? Her 6 saatte bir kontrol eder ve hata oranları ile erişilebilirlik pencerelerini takip ederiz.

Hız Testi

İstem: Yaklaşık 500 token çıktı hedefleyen sabit bir talimat. Her çalıştırma döngüsünde her model için aynı istem kullanılır.

Çalıştırma: Test döngüsü başına 3 ardışık çağrı. Uçtan uca gecikmeyi (ilk byte'tan son byte'a) ölçeriz; TTFT değil.

Metrikler: 3 çalıştırmada P50 (medyan) ve P95 (kuyruk). P50 öne çıkan rakamdır; P95 tutarlılığı ortaya koyar.

Ölçüm konumu: AB — Amsterdam (AMS). Tüm sonuçlar AB gecikmesidir. ABD veya Asya sonuçları farklılık gösterir.

Hız seviyeleri:

Hız S
< 200 ms
Gerçek zamanlıya yakın
Hız A
< 500 ms
Etkileşimli
Hız B
< 1000 ms
Kabul edilebilir
Hız C
> 1000 ms
Toplu işleme uygun
🧠

Zekâ Testi

Durum: Mayıs 2026'dan beri yayında. 6 kategori ve 4 sağlayıcıda 13,593 puanlı çalıştırma. Hız ve sağlık kontrollerinin yanı sıra her 6 saatte bir yeni çalıştırma.

Hakim model: Claude Sonnet 4.5 tarafsız hakim olarak görev yapar. Değerlendirilen modelin adı hakim istemine hiçbir zaman dahil edilmez — yalnızca ham yanıt metni puanlanır (kör inceleme).

Puanlama: Her istem, hakimden tek bir 0–100 kalite puanı ve bir sınıflandırma (doğru / kısmi / yanlış) alır. Hakim; olgusal doğruluk, eksiksizlik, muhakeme kalitesi ve format uyumunu birleşik bir rubrik olarak değerlendirir. Kategori ortalamaları model sayfalarında gösterilir.

Altı istem kategorisi:

Akıl yürütme
Çok adımlı mantıksal çıkarım ve matematik
Kodlama
Kod üretimi, hata ayıklama, inceleme
Olgusal
Olgusal iddiaların doğruluğu
Çok dilli
Çeviri ve diller arası doğruluk
Yaratıcı
Serbest biçimli yaratıcı çıktı
Sağlık (Zorg)
Hollanda sağlık alanı bilgisi

Genel kalite puanı: Bir modelin tüm kategorilerdeki puanlı çalıştırmalarının ağırlıksız ortalaması.

🏁

Neyin sayıldığı ve neyi izlediğiniz

Arena, can barları ve darbelerle canlı bir yarış gösterir — ancak ekran ve sıralama iki ayrı katmandır. Görsel izlemek içindir; sıralama bağımsız bir hakem paneli tarafından belirlenir. Bu tablo ayrımı açıkça ortaya koyar; böylece ekrandaki hiçbir şey sonuçla karıştırılmaz.

EkrandaKaynakSıralamaya katılır mı?
Can barları / lider / hasar / darbelerDeterministik görsel türetme (v8.1-tokonomix)Hayır — kozmetik
Bir turda canlı yarış lideriTur başına tek hızlı hakem (gpt-4o-mini, 0–10)Hayır — göstergelik
Tur galibiÇapraz aile paneli çoğunluk oyu (0–100)Evet
Leaderboard sırasıTrueSkill beceri tahmini (μ)Evet
Jüri beğenileri (▲)Bir hakemin modeli ≥60 puanladığında panel oyuGösterilir, sıralamaya katılmaz
Hakem uyum yüzdesiBir hakemin tercihinin panel galibiyle ne sıklıkla örtüştüğüPanel uyumu — doğruluk ölçütü değil
Tasarruf (€)Daha ucuz bir council'ın daha pahalı bir modeli yendiği turlarEn iyi senaryo — yalnızca galibiyetler
Yakalanan kör noktalar≥2 panel hakemi tarafından onaylanan eksikliklerYalnızca onaylananlar — yayılıyor
⚔️

Dördüncü bir yöntem: arena

Statik testler bir modeli sabit bir çıtayla ölçer. Arena ise modelleri birbiriyle, gerçekçi müşteri hizmetleri senaryolarında ve rakip model paneli tarafından değerlendirerek ölçer. Tek bir puanın veremeyeceği bir şey üretir: belirsizlik marjıyla birlikte göreli bir sıralama.

Bu neden statik testleri tamamlar (yerini almaz):

  • Statik testler kategoriye göre mutlak kaliteyi verir; arena ise gerçekçi görevlerde birebir güç ve maliyet-kalite dengesini ortaya koyar.
  • Arena, 0–100 puanının gözden kaçırdığı şeyleri yakalar: birden fazla turda tutarlılık, modelin takip sorularını nasıl ele aldığı ve — council'larla birlikte — iş birliğinin gerçekten işe yarayıp yaramadığı.
  • Ekrandaki yarış, müsabakanın nasıl geliştiğini izlemenin bir yoludur. Sonuç her zaman panel tarafından belirlenir, asla can barlarıyla değil.
⚖️

Bir tur nasıl puanlanır: tur başı değerlendirmeden panele

Puanlama iki aşamada gerçekleşir. Maç sırasında tek hızlı bir hakem süregelen bir tablo tutar; sonunda bağımsız bir hakem paneli galip üzerine oy kullanır.

Aşama 1 — canlı, tur başına: Tek hızlı, kasıtlı olarak ucuz bir hakem (gpt-4o-mini), her yanıtı tek bir çağrıda 0–10 ölçeğinde puanlar. Bu yalnızca canlı yarış şeritlerini besler — gösterge niteliğindedir, belirleyici değil.

Aşama 2 — tur sonu, panel: Farklı model ailelerinden 3–5 hakim 0–100 ölçeğinde bağımsız olarak galip üzerine oy kullanır. Çoğunluk kazanır; beraberlikler en yüksek ortalama panel puanıyla, ardından deterministik olarak en düşük model kimliğiyle kırılır.

İndekse göre kör değerlendirme: Model adları panel isteminden çıkarılır — yarışmacılara yalnızca numara/indeksle atıfta bulunulur, böylece panel tanıdık bir markayı kayıramaz.

Sabit eşikler: Bir model, hakem tarafından ≥60 puanlandığında beğeni (▲) kazanır. Galibinin marjı puan ölçeğinin ≥30'una ulaştığında bir tur 'belirleyici' olarak işaretlenir. Bu sabit değerler gördüğünüz sayımları belirler.

📈

TrueSkill: μ ve σ ne anlama gelir

Her modelin tahmini bir beceri düzeyi μ (mu) ve belirsizliği σ (sigma) vardır. Yeni bir model μ=25, σ=8.333 ile başlar — yüksek belirsizlik. Her maç, μ'yü modelin gerçek gücüne yaklaştırır ve σ'yı küçültür. Aynı μ'ye ancak farklı σ'ya sahip iki model eşit değildir: düşük σ'ya sahip olan kanıtlanmıştır, diğeri hâlâ bir tahmindir.

Gerçekte kullandığımız sabitler: Başlangıç puanı μ=25, σ=8.333; beceri varyansı BETA=4.167; maç başına kayma TAU=0.0833. Bunlar kodda sabittir ve her model için aynıdır.

Şu an nasıl sıralıyoruz — dürüstçe açıklanmış: Leaderboard ham μ (tahmini güç) üzerinden sıralar. Daha katı 'kanıtlanmış' bir sıralama muhafazakâr μ − 3σ üzerinden sıralardı. Bu erken veri olduğundan — çoğu modelin yalnızca birkaç oyunu var — σ hâlâ büyüktür ve listenin tepesi değişebilir. Tahmini gösterir ve bunun bir tahmin olduğunu söyleriz; tek bir sayının arkasına saklanmayız.

🤝

Council ve frontier: iş birliği işe yarar mı?

Bir tur, küçük modellerin ucuz bir council'ını tek bir pahalı frontier modeline karşı çıkarabilir. Bir council'da, her turun yanıtı üyelerinin konsensüs sentezidir. Bu, arenaya tek bir puanın cevaplayamayacağı bir soruyu sormak imkânı tanır: ucuz bir council, pahalı bir frontier modeli yenebilir mi — ve eğer yenerse ne kadar tasarruf sağlar?

Tasarruf nasıl hesaplanır: Bir council hem bir turu kazandığında hem de yendiği frontier modelinden daha ucuza mal olduğunda farkı tasarruf olarak gösteririz. Council galibiyeti gruba bağlıdır, hiçbir zaman bireysel üyenin sıralamasına değil; bu nedenle grup sonucu tek bir modelin sıralamasını şişirmez.

En iyi senaryo uyarısı: Tasarruflar yalnızca council'ın kazandığı turlardan birikir. Kaybeden council'lar (ve dolayısıyla boşa para harcayanlar) çıkarılmaz. Bu rakam, council'ın kazandığı turlarda elde edilebilecek en iyi senaryo tasarrufudur — net bir sonuç değil.

🪪

İki bağımsız itibar

Bir model iki ayrı yöntemle ölçülür ve ikisi çelişebilir; ancak bu ikisinden birinin yanlış olduğu anlamına gelmez — farklı şeyleri ölçerler.

Arena itibarı (göreli): Birebir oyun galibiyetlerinden elde edilen TrueSkill. Bir modeli gerçekçi senaryolarda rakipleriyle kıyaslar.

Tarafsız hakem itibarı (mutlak): Bir modelin, rakip yerine sabit bir rubrik karşısında tekrarlayan zekâ testinde doğru / kısmi / yanlış olarak derecelendirilme sıklığı.

Bir model oyunları kaybedip yüksek doğruluk itibarını koruyabilir ya da oyunlar kazanırken mutlak doğrulukta yalnızca kısmi puan alabilir. Bu ayrımı kasıtlı olarak koruyoruz.

🔍

Kör noktalar

Kör nokta, diğer yarışmacıların ≥2'sinin kapsadığı önemli bir noktanın bir yarışmacı tarafından atlanmasıdır — bu, konunun göz ardı edilemeyecek kadar önemli olduğunu kanıtlar.

Panel tarafından onaylananlar: Bir kör nokta yalnızca ≥2 panel hakemi aynı eksiklik üzerinde bağımsız olarak hemfikir olduğunda sayılır. Bir hakem konu listesini ve ıskalama matrisini önerir; diğer hakemler aynı sabitlenmiş konuları doldurur ve bir ıskalama, en az iki matrisin o hücrede hemfikir olduğunda onaylanır.

Durum: Bu tespit canlı ve turlar genelinde yaygınlaşıyor. Henüz bir sayı yayınlamıyoruz — yeterli veriyle desteklenmeyen bir sayı göstermektense hiç sayı göstermemeyi tercih ederiz.

Sabitler ve eşikler

Arena sayfalarındaki her sayım, küçük bir sabit seçimler kümesinden kaynaklanır. Sayıların denetlenebilir olması için bunları burada listeliyoruz.

Beğeni (▲):
0–100 panel ölçeğinde ≥60 hakem puanı.
Belirleyici tur:
Puan ölçeğinin ≥30'lik kazanma marjı.
Kör noktalar için minimum yarışmacı:
En az 3 yarışmacı — bunun altında 'diğerlerinin ≥2'si kapsadı' ifadesi anlamlı olamaz.
TrueSkill parametreleri:
BETA=4.167, TAU=0.0833; başlangıç puanı μ=25, σ=8.333.
Beraberlikler:
Tam beraberlik, hiç kimse için kayıp sayılmaz — beraberlik olarak işlenir — ve hiçbir tasarruf kaydetmez.

Dürüst açıklamalar

Dikkatli bir okuyucunun açıklanmasını isteyeceği şeyler — sınırlar, bilinen önyargılar ve sayıları şekillendiren tercihler.

Erken veri, değişken sıralamalar: Arena henüz genç. Çoğu modelin yalnızca birkaç oyunu var, bu nedenle tek bir galibiyet ya da mağlubiyet μ'yü büyük ölçüde etkileyebilir ve sıralamalar hâlâ değişkendir. Düzenin oturduğunu ima etmek yerine oyun sayılarını ve belirsizliği gösteriyoruz.

Ham-μ sıralaması: Sıralama muhafazakâr μ − 3σ yerine ham μ üzerinden yapılır. Yüksek belirsizlik söz konusu olduğunda bu, şanslı bir galibiyetle bir modelin daha kanıtlanmış olanın üstüne çıkabileceği anlamına gelir. Mevcut düzeni 'tahmin edilmiş, henüz kanıtlanmamış' olarak değerlendiriyoruz.

Hakem uyumu doğruluk değildir: Hakem uyumu rakamı, bir hakemin tercihinin panel galibiyle ne sıklıkla örtüştüğünü ölçer — ancak galip, aynı hakemlerin çoğunluğudur. Panele uyumu ölçer, panelin haklı olup olmadığını değil. Doğru ama aykırı bir hakem burada düşük puan alır.

Tasarruflar en iyi senaryodur: Tasarruflar yalnızca council'ın kazandığı ve daha ucuz olduğu turları sayar; kaybeden council'lar çıkarılmaz. Bunu kazanılan turlardaki en iyi senaryo rakamı olarak okuyun, net bir tasarruf olarak değil.

Zekâ testinde tek hakem öz-tercihi: Tekrarlayan zekâ testi, Claude ailesini de yargılayabilen tek bir birincil hakem (Claude Sonnet 4.5) üzerinde çalışır — öz-tercih bilinen bir LLM önyargısıdır. Bunu kalibre etmek için ikincil bir çapraz kontrol hakemi mevcuttur ve arena bunu çapraz aile paneliyle daha da azaltır; tek hakemli zekâ testinde bu panel bulunmaz.

Yarışmacı ↔ hakem ailesi çakışması: Bir model ailesi aynı turda hem yarışmacı hem de hakem panelinde yer alabilir. İndekse göre kör değerlendirme ve çapraz aile paneli etkiyi azaltır; ancak çakışma yaşanabilir ve bunu katı aile dışlaması iddia etmek yerine açıklıyoruz.

İki ölçek, bir sıralama: Canlı tur başı hakem 0–10 ölçeği kullanır, tur sonu panel ise 0–100. Sıralamaya ulaşmadan önce her şeyi aynı ölçeğe normalize ederiz; böylece bir tur sırasında görebileceğiniz iki sayı sıralamada karıştırılmaz.

Beraberlikler nasıl ele alınır: Net bir galip olmayan bir tur, herkes için kayıp sayılmaz — bu kazanma oranlarını çarpıtır — bunun yerine beraberlik olarak işlenir ve hiçbir tasarruf kaydedilmez.

Versiyonlanmış, deterministik türetme: Ekrandaki görsel türetme saf, deterministiktir ve tam olarak daha sonraki bir mantık değişikliğinin geçmiş turları sessizce yeniden yazmaması için bir versiyon etiketi (v8.1-tokonomix) taşır. Önemli metodoloji değişiklikleri aşağıdaki değişiklik günlüğünde kayıt altına alınır.

Görüntü kalite kontrolü: vision-QC pilotu

Haziran 2026'da yapay zeka görüntü kalite kontrolünün ilk temel ölçümünü gerçekleştirdik. Altı tekil model ve iki konsey yapılandırması 300 görüntüde test edildi. Konsey en iyi tekil modelin %66,9'una karşın %87,5 geri çağırma elde etti. Tam sonuçlar /benchmarks/vision-qc adresinde.

Tam sonuçlar

💚

Sağlık Kontrolü

Sıklık: Her 6 saatte bir (06:00, 12:00, 18:00, 00:00 UTC).

Yöntem: Minimal bir yankı tipi istem gönderilir. HTTP durumunu, hata mesajını (varsa) ve yanıt süresini takip ederiz.

Hata takibi: Çalıştırma başına error_count kaydedilir. Sürekli yüksek hata oranları sıralamada gösterilir.

Çalıştırma Takvimi

06:00 UTC
Hız + Sağlık
12:00 UTC
Hız + Sağlık
18:00 UTC
Hız + Sağlık
00:00 UTC
Hız + Sağlık

Tüm saatler UTC. Zekâ testleri hız ve sağlık kontrolleriyle birlikte her 6 saatte bir çalışır. Veri tazeliği her benchmark sonucunun yanında gösterilir.

SSS

Herhangi bir AI sağlayıcısıyla bağlantınız var mı?+
Hayır. Tokonomix, bağımsız bir altyapı şirketi olan InterIP Networks tarafından işletilmektedir. Herhangi bir AI sağlayıcısıyla ticari ilişkimiz yoktur ve sponsorlu yerleştirme almıyoruz.
Neden yalnızca AB gecikmesi?+
Amsterdam'dan çalışıyor ve AB kullanıcıları için gerçek dünya gecikmesini ölçüyoruz. Pek çok sağlayıcının birden fazla bölgesi var — ABD veya Asya'dan gelen gecikme önemli ölçüde farklı olur. Gelecekteki bir güncellemede bölge değiştirme seçeneği ekleyeceğiz.
API maliyetini nasıl yönetiyorsunuz?+
Döngü başına sabit bir istem bütçesiyle çalışıyoruz. Amiral gemisi modeller (GPT-5, Claude Opus) maliyet nedeniyle daha az sıklıkta test edilir. Çalıştırma sıklığı her modelin yanında görünür.
Ham verileri indirebilir miyim?+
Evet — JSON dışa aktarma ve şema belgeleri için Veri Kümesi sayfasına bakın. Tam veri kümesi /api/md/{lang}/dataset adresinde mevcuttur.
Hakim LLM tüm modellere adil mi?+
Hakim olarak Claude Sonnet 4.5 kullanıyoruz; model adları değerlendirme isteminden çıkarılıyor. Ailelerin ötesi önyargı bilinen bir endişedir — hakimi kalibre etmek için Q3 2026'da insan temel çizgileri eklemeyi planlıyoruz.

Metodoloji sorumlusu

Bu metodoloji Mes Kalkan tarafından korunmakta ve imzalanmaktadır. Önemli değişiklikler aşağıda günlüğe kaydedilir. Veri düzeltmeleri metodoloji sorumlusu üzerinden iletilir ve doğrulanmış bir raporun 24 saati içinde yayınlanır.

Metodoloji değişiklik günlüğü

  • — İlk metodoloji yayınlandı. İmzalayan: Mes Kalkan.

Veri API'si

Tüm benchmark verileri ücretsiz olarak sunulmaktadır. Salt okunur erişim için anahtar gerekmez.

GET/api/md/tr/datasetJSON olarak tam veri kümesi