Benchmarks
Metodoloji
Tokonomix'in AI model performansını nasıl ölçtüğü. Tedarikçi etkisi yok. Sponsorlu sonuç yok. Şeffaf metodoloji, açık veri.
Hız
Model ne kadar hızlı yanıt veriyor? Sabit uzunlukta bir çıktı istemi için son token'a kadar geçen süreyi ölçüyoruz.
Zekâ
Model ne kadar doğru ve yetenekli? Bir hakim LLM, 6 kategoride 0–100 ölçeğinde yanıtları değerlendirir.
Sağlık
API erişilebilir mi? Her 6 saatte bir kontrol eder ve hata oranları ile erişilebilirlik pencerelerini takip ederiz.
Hız Testi
İstem: Yaklaşık 500 token çıktı hedefleyen sabit bir talimat. Her çalıştırma döngüsünde her model için aynı istem kullanılır.
Çalıştırma: Test döngüsü başına 3 ardışık çağrı. Uçtan uca gecikmeyi (ilk byte'tan son byte'a) ölçeriz; TTFT değil.
Metrikler: 3 çalıştırmada P50 (medyan) ve P95 (kuyruk). P50 öne çıkan rakamdır; P95 tutarlılığı ortaya koyar.
Ölçüm konumu: AB — Amsterdam (AMS). Tüm sonuçlar AB gecikmesidir. ABD veya Asya sonuçları farklılık gösterir.
Hız seviyeleri:
Zekâ Testi
Durum: Mayıs 2026'dan beri yayında. 6 kategori ve 4 sağlayıcıda 13,593 puanlı çalıştırma. Hız ve sağlık kontrollerinin yanı sıra her 6 saatte bir yeni çalıştırma.
Hakim model: Claude Sonnet 4.5 tarafsız hakim olarak görev yapar. Değerlendirilen modelin adı hakim istemine hiçbir zaman dahil edilmez — yalnızca ham yanıt metni puanlanır (kör inceleme).
Puanlama: Her istem, hakimden tek bir 0–100 kalite puanı ve bir sınıflandırma (doğru / kısmi / yanlış) alır. Hakim; olgusal doğruluk, eksiksizlik, muhakeme kalitesi ve format uyumunu birleşik bir rubrik olarak değerlendirir. Kategori ortalamaları model sayfalarında gösterilir.
Altı istem kategorisi:
Genel kalite puanı: Bir modelin tüm kategorilerdeki puanlı çalıştırmalarının ağırlıksız ortalaması.
Neyin sayıldığı ve neyi izlediğiniz
Arena, can barları ve darbelerle canlı bir yarış gösterir — ancak ekran ve sıralama iki ayrı katmandır. Görsel izlemek içindir; sıralama bağımsız bir hakem paneli tarafından belirlenir. Bu tablo ayrımı açıkça ortaya koyar; böylece ekrandaki hiçbir şey sonuçla karıştırılmaz.
| Ekranda | Kaynak | Sıralamaya katılır mı? |
|---|---|---|
| Can barları / lider / hasar / darbeler | Deterministik görsel türetme (v8.1-tokonomix) | Hayır — kozmetik |
| Bir turda canlı yarış lideri | Tur başına tek hızlı hakem (gpt-4o-mini, 0–10) | Hayır — göstergelik |
| Tur galibi | Çapraz aile paneli çoğunluk oyu (0–100) | Evet |
| Leaderboard sırası | TrueSkill beceri tahmini (μ) | Evet |
| Jüri beğenileri (▲) | Bir hakemin modeli ≥60 puanladığında panel oyu | Gösterilir, sıralamaya katılmaz |
| Hakem uyum yüzdesi | Bir hakemin tercihinin panel galibiyle ne sıklıkla örtüştüğü | Panel uyumu — doğruluk ölçütü değil |
| Tasarruf (€) | Daha ucuz bir council'ın daha pahalı bir modeli yendiği turlar | En iyi senaryo — yalnızca galibiyetler |
| Yakalanan kör noktalar | ≥2 panel hakemi tarafından onaylanan eksiklikler | Yalnızca onaylananlar — yayılıyor |
Dördüncü bir yöntem: arena
Statik testler bir modeli sabit bir çıtayla ölçer. Arena ise modelleri birbiriyle, gerçekçi müşteri hizmetleri senaryolarında ve rakip model paneli tarafından değerlendirerek ölçer. Tek bir puanın veremeyeceği bir şey üretir: belirsizlik marjıyla birlikte göreli bir sıralama.
Bu neden statik testleri tamamlar (yerini almaz):
- Statik testler kategoriye göre mutlak kaliteyi verir; arena ise gerçekçi görevlerde birebir güç ve maliyet-kalite dengesini ortaya koyar.
- Arena, 0–100 puanının gözden kaçırdığı şeyleri yakalar: birden fazla turda tutarlılık, modelin takip sorularını nasıl ele aldığı ve — council'larla birlikte — iş birliğinin gerçekten işe yarayıp yaramadığı.
- Ekrandaki yarış, müsabakanın nasıl geliştiğini izlemenin bir yoludur. Sonuç her zaman panel tarafından belirlenir, asla can barlarıyla değil.
Bir tur nasıl puanlanır: tur başı değerlendirmeden panele
Puanlama iki aşamada gerçekleşir. Maç sırasında tek hızlı bir hakem süregelen bir tablo tutar; sonunda bağımsız bir hakem paneli galip üzerine oy kullanır.
Aşama 1 — canlı, tur başına: Tek hızlı, kasıtlı olarak ucuz bir hakem (gpt-4o-mini), her yanıtı tek bir çağrıda 0–10 ölçeğinde puanlar. Bu yalnızca canlı yarış şeritlerini besler — gösterge niteliğindedir, belirleyici değil.
Aşama 2 — tur sonu, panel: Farklı model ailelerinden 3–5 hakim 0–100 ölçeğinde bağımsız olarak galip üzerine oy kullanır. Çoğunluk kazanır; beraberlikler en yüksek ortalama panel puanıyla, ardından deterministik olarak en düşük model kimliğiyle kırılır.
İndekse göre kör değerlendirme: Model adları panel isteminden çıkarılır — yarışmacılara yalnızca numara/indeksle atıfta bulunulur, böylece panel tanıdık bir markayı kayıramaz.
Sabit eşikler: Bir model, hakem tarafından ≥60 puanlandığında beğeni (▲) kazanır. Galibinin marjı puan ölçeğinin ≥30'una ulaştığında bir tur 'belirleyici' olarak işaretlenir. Bu sabit değerler gördüğünüz sayımları belirler.
TrueSkill: μ ve σ ne anlama gelir
Her modelin tahmini bir beceri düzeyi μ (mu) ve belirsizliği σ (sigma) vardır. Yeni bir model μ=25, σ=8.333 ile başlar — yüksek belirsizlik. Her maç, μ'yü modelin gerçek gücüne yaklaştırır ve σ'yı küçültür. Aynı μ'ye ancak farklı σ'ya sahip iki model eşit değildir: düşük σ'ya sahip olan kanıtlanmıştır, diğeri hâlâ bir tahmindir.
Gerçekte kullandığımız sabitler: Başlangıç puanı μ=25, σ=8.333; beceri varyansı BETA=4.167; maç başına kayma TAU=0.0833. Bunlar kodda sabittir ve her model için aynıdır.
Şu an nasıl sıralıyoruz — dürüstçe açıklanmış: Leaderboard ham μ (tahmini güç) üzerinden sıralar. Daha katı 'kanıtlanmış' bir sıralama muhafazakâr μ − 3σ üzerinden sıralardı. Bu erken veri olduğundan — çoğu modelin yalnızca birkaç oyunu var — σ hâlâ büyüktür ve listenin tepesi değişebilir. Tahmini gösterir ve bunun bir tahmin olduğunu söyleriz; tek bir sayının arkasına saklanmayız.
Council ve frontier: iş birliği işe yarar mı?
Bir tur, küçük modellerin ucuz bir council'ını tek bir pahalı frontier modeline karşı çıkarabilir. Bir council'da, her turun yanıtı üyelerinin konsensüs sentezidir. Bu, arenaya tek bir puanın cevaplayamayacağı bir soruyu sormak imkânı tanır: ucuz bir council, pahalı bir frontier modeli yenebilir mi — ve eğer yenerse ne kadar tasarruf sağlar?
Tasarruf nasıl hesaplanır: Bir council hem bir turu kazandığında hem de yendiği frontier modelinden daha ucuza mal olduğunda farkı tasarruf olarak gösteririz. Council galibiyeti gruba bağlıdır, hiçbir zaman bireysel üyenin sıralamasına değil; bu nedenle grup sonucu tek bir modelin sıralamasını şişirmez.
En iyi senaryo uyarısı: Tasarruflar yalnızca council'ın kazandığı turlardan birikir. Kaybeden council'lar (ve dolayısıyla boşa para harcayanlar) çıkarılmaz. Bu rakam, council'ın kazandığı turlarda elde edilebilecek en iyi senaryo tasarrufudur — net bir sonuç değil.
İki bağımsız itibar
Bir model iki ayrı yöntemle ölçülür ve ikisi çelişebilir; ancak bu ikisinden birinin yanlış olduğu anlamına gelmez — farklı şeyleri ölçerler.
Arena itibarı (göreli): Birebir oyun galibiyetlerinden elde edilen TrueSkill. Bir modeli gerçekçi senaryolarda rakipleriyle kıyaslar.
Tarafsız hakem itibarı (mutlak): Bir modelin, rakip yerine sabit bir rubrik karşısında tekrarlayan zekâ testinde doğru / kısmi / yanlış olarak derecelendirilme sıklığı.
Bir model oyunları kaybedip yüksek doğruluk itibarını koruyabilir ya da oyunlar kazanırken mutlak doğrulukta yalnızca kısmi puan alabilir. Bu ayrımı kasıtlı olarak koruyoruz.
Kör noktalar
Kör nokta, diğer yarışmacıların ≥2'sinin kapsadığı önemli bir noktanın bir yarışmacı tarafından atlanmasıdır — bu, konunun göz ardı edilemeyecek kadar önemli olduğunu kanıtlar.
Panel tarafından onaylananlar: Bir kör nokta yalnızca ≥2 panel hakemi aynı eksiklik üzerinde bağımsız olarak hemfikir olduğunda sayılır. Bir hakem konu listesini ve ıskalama matrisini önerir; diğer hakemler aynı sabitlenmiş konuları doldurur ve bir ıskalama, en az iki matrisin o hücrede hemfikir olduğunda onaylanır.
Durum: Bu tespit canlı ve turlar genelinde yaygınlaşıyor. Henüz bir sayı yayınlamıyoruz — yeterli veriyle desteklenmeyen bir sayı göstermektense hiç sayı göstermemeyi tercih ederiz.
Sabitler ve eşikler
Arena sayfalarındaki her sayım, küçük bir sabit seçimler kümesinden kaynaklanır. Sayıların denetlenebilir olması için bunları burada listeliyoruz.
Dürüst açıklamalar
Dikkatli bir okuyucunun açıklanmasını isteyeceği şeyler — sınırlar, bilinen önyargılar ve sayıları şekillendiren tercihler.
Erken veri, değişken sıralamalar: Arena henüz genç. Çoğu modelin yalnızca birkaç oyunu var, bu nedenle tek bir galibiyet ya da mağlubiyet μ'yü büyük ölçüde etkileyebilir ve sıralamalar hâlâ değişkendir. Düzenin oturduğunu ima etmek yerine oyun sayılarını ve belirsizliği gösteriyoruz.
Ham-μ sıralaması: Sıralama muhafazakâr μ − 3σ yerine ham μ üzerinden yapılır. Yüksek belirsizlik söz konusu olduğunda bu, şanslı bir galibiyetle bir modelin daha kanıtlanmış olanın üstüne çıkabileceği anlamına gelir. Mevcut düzeni 'tahmin edilmiş, henüz kanıtlanmamış' olarak değerlendiriyoruz.
Hakem uyumu doğruluk değildir: Hakem uyumu rakamı, bir hakemin tercihinin panel galibiyle ne sıklıkla örtüştüğünü ölçer — ancak galip, aynı hakemlerin çoğunluğudur. Panele uyumu ölçer, panelin haklı olup olmadığını değil. Doğru ama aykırı bir hakem burada düşük puan alır.
Tasarruflar en iyi senaryodur: Tasarruflar yalnızca council'ın kazandığı ve daha ucuz olduğu turları sayar; kaybeden council'lar çıkarılmaz. Bunu kazanılan turlardaki en iyi senaryo rakamı olarak okuyun, net bir tasarruf olarak değil.
Zekâ testinde tek hakem öz-tercihi: Tekrarlayan zekâ testi, Claude ailesini de yargılayabilen tek bir birincil hakem (Claude Sonnet 4.5) üzerinde çalışır — öz-tercih bilinen bir LLM önyargısıdır. Bunu kalibre etmek için ikincil bir çapraz kontrol hakemi mevcuttur ve arena bunu çapraz aile paneliyle daha da azaltır; tek hakemli zekâ testinde bu panel bulunmaz.
Yarışmacı ↔ hakem ailesi çakışması: Bir model ailesi aynı turda hem yarışmacı hem de hakem panelinde yer alabilir. İndekse göre kör değerlendirme ve çapraz aile paneli etkiyi azaltır; ancak çakışma yaşanabilir ve bunu katı aile dışlaması iddia etmek yerine açıklıyoruz.
İki ölçek, bir sıralama: Canlı tur başı hakem 0–10 ölçeği kullanır, tur sonu panel ise 0–100. Sıralamaya ulaşmadan önce her şeyi aynı ölçeğe normalize ederiz; böylece bir tur sırasında görebileceğiniz iki sayı sıralamada karıştırılmaz.
Beraberlikler nasıl ele alınır: Net bir galip olmayan bir tur, herkes için kayıp sayılmaz — bu kazanma oranlarını çarpıtır — bunun yerine beraberlik olarak işlenir ve hiçbir tasarruf kaydedilmez.
Versiyonlanmış, deterministik türetme: Ekrandaki görsel türetme saf, deterministiktir ve tam olarak daha sonraki bir mantık değişikliğinin geçmiş turları sessizce yeniden yazmaması için bir versiyon etiketi (v8.1-tokonomix) taşır. Önemli metodoloji değişiklikleri aşağıdaki değişiklik günlüğünde kayıt altına alınır.
Görüntü kalite kontrolü: vision-QC pilotu
Haziran 2026'da yapay zeka görüntü kalite kontrolünün ilk temel ölçümünü gerçekleştirdik. Altı tekil model ve iki konsey yapılandırması 300 görüntüde test edildi. Konsey en iyi tekil modelin %66,9'una karşın %87,5 geri çağırma elde etti. Tam sonuçlar /benchmarks/vision-qc adresinde.
Sağlık Kontrolü
Sıklık: Her 6 saatte bir (06:00, 12:00, 18:00, 00:00 UTC).
Yöntem: Minimal bir yankı tipi istem gönderilir. HTTP durumunu, hata mesajını (varsa) ve yanıt süresini takip ederiz.
Hata takibi: Çalıştırma başına error_count kaydedilir. Sürekli yüksek hata oranları sıralamada gösterilir.
Çalıştırma Takvimi
Tüm saatler UTC. Zekâ testleri hız ve sağlık kontrolleriyle birlikte her 6 saatte bir çalışır. Veri tazeliği her benchmark sonucunun yanında gösterilir.
SSS
Herhangi bir AI sağlayıcısıyla bağlantınız var mı?+
Neden yalnızca AB gecikmesi?+
API maliyetini nasıl yönetiyorsunuz?+
Ham verileri indirebilir miyim?+
Hakim LLM tüm modellere adil mi?+
Metodoloji sorumlusu
Bu metodoloji Mes Kalkan tarafından korunmakta ve imzalanmaktadır. Önemli değişiklikler aşağıda günlüğe kaydedilir. Veri düzeltmeleri metodoloji sorumlusu üzerinden iletilir ve doğrulanmış bir raporun 24 saati içinde yayınlanır.
Metodoloji değişiklik günlüğü
- — İlk metodoloji yayınlandı. İmzalayan: Mes Kalkan.
Veri API'si
Tüm benchmark verileri ücretsiz olarak sunulmaktadır. Salt okunur erişim için anahtar gerekmez.