İçeriğe geç
Çok modelli konsensüs · tarafsız hakem

Bir modelin gözden kaçırdığı hatayı ortaya çıkarın.

Tek prompt, önde gelen modellere paralel yayılır. Farklı bir laboratuvardan tarafsız bir hakem anlaşmazlıkları işaret eder — ve bunları tek, savunulabilir bir yanıtta uzlaştırır. AB'de barındırılır, tam izlenebilir.

Bir modelin kaçıracağı hataları azaltın.

131
model takip edildi
13,593
benchmark çalışması
6
dil
Yeni · erken erişim

5 yapay zekâ modeli görselinizi inceler — izleyicinizden önce.

Görsel konsensüs: beş vision modelinden oluşan bir konsey, tek bir modelin gözden kaçırdığı yapay zeka görsellerindeki anatomi, fizik ve aydınlatma hatalarını yakalar.

%91
tespit edilen kusur
0
yanlış pozitif · gerçek fotoğraflar
~%71
tek modelle maksimum
Bekleme listesine ekle

Görsel konsensüs hakkında daha fazla →
Pilot 2026-06 · LOKI-35 + gerçek kontrol fotoğrafları · ürün garantisi değildir.

KUSURLUyapay zeka üretimi
TEMİZgerçek fotoğraf
Konsey:gemini-2.5-progpt-4ofable-5gemini-flashgpt-4o-mini

5'ten 3'ü gördü. Tek model bunu kaçırırdı — bu yüzden bir konsey.

Live rankings

Bu haftanın öne çıkan modelleri

Full leaderboard →

Sample data

Top models — Scientific Reasoning

  • 01Mistral Large 3

    780ms

  • 02Claude Sonnet 4.6

    920ms·

  • 03Llama 3.3 405B

    1.18s

  • 04Gemini 2.5 Pro

    1.42s

  • 05GPT-5o

    1.64s·

  • 06Claude Opus 4.7

    1.82s

Sample · methodology pending

how we test →

Judge verdicts

3,735 evaluations across 63 models — counts only, no customer prompts

⚖️Most endorsed: Claude Opus 4.6 (99% accurate)

Claude Fable 5 — zekâ testi

Görev kategorilerimizde bağımsız, jüri puanlı sonuçlar — gerçek test çalışmalarından, sürekli güncellenir.

Tam Fable 5 analizini okuyun
93
Genel puan · /100
20 jüri puanlı çalışma

Göreve göre puan

Çok dilli
100
Akıl yürütme
99
Kodlama
99
Yaratıcılık
97
Olgusal
70

Ortanca yanıt süresi

Çok dilli9.1s
Akıl yürütme9.5s
Kodlama11.1s
Yaratıcılık5.7s
Olgusal7.0s

Her yanıt, bağımsız bir jüri modeli tarafından doğruluk, eksiksizlik, akıl yürütme ve biçim açısından 0–100 puanlanır. Daha düşük olgusal puanlar, bilerek zorlaştırılmış bilgi sorularımızı yansıtır.

Sürüm notları
Kör nokta tespiti

Modellerin nerede ayrıştığını görün.

Haftalık zeka testlerimizde tarafsız bir hakem her modeli puanlar. Bunlar modellerin en çok anlaşamadığı sorular — tek bir modelin gizlemiş olacağı kör noktalar. Anonimleştirilmiştir; müşteri prompt'ları hiçbir zaman gösterilmez.

63
puanlanan model
1
farklı hakem
3,735
hakemli çalışma
Modeluyuştu · hakem işaretledi
Gemini 2.5 Flash
16 · 60
Gemini 2.5 Pro
18 · 55
Gemini Pro Latest
26 · 49
Gemini 3.1 Pro Preview Custom Tools
29 · 47
Gemini 3.1 Pro Preview
30 · 46
Gemini 3.5 Flash
4 · 5
Pricing

Tekil çağrılarda ücret yok. Ücret yalnızca konsensüste ödenir.

Tek bir modele sorduğunuzda yalnızca token ücretini ve küçük bir katman marjını ödersiniz — platform ücreti yok. Çağrı başı ücret yalnızca çok modelli konsensüs doğrulamaları için geçerlidir. Her ay 100 konsensüs doğrulaması ücretsiz, kart gerekmez; 500 çağrı için aylık €10'dan başlayan paketler. Her token detaylandırılmış, hiçbir şey gizli değil.

Ücretsiz

€0/ay

100 çağrı/ay

token: sağlayıcı +%5

Starter

€10/ay

500 çağrı

token: sağlayıcı +%4

Studio

€25/ay

2.000 çağrı

token: sağlayıcı +%3

Scale

€50/ay

5.000 çağrı

token: sağlayıcı +%2

Kurucu fiyatları, 2027 sonuna kadar sabit · PAYG da mevcut · "token marjı" = model sağlayıcının token fiyatına eklediğimiz küçük %, üst kademelerde daha düşük

Tekil model çağrısı
Ne ödersiniz: token + marj
Ayrıntılar: Çağrı ücreti yok — yalnızca konsensüs doğrulamaları çağrı başı ücret taşır. Model sağlayıcının token fiyatını ve katman marjınızı (+%2–5) ödersiniz. Örnek: ~4k token üzerinde küçük bir model ≈ €0,001.
Konsensüs çağrısı
Ne ödersiniz: çağrı ücreti + token + marj
Ayrıntılar: Ücret pakete göre değişir (PAYG kurucu: 2c/proposer + 3c/hakim, 3+1 konsey = 9c; paketlerde: aylık kotanızdan düşer; kota aşımında: 1,5c/çağrı). Bunun üstüne: sağlayıcı tokenları + katman marjınız.
Kendi anahtarınızı getirin (BYOK)
Ne ödersiniz: yalnızca çağrı ücreti
Ayrıntılar: Konsensüste yalnızca pakete ait çağrı ücretini ödersiniz — kendi anahtarınız doğrudan sağlayıcıya faturalandırır, bizden token maliyeti veya marj tahsil edilmez. Tekil model BYOK çağrısı ücretsizdir.

Koltuk başı ücret yok. Tekil çağrılarda asla ücret yok. Her konsensüs makbuzu model, token, giriş ve çıkış bazında ayrıntılı.

Her kuruş ayrıntılı

illustrative example
model                 in      out     cost
──────────────────────────────────────────────────
claude-haiku-4.5      812     540     €0.0041
gpt-4o                812     610     €0.0072
gemini-2.5-flash      812     498     €0.0029
judge (gpt-4o)        240     €0.0038
──────────────────────────────────────────────────
orkestrasyon                          included
toplam                                €0.0180

Accurate to the last token · your real receipt contains your exact counts

Maliyetinizi tahmin edin

500
1005k

€10.00

Paket fiyatı — kota aşımında 1,5c/çağrı

€10.00

tahmini / ay

Nasıl test ediyoruz

Gerçek sorular, gerçek gecikme, gerçek puanlar. Üç katmanlı yapı şeffaflıktan ödün vermeden maliyeti kontrol altında tutar.

Tier A

Tam kapsam

Dört dilde her gün hız + zeka testi.

Tier B

Yalnızca hız

Gecikme ve erişilebilirlik, günde dört kez ölçülür.

Tier C

Sağlık kontrolü

Her on beş dakikada bir açık/kapalı kontrolü.

Canlı · 130+ model mevcut

Herhangi bir modeli deneyin — tam burada

Bir model seçin, bir soru yazın, cevabın akışını izleyin. Kayıt yok, ödeme yok, bağlam değişikliği yok.

Canlı test aracını aç