Bir modelin gözden kaçırdığı hatayı ortaya çıkarın.
Tek prompt, önde gelen modellere paralel yayılır. Farklı bir laboratuvardan tarafsız bir hakem anlaşmazlıkları işaret eder — ve bunları tek, savunulabilir bir yanıtta uzlaştırır. AB'de barındırılır, tam izlenebilir.
Bir modelin kaçıracağı hataları azaltın.
- 131
- model takip edildi
- 13,593
- benchmark çalışması
- 6
- dil
AB Yapay Zeka Yasası 2024'te yürürlüğe girdi mi?
- claude-opus-4.8Yes — entered into force August 2024.
- gpt-5.1No, that was 2023.
- gemini-3-proYes, August 2024.
Örnek niteliğinde — sentetik veri
5 yapay zekâ modeli görselinizi inceler — izleyicinizden önce.
Görsel konsensüs: beş vision modelinden oluşan bir konsey, tek bir modelin gözden kaçırdığı yapay zeka görsellerindeki anatomi, fizik ve aydınlatma hatalarını yakalar.
Görsel konsensüs hakkında daha fazla →
Pilot 2026-06 · LOKI-35 + gerçek kontrol fotoğrafları · ürün garantisi değildir.
5'ten 3'ü gördü. Tek model bunu kaçırırdı — bu yüzden bir konsey.
Live rankings
Bu haftanın öne çıkan modelleri
Sample data
Top models — Scientific Reasoning
01Mistral Large 3Mistral
780ms↓
02Claude Sonnet 4.6Anthropic
920ms·
03Llama 3.3 405BMeta
1.18s↑
04Gemini 2.5 ProGoogle
1.42s↑
05GPT-5oOpenAI
1.64s·
06Claude Opus 4.7Anthropic
1.82s↑
Sample · methodology pending
how we test →Judge verdicts
3,735 evaluations across 63 models — counts only, no customer prompts
Claude Fable 5 — zekâ testi
Görev kategorilerimizde bağımsız, jüri puanlı sonuçlar — gerçek test çalışmalarından, sürekli güncellenir.
Göreve göre puan
Ortanca yanıt süresi
Her yanıt, bağımsız bir jüri modeli tarafından doğruluk, eksiksizlik, akıl yürütme ve biçim açısından 0–100 puanlanır. Daha düşük olgusal puanlar, bilerek zorlaştırılmış bilgi sorularımızı yansıtır.
Sürüm notları →Modellerin nerede ayrıştığını görün.
Haftalık zeka testlerimizde tarafsız bir hakem her modeli puanlar. Bunlar modellerin en çok anlaşamadığı sorular — tek bir modelin gizlemiş olacağı kör noktalar. Anonimleştirilmiştir; müşteri prompt'ları hiçbir zaman gösterilmez.
Models ranked
En iyi 10 AI modeli
Anthropic
Claude Opus 4.5
99.2
quality score
6,978
ms p50
Anthropic
Claude Opus 4.7
99.2
quality score
8,347
ms p50
Anthropic
Claude Opus 4.6
98.7
quality score
8,280
ms p50
Anthropic
Claude Opus 4.8
98.6
quality score
6,696
ms p50
OpenAI
gpt-4.1
98.4
quality score
1,711
ms p50
Anthropic
Claude Sonnet 4.6
97.9
quality score
7,490
ms p50
Anthropic
Claude Sonnet 4.5
95.9
quality score
6,728
ms p50
Anthropic
Claude Haiku 4.5
95.7
quality score
3,326
ms p50
Google Gemini
Gemini 2.5 Flash-Lite
94.7
quality score
1,572
ms p50
Google Gemini
Gemini Flash Latest
53.3
quality score
4,366
ms p50
Tekil çağrılarda ücret yok. Ücret yalnızca konsensüste ödenir.
Tek bir modele sorduğunuzda yalnızca token ücretini ve küçük bir katman marjını ödersiniz — platform ücreti yok. Çağrı başı ücret yalnızca çok modelli konsensüs doğrulamaları için geçerlidir. Her ay 100 konsensüs doğrulaması ücretsiz, kart gerekmez; 500 çağrı için aylık €10'dan başlayan paketler. Her token detaylandırılmış, hiçbir şey gizli değil.
Ücretsiz
€0/ay
100 çağrı/ay
token: sağlayıcı +%5
Starter
€10/ay
500 çağrı
token: sağlayıcı +%4
Studio
€25/ay
2.000 çağrı
token: sağlayıcı +%3
Scale
€50/ay
5.000 çağrı
token: sağlayıcı +%2
Kurucu fiyatları, 2027 sonuna kadar sabit · PAYG da mevcut · "token marjı" = model sağlayıcının token fiyatına eklediğimiz küçük %, üst kademelerde daha düşük
Koltuk başı ücret yok. Tekil çağrılarda asla ücret yok. Her konsensüs makbuzu model, token, giriş ve çıkış bazında ayrıntılı.
Her kuruş ayrıntılı
illustrative examplemodel in out cost ────────────────────────────────────────────────── claude-haiku-4.5 812 540 €0.0041 gpt-4o 812 610 €0.0072 gemini-2.5-flash 812 498 €0.0029 judge (gpt-4o) — 240 €0.0038 ────────────────────────────────────────────────── orkestrasyon included toplam €0.0180
Accurate to the last token · your real receipt contains your exact counts
Maliyetinizi tahmin edin
€10.00
Paket fiyatı — kota aşımında 1,5c/çağrı
€10.00
tahmini / ay
Community
Topluluk neye oy veriyor
Top-rated test answers
Schrijf een Python-functie `is_palindroom(s: str) -> bool` die True retourneert als de invoerstring een palindroom is (hoofdletters negeren, leestekens negeren). Voeg twee testcases toe.
What is the name of the protein discovered by Dr. Elena Voskresensky in 2019 that reverses telomere shortening in human cells?
In which year did the European Union introduce the GDPR regulation?
Suggested test questions
No suggestions yet.
Run a test and suggest a question →Nasıl test ediyoruz
Gerçek sorular, gerçek gecikme, gerçek puanlar. Üç katmanlı yapı şeffaflıktan ödün vermeden maliyeti kontrol altında tutar.
Tam kapsam
Dört dilde her gün hız + zeka testi.
Yalnızca hız
Gecikme ve erişilebilirlik, günde dört kez ölçülür.
Sağlık kontrolü
Her on beş dakikada bir açık/kapalı kontrolü.
Herhangi bir modeli deneyin — tam burada
Bir model seçin, bir soru yazın, cevabın akışını izleyin. Kayıt yok, ödeme yok, bağlam değişikliği yok.
Canlı test aracını aç →