Révélez l'erreur qu'un seul modèle manque.
Un prompt est distribué en parallèle aux meilleurs modèles. Un juge neutre d'un autre laboratoire signale les désaccords — et les réconcilie en une réponse unique et défendable. Hébergé en UE, entièrement traçable.
Réduisez les erreurs qu'un seul modèle manquerait.
- 131
- modèles suivis
- 13,593
- benchmarks effectués
- 6
- langues
L'AI Act européen est-il entré en vigueur en 2024 ?
- claude-opus-4.8Yes — entered into force August 2024.
- gpt-5.1No, that was 2023.
- gemini-3-proYes, August 2024.
Exemple illustratif — données synthétiques
5 modèles d'IA inspectent votre image — avant votre audience.
Consensus d'image : un conseil de cinq modèles de vision détecte les défauts d'anatomie, de physique et d'éclairage dans les images IA qu'un seul modèle manque.
En savoir plus sur le consensus d'image →
Pilote 2026-06 · LOKI-35 + vraies photos de contrôle · pas une garantie produit.
3 sur 5 l'ont détecté. Un seul modèle l'aurait manqué — d'où le conseil.
Live rankings
Modèles phares cette semaine
Sample data
Top models — Scientific Reasoning
01Mistral Large 3Mistral
780ms↓
02Claude Sonnet 4.6Anthropic
920ms·
03Llama 3.3 405BMeta
1.18s↑
04Gemini 2.5 ProGoogle
1.42s↑
05GPT-5oOpenAI
1.64s·
06Claude Opus 4.7Anthropic
1.82s↑
Sample · methodology pending
how we test →Judge verdicts
3,735 evaluations across 63 models — counts only, no customer prompts
Claude Fable 5 — test d'intelligence
Résultats indépendants, notés par un juge, sur nos catégories de tâches — issus de tests réels, actualisés en continu.
Score par catégorie de tâche
Temps de réponse médian
Chaque réponse est notée de 0 à 100 par un modèle juge indépendant sur l'exactitude, l'exhaustivité, le raisonnement et la forme. Les scores factuels plus bas reflètent nos questions de connaissances volontairement difficiles.
Notes de version →Voyez où les modèles divergent.
À travers nos tests d'intelligence hebdomadaires, un juge neutre évalue chaque modèle. Ce sont les questions où les modèles ont le plus divergé — les angles morts qu'un seul modèle aurait masqués. Anonymisé ; aucun prompt client n'est jamais affiché.
Models ranked
Top 10 des modèles d'IA
Anthropic
Claude Opus 4.5
99.2
quality score
6,978
ms p50
Anthropic
Claude Opus 4.7
99.2
quality score
8,347
ms p50
Anthropic
Claude Opus 4.6
98.7
quality score
8,280
ms p50
Anthropic
Claude Opus 4.8
98.6
quality score
6,696
ms p50
OpenAI
gpt-4.1
98.4
quality score
1,711
ms p50
Anthropic
Claude Sonnet 4.6
97.9
quality score
7,490
ms p50
Anthropic
Claude Sonnet 4.5
95.9
quality score
6,728
ms p50
Anthropic
Claude Haiku 4.5
95.7
quality score
3,326
ms p50
Google Gemini
Gemini 2.5 Flash-Lite
94.7
quality score
1,572
ms p50
Google Gemini
Gemini Flash Latest
53.3
quality score
4,366
ms p50
Pas de frais sur les appels simples. La commission ne s'applique qu'au consensus.
Interrogez un seul modèle et vous ne payez que ses tokens plus une petite marge de palier — aucuns frais de plateforme. La commission par appel s'applique uniquement aux vérifications de consensus multi-modèles. 100 vérifications gratuites par mois, sans carte bancaire ; formules à partir de €10/mois pour 500 appels. Chaque token détaillé, rien de caché.
Gratuit
€0/mois
100 appels/mois
tokens : fournisseur +5 %
Starter
€10/mois
500 appels
tokens : fournisseur +4 %
Studio
€25/mois
2 000 appels
tokens : fournisseur +3 %
Scale
€50/mois
5 000 appels
tokens : fournisseur +2 %
Prix fondateurs, garantis jusqu'en 2027 · PAYG également disponible · « marge token » = le petit % que nous ajoutons au prix du token du fournisseur, moins élevé sur les paliers supérieurs
Aucun abonnement par siège. Jamais de frais sur les appels simples. Chaque reçu de consensus est détaillé par modèle, par token, en entrée et en sortie.
Chaque centime détaillé
illustrative examplemodel in out cost ────────────────────────────────────────────────── claude-haiku-4.5 812 540 €0.0041 gpt-4o 812 610 €0.0072 gemini-2.5-flash 812 498 €0.0029 judge (gpt-4o) — 240 €0.0038 ────────────────────────────────────────────────── orchestration included total €0.0180
Accurate to the last token · your real receipt contains your exact counts
Estimez vos coûts
€10.00
Tarif forfaitaire — dépassement à 1,5c/appel au-delà du quota
€10.00
estimation / mois
Community
Ce que la communauté vote
Top-rated test answers
Schrijf een Python-functie `is_palindroom(s: str) -> bool` die True retourneert als de invoerstring een palindroom is (hoofdletters negeren, leestekens negeren). Voeg twee testcases toe.
What is the name of the protein discovered by Dr. Elena Voskresensky in 2019 that reverses telomere shortening in human cells?
In which year did the European Union introduce the GDPR regulation?
Suggested test questions
No suggestions yet.
Run a test and suggest a question →Notre méthode de test
Vrais prompts, vraie latence, vraies notes. Trois tiers maintiennent les coûts maîtrisés sans sacrifier la transparence.
Couverture totale
Vitesse + intelligence chaque jour, dans quatre langues.
Vitesse uniquement
Latence et disponibilité, échantillonnées quatre fois par jour.
Health ping
Vérification up/down toutes les quinze minutes.
Essayez n'importe quel modèle — ici-même
Choisissez un modèle, tapez un prompt, voyez la réponse arriver en streaming. Sans inscription, sans paiement, sans changement de contexte.
Ouvrir le testeur en direct →