Aller au contenu
Consensus multi-modèles · juge neutre

Révélez l'erreur qu'un seul modèle manque.

Un prompt est distribué en parallèle aux meilleurs modèles. Un juge neutre d'un autre laboratoire signale les désaccords — et les réconcilie en une réponse unique et défendable. Hébergé en UE, entièrement traçable.

Réduisez les erreurs qu'un seul modèle manquerait.

131
modèles suivis
13,593
benchmarks effectués
6
langues
Nouveau · accès anticipé

5 modèles d'IA inspectent votre image — avant votre audience.

Consensus d'image : un conseil de cinq modèles de vision détecte les défauts d'anatomie, de physique et d'éclairage dans les images IA qu'un seul modèle manque.

91%
défauts détectés
0
faux positifs · vraies photos
~71%
max. avec un seul modèle
Rejoindre la liste d'attente

En savoir plus sur le consensus d'image →
Pilote 2026-06 · LOKI-35 + vraies photos de contrôle · pas une garantie produit.

DÉFAUTgénéré par IA
PROPREvraie photo
Conseil :gemini-2.5-progpt-4ofable-5gemini-flashgpt-4o-mini

3 sur 5 l'ont détecté. Un seul modèle l'aurait manqué — d'où le conseil.

Live rankings

Modèles phares cette semaine

Full leaderboard →

Sample data

Top models — Scientific Reasoning

  • 01Mistral Large 3

    780ms

  • 02Claude Sonnet 4.6

    920ms·

  • 03Llama 3.3 405B

    1.18s

  • 04Gemini 2.5 Pro

    1.42s

  • 05GPT-5o

    1.64s·

  • 06Claude Opus 4.7

    1.82s

Sample · methodology pending

how we test →

Judge verdicts

3,735 evaluations across 63 models — counts only, no customer prompts

⚖️Most endorsed: Claude Opus 4.6 (99% accurate)

Claude Fable 5 — test d'intelligence

Résultats indépendants, notés par un juge, sur nos catégories de tâches — issus de tests réels, actualisés en continu.

Lire l'analyse complète de Fable 5
93
Score global · /100
20 exécutions notées par un juge

Score par catégorie de tâche

Multilingue
100
Raisonnement
99
Code
99
Créativité
97
Factuel
70

Temps de réponse médian

Multilingue9.1s
Raisonnement9.5s
Code11.1s
Créativité5.7s
Factuel7.0s

Chaque réponse est notée de 0 à 100 par un modèle juge indépendant sur l'exactitude, l'exhaustivité, le raisonnement et la forme. Les scores factuels plus bas reflètent nos questions de connaissances volontairement difficiles.

Notes de version
Détection des angles morts

Voyez où les modèles divergent.

À travers nos tests d'intelligence hebdomadaires, un juge neutre évalue chaque modèle. Ce sont les questions où les modèles ont le plus divergé — les angles morts qu'un seul modèle aurait masqués. Anonymisé ; aucun prompt client n'est jamais affiché.

63
modèles évalués
1
juge distinct
3,735
exécutions jugées
Modèleen accord · signalé par le juge
Gemini 2.5 Flash
16 · 60
Gemini 2.5 Pro
18 · 55
Gemini Pro Latest
26 · 49
Gemini 3.1 Pro Preview Custom Tools
29 · 47
Gemini 3.1 Pro Preview
30 · 46
Gemini 3.5 Flash
4 · 5
Pricing

Pas de frais sur les appels simples. La commission ne s'applique qu'au consensus.

Interrogez un seul modèle et vous ne payez que ses tokens plus une petite marge de palier — aucuns frais de plateforme. La commission par appel s'applique uniquement aux vérifications de consensus multi-modèles. 100 vérifications gratuites par mois, sans carte bancaire ; formules à partir de €10/mois pour 500 appels. Chaque token détaillé, rien de caché.

Gratuit

€0/mois

100 appels/mois

tokens : fournisseur +5 %

Starter

€10/mois

500 appels

tokens : fournisseur +4 %

Studio

€25/mois

2 000 appels

tokens : fournisseur +3 %

Scale

€50/mois

5 000 appels

tokens : fournisseur +2 %

Prix fondateurs, garantis jusqu'en 2027 · PAYG également disponible · « marge token » = le petit % que nous ajoutons au prix du token du fournisseur, moins élevé sur les paliers supérieurs

Appel modèle unique
Ce que vous payez: tokens + marge
Détails: Aucune commission — seules les vérifications de consensus comportent une commission par appel. Vous payez le prix des tokens du fournisseur plus votre marge de palier (+2–5 %). Exemple : un petit modèle sur ~4k tokens ≈ €0,001.
Appel consensus
Ce que vous payez: commission + tokens + marge
Détails: La commission varie selon la formule (PAYG fondateurs : 2c/proposant + 3c/juge, un conseil 3+1 = 9c ; formules : décompte sur votre quota mensuel ; au-delà du quota : 1,5c/appel). En plus : les tokens du fournisseur + votre marge de palier.
Apportez votre propre clé (BYOK)
Ce que vous payez: commission uniquement
Détails: Pour le consensus, vous ne payez que la commission par formule — votre clé facture directement le fournisseur, sans frais de tokens ni marge de notre part. Un appel BYOK modèle unique ne coûte rien.

Aucun abonnement par siège. Jamais de frais sur les appels simples. Chaque reçu de consensus est détaillé par modèle, par token, en entrée et en sortie.

Chaque centime détaillé

illustrative example
model                 in      out     cost
──────────────────────────────────────────────────
claude-haiku-4.5      812     540     €0.0041
gpt-4o                812     610     €0.0072
gemini-2.5-flash      812     498     €0.0029
judge (gpt-4o)        240     €0.0038
──────────────────────────────────────────────────
orchestration                         included
total                                 €0.0180

Accurate to the last token · your real receipt contains your exact counts

Estimez vos coûts

500
1005k

€10.00

Tarif forfaitaire — dépassement à 1,5c/appel au-delà du quota

€10.00

estimation / mois

Notre méthode de test

Vrais prompts, vraie latence, vraies notes. Trois tiers maintiennent les coûts maîtrisés sans sacrifier la transparence.

Tier A

Couverture totale

Vitesse + intelligence chaque jour, dans quatre langues.

Tier B

Vitesse uniquement

Latence et disponibilité, échantillonnées quatre fois par jour.

Tier C

Health ping

Vérification up/down toutes les quinze minutes.

Live · 130+ modèles disponibles

Essayez n'importe quel modèle — ici-même

Choisissez un modèle, tapez un prompt, voyez la réponse arriver en streaming. Sans inscription, sans paiement, sans changement de contexte.

Ouvrir le testeur en direct