Arène quotidienne

Replay du match

Lecture d’un match enregistré — aucun modèle n’est appelé.

⚖ Consensus multi-juges — notre signature

Tokonomix multi-council + juge + détection des angles morts — coût réduit, rattrape les erreurs qu'un modèle manque.

Multi-council · coût réduitMulti-juges · cross-familyDétection des angles morts · rattrape l'erreur manquéeN-team · groupes face à face

Type de jeu

Tours: 10

Vitesse1×

customer_service · roundTour 0 / 10

Le modèle le moins cher qui tient la qualité apparaît ici.

0 / 10

Claude Opus 4.7

Anthropic

€—score —

100

gpt-5.5

OpenAI

€—score —

100

DeepSeek v3.2

OpenRouter

€—score —

100

Llama 3.3 70B Instruct

OpenRouter

€—score —

100

Llama 4 Scout

OpenRouter

€—score —

100

Nous Hermes 3 70B

OpenRouter

€—score —

100

Client

Appuyez sur « Tour suivant » pour commencer.

Verdict final — coût, qualité et avantage

Joueurs	Coût	Qualité	Victoires	Avantage / statut
Claude Opus 4.7	€0.2375	65	0	épuisé
gpt-5.5	€0.1857	68	6	épuisé
DeepSeek v3.2	€0.0065	58.5	1	épuisé
Llama 3.3 70B Instruct	€0.0025	72.5	0	épuisé
Llama 4 Scout	€0.0020	72.5	0	100 HP
Nous Hermes 3 70B	€0.0082	2.5	0	épuisé

0 / 10Dégâts du drone = force de la majorité du jury · HP = avantage en direct · € = coûts réels

Limite d’honnêteté

L’avantage part de 100. Les éliminations suivent le classement final du jury — le modèle le moins bien classé tombe en premier, rythmé pour que le dernier K.-O. survienne vers la fin de la manche. Le gagnant du jury n’est jamais ciblé et reste donc toujours le dernier debout (deriveRoundOutcomes v9-elim-tokonomix).

Si le jury se termine sur une véritable égalité à la première place, personne n’est éliminé et chaque modèle joue jusqu’au bout.

0 d’avantage signifie que ce modèle est éliminé ; dès qu’il ne reste que le gagnant, la relecture affiche le résultat. Le jury ci-dessous couronne ce même modèle, le dernier debout.

La barre d’avantage visualise le classement final, pas la qualité par tour — le badge de vainqueur du tour marque séparément qui a le mieux répondu à chaque tour.

L’échelle de score est le score de tour le plus haut de cette rediffusion (0–10 ou 0–100) ; un tour élevé peut rapprocher les autres.

Zéro appel de modèle — rendu pur du tour enregistré. Changer de vue change l’image, jamais les chiffres.

Retour à l’arène

Partager ce résultat

Partager sur X LinkedIn WhatsApp

↺ Lancer une nouvelle manche