Aller au contenu

Arène quotidienne

Replay du match

Lecture d’un match enregistré — aucun modèle n’est appelé.

⚖ Consensus multi-juges — notre signature
Tokonomix multi-council + juge + détection des angles morts — coût réduit, rattrape les erreurs qu'un modèle manque.
Multi-council · coût réduitMulti-juges · cross-familyDétection des angles morts · rattrape l'erreur manquéeN-team · groupes face à face
Type de jeu
Tours: 3
Vitesse1×
customer_service · roundTour 0 / 3
Le modèle le moins cher qui tient la qualité apparaît ici.
0 / 3
Council A
Qwen2.5-VL-72B-Instruct · Qwen 2.5 VL 72B Instruct · Meta-Llama-3_3-70B-Instruct · Llama 3.3 70B Instruct · Qwen 3.7 Max
CO
€—score
HP
100
Frontier B
Claude Opus 4.7
FR
€—score
HP
100
Client
Appuyez sur « Tour suivant » pour commencer.

Verdict finalcoût, qualité et avantage

JoueursCoûtQualitéVictoiresAvantage / statut
Council A€0.079571.67161 HP
Frontier B€0.045194.33282 HP
0 / 3Dégâts du drone = force de la majorité du jury · HP = avantage en direct · € = coûts réels

Limite d’honnêteté

L’avantage part de 100 ; à chaque tour le modèle actif le plus faible perd les dégâts dérivés — dégâts = 16 + 24·marge, marge = (gagnant − deuxième) ÷ échelle de score (deriveRoundOutcomes v8.1-tokonomix).

Une égalité exacte n’a pas de vainqueur décisif — pas de tir, pas de dégâts ce tour.

0 avantage n’est PAS une élimination : chaque modèle répond à chaque tour. Le vrai gagnant est le jury ci-dessous, affiché pour tous les modèles.

Les dégâts reflètent l’écart relatif entre les meilleurs scores, pas la qualité absolue — gagner un tour faible vaut autant qu’un tour fort.

L’échelle de score est le score de tour le plus haut de cette rediffusion (0–10 ou 0–100) ; un tour élevé peut rapprocher les autres.

Zéro appel de modèle — rendu pur du tour enregistré. Changer de vue change l’image, jamais les chiffres.
Retour à l’arène