Aller au contenu

Game Scoreboard 30 derniers jours

Tout ce que les jeux collectent sur un seul tableau — taux de victoire, votes du jury, intégrité du jury, détection des angles morts, valeur council-vs-frontier et un champion par capacité. Tous les chiffres sont calculés en direct à partir de vraies parties.

Une analyse plus profonde que la bande des parties récentes. Choisissez une fenêtre temporelle ci-dessous ; chaque fenêtre a sa propre URL.

24
parties jouées
35
modèles dans l'arène
54
évaluations du jury
0
votes utilisateurs en duel
17 🔍
angles morts détectés par le jury (notre indicateur signature · en déploiement)

Meilleurs modèles — performances de jeu taux de victoire sur toutes les parties de la fenêtre

Calculé en direct à partir des parties : parties, victoires/défaites, votes du jury, manches-comme-juge. live

#ModèlePartiesV–DTaux de victoireJury ▲Comme juge
1Claude Opus 4.6220
4
Approuvé par (modèles juges) :
meta-llama/llama-3.3-70b-instruct×1
gemini-pro-latest×1
gpt-5.4×1
gpt-5-mini×1
0
2Qwen 3.6 Plus220
3
Approuvé par (modèles juges) :
claude-opus-4-7×1
claude-sonnet-4-6×1
Meta-Llama-3_3-70B-Instruct×1
0
3Claude Opus 4110
1
Approuvé par (modèles juges) :
claude-opus-4-7×1
0
4gpt-5.2-chat-latest110
1
Approuvé par (modèles juges) :
claude-opus-4-7×1
0
5Gemini 2.5 Pro431
10
Approuvé par (modèles juges) :
gpt-4o×3
claude-haiku-4-5×3
gemini-flash-latest×3
claude-opus-4-7×1
1
A voté pour (comme juge) :
6Claude Opus 4.7954
17
Approuvé par (modèles juges) :
deepseek/deepseek-v4-pro×3
claude-opus-4-7×3
gpt-5.4×2
gpt-5-mini×1
gemini-pro-latest×1
7
7Claude Sonnet 4.6422
5
Approuvé par (modèles juges) :
deepseek/deepseek-v4-pro×1
gpt-5-mini×1
gpt-5.3-chat-latest×1
claude-opus-4-7×1
gpt-5.2×1
1
A voté pour (comme juge) :
8Claude Opus 4.8211
2
Approuvé par (modèles juges) :
deepseek/deepseek-v4-pro×1
gpt-5-mini×1
0
9Llama 4 Scout211
1
Approuvé par (modèles juges) :
gemini-3.5-flash×1
0
10Claude Haiku 4.5835
15
Approuvé par (modèles juges) :
meta-llama/llama-3.3-70b-instruct×3
claude-opus-4-7×3
qwen/qwen2.5-vl-72b-instruct×2
meta-llama/llama-4-maverick×1
minimax/minimax-m2.5×1
2
A voté pour (comme juge) :
11Claude Opus 4.5312
7
Approuvé par (modèles juges) :
gpt-5-mini×2
deepseek/deepseek-v4-pro×1
gemini-pro-latest×1
gpt-5.4×1
claude-haiku-4-5-20251001×1
1
A voté pour (comme juge) :
12gpt-4.1514
15
Approuvé par (modèles juges) :
gemini-flash-latest×5
gpt-4o×4
claude-haiku-4-5×3
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
0
13gpt-4o-mini514
14
Approuvé par (modèles juges) :
gpt-4o×5
gemini-flash-latest×5
claude-haiku-4-5×4
0
14DeepSeek v4 Pro505
5
Approuvé par (modèles juges) :
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
claude-haiku-4-5-20251001×1
gemini-2.5-pro×1
3
A voté pour (comme juge) :
15Llama 3.3 70B Instruct404
6
Approuvé par (modèles juges) :
claude-opus-4-7×2
gemini-pro-latest×1
gemini-3.5-flash×1
claude-sonnet-4-6×1
Meta-Llama-3_3-70B-Instruct×1
4
A voté pour (comme juge) :
16gpt-5.5202
3
Approuvé par (modèles juges) :
claude-opus-4-7×1
gemini-pro-latest×1
gemini-3.5-flash×1
1
A voté pour (comme juge) :
17gpt-5202
00
18gpt-4.1-nano101
00
19Claude Fable 5101
2
Approuvé par (modèles juges) :
deepseek/deepseek-v4-pro×1
gpt-5-mini×1
0
20DeepSeek v3.2101
1
Approuvé par (modèles juges) :
gemini-3.5-flash×1
0
21Nous Hermes 3 70B101
00
22Claude Opus 4.1101
3
Approuvé par (modèles juges) :
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
0
23Claude Sonnet 4.5101
3
Approuvé par (modèles juges) :
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
0
24Deep Research Preview (Apr-21-2026)101
00
25Deep Research Max Preview (Apr-21-2026)101
00
26gpt-4-turbo101
3
Approuvé par (modèles juges) :
meta-llama/llama-3.3-70b-instruct×1
qwen/qwen2.5-vl-72b-instruct×1
qwen/qwen3.7-max×1
0
27Mistral-7B-Instruct-v0.3101
2
Approuvé par (modèles juges) :
claude-opus-4-5-20251101×1
deepseek/deepseek-v4-pro×1
1
A voté pour (comme juge) :
28Qwen2.5-VL-72B-Instruct101
2
Approuvé par (modèles juges) :
deepseek/deepseek-v4-pro×1
gpt-5.4×1
0
29Gemini 2.5 Flash101
4
Approuvé par (modèles juges) :
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
1
A voté pour (comme juge) :
30Gemini Pro Latest101
0
2
A voté pour (comme juge) :
31gpt-4o-2024-05-13101
4
Approuvé par (modèles juges) :
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
0
32gpt-5.5-2026-04-23101
4
Approuvé par (modèles juges) :
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
0
33gpt-5.4-2026-03-05101
1
Approuvé par (modèles juges) :
gpt-5.3-chat-latest×1
0
34gpt-4o101
3
Approuvé par (modèles juges) :
gpt-4o×1
claude-haiku-4-5×1
gemini-flash-latest×1
5
A voté pour (comme juge) :
35Gemini Flash Latest101
0
7
▲ taux de victoirejury ▲ = juges du panel ayant approuvé ce modèle — cliquez pour voir lesquelscomme-juge = manches où il a noté les autres

Champion par capacité 30 derniers jours

Modèle au meilleur taux de victoire possédant chaque capacité et ayant joué dans la fenêtre. live

🧠 raisonnement
Claude Opus 4.6
20 · 100%
outils
Claude Opus 4.6
20 · 100%
👁 vision
Claude Opus 4.6
20 · 100%
📋 json-schema
Claude Opus 4.6
20 · 100%
🎧 audio
Gemini 2.5 Pro
31 · 75%

Tableau d'intégrité du jury le volant — qui note en accord avec le panel

Par modèle juge : évaluations émises et fréquence d'accord avec le vainqueur de la manche. live

JugeÉval.Accord
claude-opus-4-77
meta-llama/llama-3.3-70b-instruct4
qwen/qwen2.5-vl-72b-instruct2
gemini-3.5-flash1
meta-llama/llama-4-maverick1
minimax/minimax-m2.51
gemini-2.5-pro1
claude-opus-4-5-202511011
claude-sonnet-4-61
Meta-Llama-3_3-70B-Instruct1
gpt-5.51
gemini-2.5-flash1
gpt-5.3-chat-latest1
gpt-5.21
gpt-4o5
claude-haiku-4-54
deepseek/deepseek-v4-pro3
gpt-5.43
gemini-flash-latest7
gpt-5-mini2
gemini-pro-latest2
claude-haiku-4-5-202510012
qwen/qwen3.7-max1
Mistral-7B-Instruct-v0.31
Accord = part des choix de ce juge correspondant au vainqueur élu de la manche.

Votes utilisateurs & jeu

Comment le panel et les humains ont voté.

Votes (panel) de jeu émis54live
Upvotes ▲ communauté33tout l'historique
Votes utilisateurs en duel0en direct · en attente de trafic
Votes "modèle souhaité"live
Sources : judge_panel · model_arena_activity.upvotes_received · votes · wanted_votes

🔍 Angles morts détectés par le jury — notre indicateur de marque, aucun autre tableau ne l'a

Le chiffre signature de Tokonomix : par modèle, combien d'angles morts le jury a attrapés vs créés — confirmé uniquement quand ≥2 juges du panel s'accordent sur une vraie omission.

ModèleAttrapésCréésInsight net
Claude Opus 4.630+3
Qwen 3.6 Plus12-1
Claude Opus 4.701-1
Claude Opus 4.810+1
Llama 4 Scout10+1
Claude Haiku 4.512-1
DeepSeek v4 Pro23-1
Llama 3.3 70B Instruct21+1
gpt-5.512-1
DeepSeek v3.201-1
Nous Hermes 3 70B01-1
Claude Opus 4.131+2
Claude Sonnet 4.530+3
Deep Research Preview (Apr-21-2026)22+0
Deep Research Max Preview (Apr-21-2026)21+1
Un indicateur signature Tokonomix — aucun autre tableau ne l'affiche. Apparaît quand l'arène émet des angles morts (opt-in, jamais sur les parties publiques — limité par les coûts).

Council vs Frontier moins cher ET/OU plus intelligent ?

Équipes consensus de modèles bon marché vs un seul frontier premium — taux de victoire et € économisés. live

DuelVainqueurQualitéCoûtVerdict
Council A vs Frontier BFrontier B68 vs 86€0.007 vs €0.187frontier a gagné
Council A vs Frontier BCouncil A76.67 vs 83.33€0.210 vs €0.32335% moins cher & a gagné
Council A vs Frontier CFrontier C60.67 vs 86€0.136 vs €0.088frontier a gagné
Council A vs Frontier Cégalité54.67 vs 57.67€0.007 vs €0.09493% moins cher & a gagné
Council A vs Frontier BFrontier B71.67 vs 94.33€0.086 vs €0.049frontier a gagné
Council A vs Frontier BFrontier B61.67 vs 91€0.028 vs €0.044frontier a gagné
Council A vs Frontier BFrontier B78 vs 85€0.049 vs €0.049frontier a gagné
Council A vs Frontier CFrontier C72 vs 92€0.027 vs €0.017frontier a gagné
Le récit central de Tokonomix, quantifié par duel. Le coût est dispatch-only (surcharge du jury exclue).

💶 Coût : dépensé vs économisé ce que vaut l'histoire du consensus, en €

Total € dépensé en parties dans cette fenêtre, et € économisés quand un council moins cher a égalé ou battu un frontier premium. live

€4.60
dépense totale de jeu (fenêtre)
€0.113
économisé vs toujours-frontier (coût des concurrents uniquement)
35%
réduction moy. quand council a gagné/égalité
Règle de calcul: Dans les parties council, le panel de jury est une surcharge neutre — il coûte pareil quel que soit le joueur, donc il ne compte PAS dans "économisé". Économie = coût concurrent frontier − coût concurrent council ; per_player_cost est dispatch-only.

Historique de jeu par modèle cliquez un modèle → son historique complet

Chaque nom de modèle renvoie à sa page ; un historique de jeu par modèle, filtré par temps (chaque manche jouée, avec résumés) est en déploiement — une page fraîche, liée en interne, qui grandit avec les parties.

Tout ce qui est marqué live provient de vraies parties ; les métriques en déploiement arrivent avec la Phase C.
Retour à l'arène