Game Scoreboard — laatste 30 dagen

Alles wat de games verzamelen op één bord — model-winratio's, jury-upvotes, juryintegriteit, blindevlek-detectie, council-vs-frontier waarde en een kampioen per capability. Alle cijfers worden live uit echte rondes berekend.

Een diepere analyse dan de recente-rondes-strip. Kies hieronder een tijdvenster; elk venster heeft een eigen URL.

Recente games

Klantenservice12 d geleden

Custom — my printer don't start bu i have voltage and i get a cartrridge read errror. wha

GLM-4.5, Meta-Llama-3_3-70B-Instruct, Mistral-7B-Instruct-v0.3 +1 meer

■Qwen2.5-VL-72B-Instruct gewonnen

Bekijk replay →

Data-extractie2 w geleden

Office Lease Agreement — Riverside Tower

Claude Opus 4.8, gpt-oss-20b, Claude Haiku 4.5 +1 meer

■Claude Opus 4.8 gewonnen

Bekijk replay →

Data-extractie5 w geleden

Software License Agreement — Acme & Northwind

gpt-oss-20b, Llama-3.1-8B-Instruct, Gemini 2.5 Pro +2 meer

■Gemini 2.5 Pro gewonnen

Bekijk replay →

Data-extractie5 w geleden

Software License Agreement — Acme & Northwind

Claude Opus 4.8, gpt-oss-20b, Llama-3.1-8B-Instruct

■Llama-3.1-8B-Instruct gewonnen

Bekijk replay →

Data-extractie5 w geleden

Office Lease Agreement — Riverside Tower

Claude Opus 4.8, gpt-oss-20b, Llama-3.1-8B-Instruct

■Claude Opus 4.8 gewonnen

Bekijk replay →

Klantenservice6 w geleden

Custom — My order is not shipped, is the payment correct booked?

Claude Fable 5, Gemini 3.5 Flash, gpt-5-chat-latest

■gpt-5-chat-latest gewonnen

Bekijk replay →

Klantenservice6 w geleden

Custom — My computer is not starting and i get a black screen, i use Windows. what is the

Antigravity Agent Preview, Claude Fable 5, Claude Haiku 4.5

■Claude Haiku 4.5 gewonnen

Bekijk replay →

Data-extractie6 w geleden

Huurovereenkomst bedrijfsruimte — Zuidas

Claude Opus 4.8, Llama 4 Scout, gpt-4.1-nano

■Claude Opus 4.8 gewonnen

Bekijk replay →

games gespeeld

modellen in de arena

jury-beoordelingen

head-to-head gebruikersstemmen

— 🔍

blinde vlekken gevangen door de jury (ons kenmerkende cijfer · in uitrol)

Topmodellen — game-prestaties winratio over alle rondes in het venster

Live berekend uit game-rondes: games, winst/verlies, jury-upvotes, rondes-als-jury. live

#	Model	Games	W–V	Jury ▲	Als jury
1	Qwen2.5-VL-72B-Instruct	1	1–0	▲ 2 Geüpvote door (jurymodellen): claude-opus-4-8×1 gpt-5.5×1	0
2	Claude Opus 4.8	1	1–0	▲ 0	1 Stemde op (als jury): Meta-Llama-3_3-70B-Instruct×1
3	Mistral-7B-Instruct-v0.3	2	0–2	▲ 2 Geüpvote door (jurymodellen): claude-opus-4-8×1 gpt-5.5×1	0
4	GLM-4.5	1	0–1	▲ 2 Geüpvote door (jurymodellen): claude-opus-4-8×1 gpt-5.5×1	0
5	Meta-Llama-3_3-70B-Instruct	1	0–1	▲ 2 Geüpvote door (jurymodellen): claude-opus-4-8×1 gpt-5.5×1	0
6	gpt-oss-20b	1	0–1	▲ 0	0
7	Claude Haiku 4.5	1	0–1	▲ 0	0

▲ winratiojury ▲ = panel-juryleden die dit model endorseerden — klik om te zien welkeals-jury = rondes waarin het anderen beoordeelde

Kampioen per capability Laatste 30 dagen

Model met de hoogste winratio dat elke capability heeft en in het venster speelde. live

🧠 redeneren

Claude Opus 4.8

1–0 · 100%

⚙ tool-gebruik

Claude Opus 4.8

1–0 · 100%

👁 vision

Qwen2.5-VL-72B-Instruct

1–0 · 100%

📋 json-schema

Claude Opus 4.8

1–0 · 100%

🎧 audio

—

nog geen rondes

Jury-integriteitsbord de flywheel — wie scoort in lijn met het panel

Per jurymodel: uitgebrachte beoordelingen en hoe vaak de keuze de rondewinnaar matchte. live

Jury	Beoord.	Overeenkomst
gpt-5.5	1
claude-opus-4-8	1

Overeenkomst = aandeel keuzes van deze jury dat de gekozen rondewinnaar matchte.

Gebruikers- & game-stemmen

Hoe het panel en mensen stemden.

Game-(panel)stemmen uitgebracht	2	live
Community ▲ upvotes	33	aller tijden
Head-to-head gebruikersstemmen	0	live · wacht op verkeer
"Gewenst model"-stemmen	—	live

Bronnen: judge_panel · model_arena_activity.upvotes_received · votes · wanted_votes

🔍 Blinde vlekken gedetecteerd door de jury — ons handelsmerk-cijfer, geen ander bord heeft het

Het kenmerkende Tokonomix-cijfer: per model, hoeveel blinde vlekken de jury ving vs creëerde — bevestigd alleen als ≥2 paneljuryleden het eens zijn dat het een echte omissie is. in uitrol — Fase C

Een kenmerkende Tokonomix-metric — geen ander bord toont het. Verschijnt zodra de arena blinde vlekken uitstuurt (opt-in, nooit op publieke games — kosten-gegated).

Council vs Frontier goedkoper EN/OF slimmer?

Consensus-teams van goedkope modellen vs één premium frontier — winratio en € bespaard. live

Nog geen council-vs-frontier-rondes in dit venster.

Het kern-Tokonomix-verhaal, gekwantificeerd per duel. Kosten zijn dispatch-only (jury-overhead uitgesloten).

💶 Kosten: uitgegeven vs bespaard wat het consensus-verhaal waard is, in €

Totaal € uitgegeven aan games in dit venster, en € bespaard wanneer een goedkopere council een premium frontier evenaarde of versloeg. live

€0.128

totale game-uitgave (venster)

€0.000

bespaard vs altijd-frontier (alleen contestant-kosten)

—

gem. kostenbesparing als council won/gelijk

⚠ Rekenregel: In council-games is het jurypanel neutrale overhead — het kost hetzelfde ongeacht wie speelt, dus telt het NIET mee in "bespaard". Besparing = frontier contestant-kosten − council contestant-kosten; per_player_cost is dispatch-only.

Game-geschiedenis per model klik een model → volledige game-geschiedenis

Elke modelnaam linkt naar de modelpagina; een aparte, tijd-gefilterde game-geschiedenis per model (elke gespeelde ronde, met match-samenvattingen) is in uitrol — een verse, intern-gelinkte pagina die groeit terwijl games draaien.