Dagelijkse arena

Wedstrijd-replay

Een opgeslagen wedstrijd wordt afgespeeld — er worden geen modellen aangeroepen.

⚖ Multi-judge consensus — óns handelsmerk

Tokonomix multi-council + judge + blind-spot detection — lagere kosten, én vangt de fouten die één model mist.

Multi-council · lagere kostenMulti-judge · cross-familyBlind-spot detection · vang de gemiste foutN-team · groepen tegen elkaar

Speltype

Beurten: 10

Snelheid1×

customer_service · roundBeurt 0 / 10

Het goedkoopste model dat kwalitatief meekomt verschijnt hier.

0 / 10

Claude Opus 4.7

Anthropic

€—score —

100

gpt-5.5

OpenAI

€—score —

100

DeepSeek v3.2

OpenRouter

€—score —

100

Llama 3.3 70B Instruct

OpenRouter

€—score —

100

Llama 4 Scout

OpenRouter

€—score —

100

Nous Hermes 3 70B

OpenRouter

€—score —

100

Klant

Druk op “Volgende beurt” om te starten.

Eindoordeel — kosten, kwaliteit & voorsprong

Spelers	Kosten	Kwaliteit	Wins	Voorsprong / status
Claude Opus 4.7	€0.2375	65	0	uitgeput
gpt-5.5	€0.1857	68	6	uitgeput
DeepSeek v3.2	€0.0065	58.5	1	uitgeput
Llama 3.3 70B Instruct	€0.0025	72.5	0	uitgeput
Llama 4 Scout	€0.0020	72.5	0	100 HP
Nous Hermes 3 70B	€0.0082	2.5	0	uitgeput

0 / 10Drone-schade = sterkte jury-meerderheid · HP = live voorsprong · € = echte kosten

Eerlijkheids-grens

Voorsprong start op 100. Knock-outs volgen de eindstand van de jury — het laagst geplaatste model valt eerst, zo getimed dat de laatste knock-out tegen het einde van de ronde valt. De winnaar van de jury wordt nooit aangevallen en blijft dus altijd als laatste over (deriveRoundOutcomes v9-elim-tokonomix).

Als het panel eindigt in een echte gelijkstand voor de eerste plaats, wordt niemand geëlimineerd en speelt elk model tot het einde.

0 voorsprong betekent dat dat model geëlimineerd is; zodra alleen de winnaar overblijft, flitst de replay het resultaat. Het jurypanel onderaan kroont datzelfde laatst overgebleven model.

De voorsprongbalk visualiseert de eindstand, niet de kwaliteit per beurt — de beurt-winnaar-badge markeert apart wie elke beurt het beste antwoordde.

De scoreschaal is de hoogste beurt-score in deze replay (0–10 of 0–100); één hoge beurt kan de rest dichter doen lijken.

Nul model-dispatch — pure render van de opgeslagen ronde. Weergave wisselen verandert het beeld, nooit de cijfers.

Terug naar de arena

Dit resultaat delen

Delen via X LinkedIn WhatsApp

↺ Nieuwe ronde starten