Naar inhoud

Dagelijkse arena

Wedstrijd-replay

Een opgeslagen wedstrijd wordt afgespeeld — er worden geen modellen aangeroepen.

⚖ Multi-judge consensus — óns handelsmerk
Tokonomix multi-council + judge + blind-spot detection — lagere kosten, én vangt de fouten die één model mist.
Multi-council · lagere kostenMulti-judge · cross-familyBlind-spot detection · vang de gemiste foutN-team · groepen tegen elkaar
Speltype
Beurten: 2
Snelheid1×
data_extraction · roundBeurt 0 / 2
Het goedkoopste model dat kwalitatief meekomt verschijnt hier.
0 / 2
Claude Opus 4.5
Anthropic
CL
€—score
HP
100
DeepSeek v4 Pro
OpenRouter
DE
€—score
HP
100
gpt-5
OpenAI
GP
€—score
HP
100
Klant
Druk op “Volgende beurt” om te starten.

Eindoordeelkosten, kwaliteit & voorsprong

SpelersKostenKwaliteitWinsVoorsprong / status
Claude Opus 4.5€0.0121852100 HP
DeepSeek v4 Pro€0.000882060 HP
gpt-5€0.009925082 HP
0 / 2Drone-schade = sterkte jury-meerderheid · HP = live voorsprong · € = echte kosten

Eerlijkheids-grens

Voorsprong start op 100; elke beurt verliest het zwakste actieve model de afgeleide schade — schade = 16 + 24·marge, marge = (winnaar − nr. 2) ÷ scoreschaal (deriveRoundOutcomes v8.1-tokonomix).

Een exacte gelijkstand heeft geen beslissende winnaar — geen treffer, geen schade die beurt.

0 voorsprong is GEEN eliminatie: elk model beantwoordt elke beurt. De echte winnaar is het jurypanel onderaan, getoond voor álle modellen.

Schade weerspiegelt het relatieve gat tussen de topscores, niet de absolute kwaliteit — een lage beurt winnen geeft evenveel als een hoge.

De scoreschaal is de hoogste beurt-score in deze replay (0–10 of 0–100); één hoge beurt kan de rest dichter doen lijken.

Nul model-dispatch — pure render van de opgeslagen ronde. Weergave wisselen verandert het beeld, nooit de cijfers.
Terug naar de arena