Naar inhoud

Dagelijkse arena

Wedstrijd-replay

Een opgeslagen wedstrijd wordt afgespeeld — er worden geen modellen aangeroepen.

⚖ Multi-judge consensus — óns handelsmerk
Tokonomix multi-council + judge + blind-spot detection — lagere kosten, én vangt de fouten die één model mist.
Multi-council · lagere kostenMulti-judge · cross-familyBlind-spot detection · vang de gemiste foutN-team · groepen tegen elkaar
Speltype
Beurten: 5
Snelheid1×
customer_service · roundBeurt 0 / 5
Het goedkoopste model dat kwalitatief meekomt verschijnt hier.
0 / 5
Council A
Llama 3.3 70B Instruct · Llama 4 Scout · Nous Hermes 3 70B
CO
€—score
HP
100
Frontier B
Claude Opus 4
FR
€—score
HP
100
Klant
Druk op “Volgende beurt” om te starten.

Eindoordeelkosten, kwaliteit & voorsprong

SpelersKostenKwaliteitWinsVoorsprong / status
Council A€0.00686801 HP
Frontier B€0.1718865100 HP
0 / 5Drone-schade = sterkte jury-meerderheid · HP = live voorsprong · € = echte kosten

Eerlijkheids-grens

Voorsprong start op 100; elke beurt verliest het zwakste actieve model de afgeleide schade — schade = 16 + 24·marge, marge = (winnaar − nr. 2) ÷ scoreschaal (deriveRoundOutcomes v8.1-tokonomix).

Een exacte gelijkstand heeft geen beslissende winnaar — geen treffer, geen schade die beurt.

0 voorsprong is GEEN eliminatie: elk model beantwoordt elke beurt. De echte winnaar is het jurypanel onderaan, getoond voor álle modellen.

Schade weerspiegelt het relatieve gat tussen de topscores, niet de absolute kwaliteit — een lage beurt winnen geeft evenveel als een hoge.

De scoreschaal is de hoogste beurt-score in deze replay (0–10 of 0–100); één hoge beurt kan de rest dichter doen lijken.

Nul model-dispatch — pure render van de opgeslagen ronde. Weergave wisselen verandert het beeld, nooit de cijfers.
Terug naar de arena