Naar inhoud

Dagelijkse arena

Wedstrijd-replay

Een opgeslagen wedstrijd wordt afgespeeld — er worden geen modellen aangeroepen.

⚖ Multi-judge consensus — óns handelsmerk
Tokonomix multi-council + judge + blind-spot detection — lagere kosten, én vangt de fouten die één model mist.
Multi-council · lagere kostenMulti-judge · cross-familyBlind-spot detection · vang de gemiste foutN-team · groepen tegen elkaar
Speltype
Beurten: 3
Snelheid1×
customer_service · roundBeurt 0 / 3
Het goedkoopste model dat kwalitatief meekomt verschijnt hier.
0 / 3
gpt-4.1
OpenAI
GP
€—score
HP
100
Gemini 2.5 Pro
Google Gemini
GE
€—score
HP
100
gpt-4o-mini
OpenAI
GP
€—score
HP
100
Klant
Druk op “Volgende beurt” om te starten.

Eindoordeelkosten, kwaliteit & voorsprong

SpelersKostenKwaliteitWinsVoorsprong / status
gpt-4.1€0.004780.672100 HP
Gemini 2.5 Pro€0.008981.33179 HP
gpt-4o-mini€0.000376.33061 HP
0 / 3Drone-schade = sterkte jury-meerderheid · HP = live voorsprong · € = echte kosten

Eerlijkheids-grens

Voorsprong start op 100; elke beurt verliest het zwakste actieve model de afgeleide schade — schade = 16 + 24·marge, marge = (winnaar − nr. 2) ÷ scoreschaal (deriveRoundOutcomes v8.1-tokonomix).

Een exacte gelijkstand heeft geen beslissende winnaar — geen treffer, geen schade die beurt.

0 voorsprong is GEEN eliminatie: elk model beantwoordt elke beurt. De echte winnaar is het jurypanel onderaan, getoond voor álle modellen.

Schade weerspiegelt het relatieve gat tussen de topscores, niet de absolute kwaliteit — een lage beurt winnen geeft evenveel als een hoge.

De scoreschaal is de hoogste beurt-score in deze replay (0–10 of 0–100); één hoge beurt kan de rest dichter doen lijken.

Nul model-dispatch — pure render van de opgeslagen ronde. Weergave wisselen verandert het beeld, nooit de cijfers.
Terug naar de arena