Naar inhoud

Dagelijkse arena

Wedstrijd-replay

Een opgeslagen wedstrijd wordt afgespeeld — er worden geen modellen aangeroepen.

⚖ Multi-judge consensus — óns handelsmerk
Tokonomix multi-council + judge + blind-spot detection — lagere kosten, én vangt de fouten die één model mist.
Multi-council · lagere kostenMulti-judge · cross-familyBlind-spot detection · vang de gemiste foutN-team · groepen tegen elkaar
Speltype
Beurten: 3
Snelheid1×
customer_service · roundBeurt 0 / 3
Het goedkoopste model dat kwalitatief meekomt verschijnt hier.
0 / 3
gpt-4o
OpenAI
GP
€—score
HP
100
Gemini Flash Latest
Google Gemini
GE
€—score
HP
100
gpt-4o-mini
OpenAI
GP
€—score
HP
100
Klant
Druk op “Volgende beurt” om te starten.

Eindoordeelkosten, kwaliteit & voorsprong

SpelersKostenKwaliteitWinsVoorsprong / status
gpt-4o€0.004885.332100 HP
Gemini Flash Latest€0.003628.33046 HP
gpt-4o-mini€0.000387.331100 HP
0 / 3Drone-schade = sterkte jury-meerderheid · HP = live voorsprong · € = echte kosten

Eerlijkheids-grens

Voorsprong start op 100; elke beurt verliest het zwakste actieve model de afgeleide schade — schade = 16 + 24·marge, marge = (winnaar − nr. 2) ÷ scoreschaal (deriveRoundOutcomes v8.1-tokonomix).

Een exacte gelijkstand heeft geen beslissende winnaar — geen treffer, geen schade die beurt.

0 voorsprong is GEEN eliminatie: elk model beantwoordt elke beurt. De echte winnaar is het jurypanel onderaan, getoond voor álle modellen.

Schade weerspiegelt het relatieve gat tussen de topscores, niet de absolute kwaliteit — een lage beurt winnen geeft evenveel als een hoge.

De scoreschaal is de hoogste beurt-score in deze replay (0–10 of 0–100); één hoge beurt kan de rest dichter doen lijken.

Nul model-dispatch — pure render van de opgeslagen ronde. Weergave wisselen verandert het beeld, nooit de cijfers.
Terug naar de arena