Naar inhoud

Dagelijkse arena

Wedstrijd-replay

Een opgeslagen wedstrijd wordt afgespeeld — er worden geen modellen aangeroepen.

⚖ Multi-judge consensus — óns handelsmerk
Tokonomix multi-council + judge + blind-spot detection — lagere kosten, én vangt de fouten die één model mist.
Multi-council · lagere kostenMulti-judge · cross-familyBlind-spot detection · vang de gemiste foutN-team · groepen tegen elkaar
Speltype
Beurten: 5
Snelheid1×
multilingual_support · roundBeurt 0 / 5
Het goedkoopste model dat kwalitatief meekomt verschijnt hier.
0 / 5
gpt-5.5
OpenAI
GP
€—score
HP
100
Llama 3.3 70B Instruct
OpenRouter
LL
€—score
HP
100
Qwen 3.6 Plus
OpenRouter
QW
€—score
HP
100
DeepSeek v4 Pro
OpenRouter
DE
€—score
HP
100
Klant
Druk op “Volgende beurt” om te starten.

Eindoordeelkosten, kwaliteit & voorsprong

SpelersKostenKwaliteitWinsVoorsprong / status
gpt-5.5€0.0697820100 HP
Llama 3.3 70B Instruct€0.000768064 HP
Qwen 3.6 Plus€0.0167905100 HP
DeepSeek v4 Pro€0.003315046 HP
0 / 5Drone-schade = sterkte jury-meerderheid · HP = live voorsprong · € = echte kosten

Eerlijkheids-grens

Voorsprong start op 100; elke beurt verliest het zwakste actieve model de afgeleide schade — schade = 16 + 24·marge, marge = (winnaar − nr. 2) ÷ scoreschaal (deriveRoundOutcomes v8.1-tokonomix).

Een exacte gelijkstand heeft geen beslissende winnaar — geen treffer, geen schade die beurt.

0 voorsprong is GEEN eliminatie: elk model beantwoordt elke beurt. De echte winnaar is het jurypanel onderaan, getoond voor álle modellen.

Schade weerspiegelt het relatieve gat tussen de topscores, niet de absolute kwaliteit — een lage beurt winnen geeft evenveel als een hoge.

De scoreschaal is de hoogste beurt-score in deze replay (0–10 of 0–100); één hoge beurt kan de rest dichter doen lijken.

Nul model-dispatch — pure render van de opgeslagen ronde. Weergave wisselen verandert het beeld, nooit de cijfers.
Terug naar de arena