Naar inhoud

Game Scoreboard vorige maand

Alles wat de games verzamelen op één bord — model-winratio's, jury-upvotes, juryintegriteit, blindevlek-detectie, council-vs-frontier waarde en een kampioen per capability. Alle cijfers worden live uit echte rondes berekend.

Een diepere analyse dan de recente-rondes-strip. Kies hieronder een tijdvenster; elk venster heeft een eigen URL.

Recente games

0
games gespeeld
0
modellen in de arena
0
jury-beoordelingen
0
head-to-head gebruikersstemmen
🔍
blinde vlekken gevangen door de jury (ons kenmerkende cijfer · in uitrol)
Nog geen games in dit venster — speel er één in de arena en hij verschijnt hier.

Topmodellen — game-prestaties winratio over alle rondes in het venster

Live berekend uit game-rondes: games, winst/verlies, jury-upvotes, rondes-als-jury. live

#ModelGamesW–VWinratioJury ▲Als jury
▲ winratiojury ▲ = panel-juryleden die dit model endorseerden — klik om te zien welkeals-jury = rondes waarin het anderen beoordeelde

Kampioen per capability Vorige maand

Model met de hoogste winratio dat elke capability heeft en in het venster speelde. live

🧠 redeneren
nog geen rondes
tool-gebruik
nog geen rondes
👁 vision
nog geen rondes
📋 json-schema
nog geen rondes
🎧 audio
nog geen rondes

Jury-integriteitsbord de flywheel — wie scoort in lijn met het panel

Per jurymodel: uitgebrachte beoordelingen en hoe vaak de keuze de rondewinnaar matchte. live

JuryBeoord.Overeenkomst
Nog geen games in dit venster — speel er één in de arena en hij verschijnt hier.
Overeenkomst = aandeel keuzes van deze jury dat de gekozen rondewinnaar matchte.

Gebruikers- & game-stemmen

Hoe het panel en mensen stemden.

Game-(panel)stemmen uitgebracht0live
Community ▲ upvotes33aller tijden
Head-to-head gebruikersstemmen0live · wacht op verkeer
"Gewenst model"-stemmenlive
Bronnen: judge_panel · model_arena_activity.upvotes_received · votes · wanted_votes

🔍 Blinde vlekken gedetecteerd door de jury — ons handelsmerk-cijfer, geen ander bord heeft het

Het kenmerkende Tokonomix-cijfer: per model, hoeveel blinde vlekken de jury ving vs creëerde — bevestigd alleen als ≥2 paneljuryleden het eens zijn dat het een echte omissie is. in uitrol — Fase C

Een kenmerkende Tokonomix-metric — geen ander bord toont het. Verschijnt zodra de arena blinde vlekken uitstuurt (opt-in, nooit op publieke games — kosten-gegated).

Council vs Frontier goedkoper EN/OF slimmer?

Consensus-teams van goedkope modellen vs één premium frontier — winratio en € bespaard. live

Nog geen council-vs-frontier-rondes in dit venster.
Het kern-Tokonomix-verhaal, gekwantificeerd per duel. Kosten zijn dispatch-only (jury-overhead uitgesloten).

💶 Kosten: uitgegeven vs bespaard wat het consensus-verhaal waard is, in €

Totaal € uitgegeven aan games in dit venster, en € bespaard wanneer een goedkopere council een premium frontier evenaarde of versloeg. live

€0.000
totale game-uitgave (venster)
€0.000
bespaard vs altijd-frontier (alleen contestant-kosten)
gem. kostenbesparing als council won/gelijk
Rekenregel: In council-games is het jurypanel neutrale overhead — het kost hetzelfde ongeacht wie speelt, dus telt het NIET mee in "bespaard". Besparing = frontier contestant-kosten − council contestant-kosten; per_player_cost is dispatch-only.

Game-geschiedenis per model klik een model → volledige game-geschiedenis

Elke modelnaam linkt naar de modelpagina; een aparte, tijd-gefilterde game-geschiedenis per model (elke gespeelde ronde, met match-samenvattingen) is in uitrol — een verse, intern-gelinkte pagina die groeit terwijl games draaien.