Game Scoreboard — letzter monat

Alles, was die Spiele erfassen, auf einer Tafel — Modell-Siegquoten, Jury-Upvotes, Jury-Integrität, Blind-Spot-Erkennung, Council-vs-Frontier-Wert und ein Champion pro Fähigkeit. Alle Zahlen werden live aus echten Runden berechnet.

Eine tiefere Analyse als der Letzte-Runden-Streifen. Wähle unten ein Zeitfenster; jedes Fenster hat eine eigene URL.

Aktuelle Spiele

Datenextraktionvor 6 Std.

Huurovereenkomst bedrijfsruimte — Zuidas

Claude Opus 4.8, Llama 4 Scout, gpt-4.1-nano

■Claude Opus 4.8 gewonnen

Replay ansehen →

Kundenservicevor 6 Std.

Custom — Help my computer is not starting, can the problem happen because i turn off my p

Claude Fable 5, Claude Opus 4.6, Claude Opus 4.7 +3 weitere

■Claude Opus 4.6 gewonnen

Replay ansehen →

Mehrsprachiger Supportvor 3 T.

Account Merged Without Consent

gpt-5.5, Llama 3.3 70B Instruct, Qwen 3.6 Plus +1 weitere

■Qwen 3.6 Plus gewonnen

Replay ansehen →

Kundenservicevor 4 T.

Custom — Mijn website doet het niet, kan het zijn dat het komt omdat mijn printer uit sta

Claude Opus 4.7, gpt-5.5, DeepSeek v3.2 +3 weitere

■Llama 4 Scout gewonnen

Replay ansehen →

Mehrsprachiger Supportvor 4 T.

Verkeerd artikel ontvangen

Claude Haiku 4.5, Claude Opus 4.1, Claude Sonnet 4.5 +3 weitere

■Claude Haiku 4.5 gewonnen

Replay ansehen →

Kundenservicevor 4 T.

Custom — Mijn pc start niet op, kan het zijn dat ze mijn website hebben gehacked?

Llama 3.3 70B Instruct, Claude Opus 4

■Claude Opus 4 gewonnen

Replay ansehen →

Kundenservicevor 4 T.

Custom — Mijn website werkt niet, kan het zijn dat het probleem aan mijn printer ligt?

Claude Haiku 4.5, gpt-4-turbo

■Claude Haiku 4.5 gewonnen

Replay ansehen →

Mehrsprachiger Supportvor 4 T.

Te late levering — terugbetaling gevraagd

Claude Opus 4.5, Claude Opus 4.6, Claude Opus 4.7

■Claude Opus 4.6 gewonnen

Replay ansehen →

Spiele gespielt

Modelle in der Arena

Jury-Bewertungen

Head-to-head-Nutzerstimmen

— 🔍

von der Jury erkannte blinde Flecken (unsere Signatur-Kennzahl · im Rollout)

Noch keine Spiele in diesem Fenster — spiele eines in der Arena und es erscheint hier.

Top-Modelle — Spielleistung Siegquote über alle Runden im Fenster

Live aus Spielrunden berechnet: Spiele, Siege/Niederlagen, Jury-Upvotes, Runden-als-Jury. live

#	Modell	Spiele	S–N	Siegquote	Jury ▲	Als Jury

▲ SiegquoteJury ▲ = Panel-Jurys, die dieses Modell befürworteten — klicken für Detailsals-Jury = Runden, in denen es andere bewertete

Champion pro Fähigkeit Letzter Monat

Modell mit der höchsten Siegquote, das jede Fähigkeit besitzt und im Fenster spielte. live

🧠 Reasoning

—

noch keine Runden

⚙ Tool-Nutzung

—

noch keine Runden

👁 Vision

—

noch keine Runden

📋 json-schema

—

noch keine Runden

🎧 Audio

—

noch keine Runden

Jury-Integritätstafel das Schwungrad — wer im Einklang mit dem Panel bewertet

Pro Jury-Modell: abgegebene Bewertungen und wie oft die Wahl dem Rundensieger entsprach. live

Jury	Bewert.	Übereinstimmung
Noch keine Spiele in diesem Fenster — spiele eines in der Arena und es erscheint hier.

Übereinstimmung = Anteil der Wahlen dieser Jury, die dem gewählten Rundensieger entsprachen.

Nutzer- & Spielstimmen

Wie das Panel und Menschen abstimmten.

Spiel-(Panel)-Stimmen abgegeben	0	live
Community ▲ Upvotes	33	gesamt
Head-to-head-Nutzerstimmen	0	live · wartet auf Traffic
"Gewünschtes Modell"-Stimmen	—	live

Quellen: judge_panel · model_arena_activity.upvotes_received · votes · wanted_votes

🔍 Von der Jury erkannte blinde Flecken — unsere Marken-Kennzahl, kein anderes Board hat sie

Die Signatur-Tokonomix-Zahl: pro Modell, wie viele blinde Flecken die Jury fing vs erzeugte — nur bestätigt, wenn ≥2 Panel-Jurys einig sind, dass es eine echte Auslassung ist. im Rollout — Phase C

Eine Signatur-Tokonomix-Metrik — kein anderes Board zeigt sie. Erscheint, sobald die Arena blinde Flecken ausgibt (opt-in, nie bei öffentlichen Spielen — kostengesteuert).

Council vs Frontier günstiger UND/ODER schlauer?

Consensus-Teams günstiger Modelle vs ein einzelnes Premium-Frontier — Siegquote und € gespart. live

Noch keine Council-vs-Frontier-Runden in diesem Fenster.

Das Kern-Tokonomix-Narrativ, pro Duell quantifiziert. Kosten sind dispatch-only (Jury-Overhead ausgeschlossen).

💶 Kosten: ausgegeben vs gespart was die Consensus-Story wert ist, in €

Gesamt € für Spiele in diesem Fenster ausgegeben, und € gespart, wenn ein günstigerer Council ein Premium-Frontier erreichte oder schlug. live

€0.000

Gesamt-Spielausgaben (Fenster)

€0.000

gespart vs immer-Frontier (nur Contestant-Kosten)

—

Ø Kostensenkung wenn Council gewann/unentsch.

⚠ Rechenregel: In Council-Spielen ist das Jury-Panel neutraler Overhead — es kostet gleich viel, egal wer spielt, zählt also NICHT zu "gespart". Ersparnis = Frontier-Contestant-Kosten − Council-Contestant-Kosten; per_player_cost ist dispatch-only.

Spielverlauf pro Modell klicke ein Modell → vollständiger Spielverlauf

Jeder Modellname verlinkt zur Modellseite; ein eigener, zeitgefilterter Spielverlauf pro Modell (jede gespielte Runde, mit Match-Zusammenfassungen) ist im Rollout — eine frische, intern verlinkte Seite, die mit den Spielen wächst.