Game Scoreboard — dieser monat

Alles, was die Spiele erfassen, auf einer Tafel — Modell-Siegquoten, Jury-Upvotes, Jury-Integrität, Blind-Spot-Erkennung, Council-vs-Frontier-Wert und ein Champion pro Fähigkeit. Alle Zahlen werden live aus echten Runden berechnet.

Eine tiefere Analyse als der Letzte-Runden-Streifen. Wähle unten ein Zeitfenster; jedes Fenster hat eine eigene URL.

Aktuelle Spiele

Datenextraktionvor 6 Std.

Huurovereenkomst bedrijfsruimte — Zuidas

Claude Opus 4.8, Llama 4 Scout, gpt-4.1-nano

■Claude Opus 4.8 gewonnen

Replay ansehen →

Kundenservicevor 6 Std.

Custom — Help my computer is not starting, can the problem happen because i turn off my p

Claude Fable 5, Claude Opus 4.6, Claude Opus 4.7 +3 weitere

■Claude Opus 4.6 gewonnen

Replay ansehen →

Mehrsprachiger Supportvor 3 T.

Account Merged Without Consent

gpt-5.5, Llama 3.3 70B Instruct, Qwen 3.6 Plus +1 weitere

■Qwen 3.6 Plus gewonnen

Replay ansehen →

Kundenservicevor 4 T.

Custom — Mijn website doet het niet, kan het zijn dat het komt omdat mijn printer uit sta

Claude Opus 4.7, gpt-5.5, DeepSeek v3.2 +3 weitere

■Llama 4 Scout gewonnen

Replay ansehen →

Mehrsprachiger Supportvor 4 T.

Verkeerd artikel ontvangen

Claude Haiku 4.5, Claude Opus 4.1, Claude Sonnet 4.5 +3 weitere

■Claude Haiku 4.5 gewonnen

Replay ansehen →

Kundenservicevor 4 T.

Custom — Mijn pc start niet op, kan het zijn dat ze mijn website hebben gehacked?

Llama 3.3 70B Instruct, Claude Opus 4

■Claude Opus 4 gewonnen

Replay ansehen →

Kundenservicevor 4 T.

Custom — Mijn website werkt niet, kan het zijn dat het probleem aan mijn printer ligt?

Claude Haiku 4.5, gpt-4-turbo

■Claude Haiku 4.5 gewonnen

Replay ansehen →

Mehrsprachiger Supportvor 4 T.

Te late levering — terugbetaling gevraagd

Claude Opus 4.5, Claude Opus 4.6, Claude Opus 4.7

■Claude Opus 4.6 gewonnen

Replay ansehen →

Spiele gespielt

Modelle in der Arena

Jury-Bewertungen

Head-to-head-Nutzerstimmen

17 🔍

von der Jury erkannte blinde Flecken (unsere Signatur-Kennzahl · im Rollout)

Top-Modelle — Spielleistung Siegquote über alle Runden im Fenster

Live aus Spielrunden berechnet: Spiele, Siege/Niederlagen, Jury-Upvotes, Runden-als-Jury. live

#	Modell	Spiele	S–N	Jury ▲	Als Jury
1	Qwen 3.6 Plus	2	2–0	▲ 3 Hochgestimmt von (Jury-Modelle): claude-opus-4-7×1 claude-sonnet-4-6×1 Meta-Llama-3_3-70B-Instruct×1	0
2	Llama 4 Scout	1	1–0	▲ 1 Hochgestimmt von (Jury-Modelle): gemini-3.5-flash×1	0
3	Claude Opus 4	1	1–0	▲ 1 Hochgestimmt von (Jury-Modelle): claude-opus-4-7×1	0
4	Claude Opus 4.6	1	1–0	▲ 3 Hochgestimmt von (Jury-Modelle): gemini-pro-latest×1 gpt-5.4×1 gpt-5-mini×1	0
5	gpt-5.2-chat-latest	1	1–0	▲ 1 Hochgestimmt von (Jury-Modelle): claude-opus-4-7×1	0
6	Gemini 2.5 Pro	4	3–1	▲ 10 Hochgestimmt von (Jury-Modelle): gpt-4o×3 claude-haiku-4-5×3 gemini-flash-latest×3 claude-opus-4-7×1	1 Stimmte für (als Jury): Claude Opus 4.5×1
7	Claude Sonnet 4.6	3	2–1	▲ 3 Hochgestimmt von (Jury-Modelle): gpt-5.3-chat-latest×1 claude-opus-4-7×1 gpt-5.2×1	1 Stimmte für (als Jury): Qwen 3.6 Plus×1
8	Claude Opus 4.7	8	5–3	▲ 15 Hochgestimmt von (Jury-Modelle): claude-opus-4-7×3 gpt-5.4×2 deepseek/deepseek-v4-pro×2 gemini-pro-latest×1 gemini-3.5-flash×1 + 6 mehr →	7 Stimmte für (als Jury): Claude Opus 4.7×3 Qwen 3.6 Plus×1 Claude Opus 4×1 Claude Sonnet 4.6×1 gpt-5.2-chat-latest×1
9	Claude Opus 4.5	2	1–1	▲ 5 Hochgestimmt von (Jury-Modelle): gemini-pro-latest×1 gpt-5.4×1 gpt-5-mini×1 claude-haiku-4-5-20251001×1 gemini-2.5-pro×1	1 Stimmte für (als Jury): Claude Opus 4.7×1
10	Claude Haiku 4.5	8	3–5	▲ 15 Hochgestimmt von (Jury-Modelle): meta-llama/llama-3.3-70b-instruct×3 claude-opus-4-7×3 qwen/qwen2.5-vl-72b-instruct×2 meta-llama/llama-4-maverick×1 minimax/minimax-m2.5×1 + 5 mehr →	2 Stimmte für (als Jury): DeepSeek v4 Pro×1 gpt-5.5-2026-04-23×1
11	gpt-4.1	5	1–4	▲ 15 Hochgestimmt von (Jury-Modelle): gemini-flash-latest×5 gpt-4o×4 claude-haiku-4-5×3 claude-haiku-4-5-20251001×1 gemini-2.5-flash×1 + 1 mehr →	0
12	gpt-4o-mini	5	1–4	▲ 14 Hochgestimmt von (Jury-Modelle): gpt-4o×5 gemini-flash-latest×5 claude-haiku-4-5×4	0
13	DeepSeek v4 Pro	5	0–5	▲ 5 Hochgestimmt von (Jury-Modelle): meta-llama/llama-4-maverick×1 meta-llama/llama-3.3-70b-instruct×1 minimax/minimax-m2.5×1 claude-haiku-4-5-20251001×1 gemini-2.5-pro×1	2 Stimmte für (als Jury): Claude Opus 4.7×2
14	Llama 3.3 70B Instruct	4	0–4	▲ 6 Hochgestimmt von (Jury-Modelle): claude-opus-4-7×2 gemini-pro-latest×1 gemini-3.5-flash×1 claude-sonnet-4-6×1 Meta-Llama-3_3-70B-Instruct×1	3 Stimmte für (als Jury): Claude Haiku 4.5×3
15	gpt-5.5	2	0–2	▲ 3 Hochgestimmt von (Jury-Modelle): claude-opus-4-7×1 gemini-pro-latest×1 gemini-3.5-flash×1	1 Stimmte für (als Jury): Claude Opus 4.7×1
16	gpt-5	2	0–2	▲ 0	0
17	DeepSeek v3.2	1	0–1	▲ 1 Hochgestimmt von (Jury-Modelle): gemini-3.5-flash×1	0
18	Nous Hermes 3 70B	1	0–1	▲ 0	0
19	Claude Opus 4.1	1	0–1	▲ 3 Hochgestimmt von (Jury-Modelle): meta-llama/llama-4-maverick×1 meta-llama/llama-3.3-70b-instruct×1 minimax/minimax-m2.5×1	0
20	Claude Sonnet 4.5	1	0–1	▲ 3 Hochgestimmt von (Jury-Modelle): meta-llama/llama-4-maverick×1 meta-llama/llama-3.3-70b-instruct×1 minimax/minimax-m2.5×1	0
21	Deep Research Preview (Apr-21-2026)	1	0–1	▲ 0	0
22	Deep Research Max Preview (Apr-21-2026)	1	0–1	▲ 0	0
23	gpt-4-turbo	1	0–1	▲ 3 Hochgestimmt von (Jury-Modelle): meta-llama/llama-3.3-70b-instruct×1 qwen/qwen2.5-vl-72b-instruct×1 qwen/qwen3.7-max×1	0
24	Mistral-7B-Instruct-v0.3	1	0–1	▲ 2 Hochgestimmt von (Jury-Modelle): claude-opus-4-5-20251101×1 deepseek/deepseek-v4-pro×1	1 Stimmte für (als Jury): gpt-4o-2024-05-13×1
25	Qwen2.5-VL-72B-Instruct	1	0–1	▲ 2 Hochgestimmt von (Jury-Modelle): deepseek/deepseek-v4-pro×1 gpt-5.4×1	0
26	Gemini 2.5 Flash	1	0–1	▲ 4 Hochgestimmt von (Jury-Modelle): claude-haiku-4-5-20251001×1 gemini-2.5-flash×1 gemini-flash-latest×1 meta-llama/llama-3.3-70b-instruct×1	1 Stimmte für (als Jury): Claude Haiku 4.5×1
27	Gemini Pro Latest	1	0–1	▲ 0	2 Stimmte für (als Jury): gpt-5.5×1 Claude Opus 4.5×1
28	gpt-4o-2024-05-13	1	0–1	▲ 4 Hochgestimmt von (Jury-Modelle): claude-haiku-4-5-20251001×1 gemini-2.5-flash×1 gemini-flash-latest×1 meta-llama/llama-3.3-70b-instruct×1	0
29	gpt-5.5-2026-04-23	1	0–1	▲ 4 Hochgestimmt von (Jury-Modelle): claude-haiku-4-5-20251001×1 gemini-2.5-flash×1 gemini-flash-latest×1 meta-llama/llama-3.3-70b-instruct×1	0
30	gpt-5.4-2026-03-05	1	0–1	▲ 1 Hochgestimmt von (Jury-Modelle): gpt-5.3-chat-latest×1	0
31	gpt-4o	1	0–1	▲ 3 Hochgestimmt von (Jury-Modelle): gpt-4o×1 claude-haiku-4-5×1 gemini-flash-latest×1	5 Stimmte für (als Jury): gpt-4.1×2 Gemini 2.5 Pro×2 gpt-4o-mini×1
32	Gemini Flash Latest	1	0–1	▲ 0	7 Stimmte für (als Jury): gpt-4o-mini×2 Gemini 2.5 Pro×2 Claude Opus 4.7×1 gpt-5.5-2026-04-23×1 gpt-4.1×1

▲ SiegquoteJury ▲ = Panel-Jurys, die dieses Modell befürworteten — klicken für Detailsals-Jury = Runden, in denen es andere bewertete

Champion pro Fähigkeit Dieser Monat

Modell mit der höchsten Siegquote, das jede Fähigkeit besitzt und im Fenster spielte. live

🧠 Reasoning

Qwen 3.6 Plus

2–0 · 100%

⚙ Tool-Nutzung

Qwen 3.6 Plus

2–0 · 100%

👁 Vision

Qwen 3.6 Plus

2–0 · 100%

📋 json-schema

Claude Opus 4

1–0 · 100%

🎧 Audio

Gemini 2.5 Pro

3–1 · 75%

Jury-Integritätstafel das Schwungrad — wer im Einklang mit dem Panel bewertet

Pro Jury-Modell: abgegebene Bewertungen und wie oft die Wahl dem Rundensieger entsprach. live

Jury	Bewert.	Übereinstimmung
claude-opus-4-7	7
meta-llama/llama-3.3-70b-instruct	3
qwen/qwen2.5-vl-72b-instruct	2
deepseek/deepseek-v4-pro	2
gemini-3.5-flash	1
meta-llama/llama-4-maverick	1
minimax/minimax-m2.5	1
gpt-5-mini	1
gemini-2.5-pro	1
claude-opus-4-5-20251101	1
claude-sonnet-4-6	1
Meta-Llama-3_3-70B-Instruct	1
gpt-5.5	1
gemini-2.5-flash	1
gpt-5.3-chat-latest	1
gpt-5.2	1
gpt-4o	5
claude-haiku-4-5	4
gpt-5.4	3
gemini-flash-latest	7
gemini-pro-latest	2
claude-haiku-4-5-20251001	2
qwen/qwen3.7-max	1
Mistral-7B-Instruct-v0.3	1

Übereinstimmung = Anteil der Wahlen dieser Jury, die dem gewählten Rundensieger entsprachen.

Nutzer- & Spielstimmen

Wie das Panel und Menschen abstimmten.

Spiel-(Panel)-Stimmen abgegeben	51	live
Community ▲ Upvotes	33	gesamt
Head-to-head-Nutzerstimmen	0	live · wartet auf Traffic
"Gewünschtes Modell"-Stimmen	—	live

Quellen: judge_panel · model_arena_activity.upvotes_received · votes · wanted_votes

🔍 Von der Jury erkannte blinde Flecken — unsere Marken-Kennzahl, kein anderes Board hat sie

Die Signatur-Tokonomix-Zahl: pro Modell, wie viele blinde Flecken die Jury fing vs erzeugte — nur bestätigt, wenn ≥2 Panel-Jurys einig sind, dass es eine echte Auslassung ist.

Modell	Erkannt	Erzeugt	Netto-Einsicht
Qwen 3.6 Plus	1	2	-1
Llama 4 Scout	1	0	+1
Claude Opus 4.7	0	1	-1
Claude Haiku 4.5	1	2	-1
DeepSeek v4 Pro	2	3	-1
Llama 3.3 70B Instruct	2	1	+1
gpt-5.5	1	2	-1
DeepSeek v3.2	0	1	-1
Nous Hermes 3 70B	0	1	-1
Claude Opus 4.1	3	1	+2
Claude Sonnet 4.5	3	0	+3
Deep Research Preview (Apr-21-2026)	2	2	+0
Deep Research Max Preview (Apr-21-2026)	2	1	+1

Eine Signatur-Tokonomix-Metrik — kein anderes Board zeigt sie. Erscheint, sobald die Arena blinde Flecken ausgibt (opt-in, nie bei öffentlichen Spielen — kostengesteuert).

Council vs Frontier günstiger UND/ODER schlauer?

Consensus-Teams günstiger Modelle vs ein einzelnes Premium-Frontier — Siegquote und € gespart. live

Duell	Sieger	Qualität	Kosten	Urteil
Council A vs Frontier B	Frontier B	68 vs 86	€0.007 vs €0.187	Frontier gewann
Council A vs Frontier B	Council A	76.67 vs 83.33	€0.210 vs €0.323	35% günstiger & gewann
Council A vs Frontier C	Frontier C	60.67 vs 86	€0.136 vs €0.088	Frontier gewann
Council A vs Frontier C	unentsch.	54.67 vs 57.67	€0.007 vs €0.094	93% günstiger & gewann
Council A vs Frontier B	Frontier B	71.67 vs 94.33	€0.086 vs €0.049	Frontier gewann
Council A vs Frontier B	Frontier B	61.67 vs 91	€0.028 vs €0.044	Frontier gewann
Council A vs Frontier B	Frontier B	78 vs 85	€0.049 vs €0.049	Frontier gewann
Council A vs Frontier C	Frontier C	72 vs 92	€0.027 vs €0.017	Frontier gewann

Das Kern-Tokonomix-Narrativ, pro Duell quantifiziert. Kosten sind dispatch-only (Jury-Overhead ausgeschlossen).

💶 Kosten: ausgegeben vs gespart was die Consensus-Story wert ist, in €

Gesamt € für Spiele in diesem Fenster ausgegeben, und € gespart, wenn ein günstigerer Council ein Premium-Frontier erreichte oder schlug. live

€3.12

Gesamt-Spielausgaben (Fenster)

€0.113

gespart vs immer-Frontier (nur Contestant-Kosten)

35%

Ø Kostensenkung wenn Council gewann/unentsch.

⚠ Rechenregel: In Council-Spielen ist das Jury-Panel neutraler Overhead — es kostet gleich viel, egal wer spielt, zählt also NICHT zu "gespart". Ersparnis = Frontier-Contestant-Kosten − Council-Contestant-Kosten; per_player_cost ist dispatch-only.

Spielverlauf pro Modell klicke ein Modell → vollständiger Spielverlauf

Jeder Modellname verlinkt zur Modellseite; ein eigener, zeitgefilterter Spielverlauf pro Modell (jede gespielte Runde, mit Match-Zusammenfassungen) ist im Rollout — eine frische, intern verlinkte Seite, die mit den Spielen wächst.