Zum Inhalt

Game Scoreboard dieser monat

Alles, was die Spiele erfassen, auf einer Tafel — Modell-Siegquoten, Jury-Upvotes, Jury-Integrität, Blind-Spot-Erkennung, Council-vs-Frontier-Wert und ein Champion pro Fähigkeit. Alle Zahlen werden live aus echten Runden berechnet.

Eine tiefere Analyse als der Letzte-Runden-Streifen. Wähle unten ein Zeitfenster; jedes Fenster hat eine eigene URL.

Aktuelle Spiele

22
Spiele gespielt
32
Modelle in der Arena
51
Jury-Bewertungen
0
Head-to-head-Nutzerstimmen
17 🔍
von der Jury erkannte blinde Flecken (unsere Signatur-Kennzahl · im Rollout)

Top-Modelle — Spielleistung Siegquote über alle Runden im Fenster

Live aus Spielrunden berechnet: Spiele, Siege/Niederlagen, Jury-Upvotes, Runden-als-Jury. live

#ModellSpieleS–NSiegquoteJury ▲Als Jury
1Qwen 3.6 Plus220
3
Hochgestimmt von (Jury-Modelle):
claude-opus-4-7×1
claude-sonnet-4-6×1
Meta-Llama-3_3-70B-Instruct×1
0
2Llama 4 Scout110
1
Hochgestimmt von (Jury-Modelle):
gemini-3.5-flash×1
0
3Claude Opus 4110
1
Hochgestimmt von (Jury-Modelle):
claude-opus-4-7×1
0
4Claude Opus 4.6110
3
Hochgestimmt von (Jury-Modelle):
gemini-pro-latest×1
gpt-5.4×1
gpt-5-mini×1
0
5gpt-5.2-chat-latest110
1
Hochgestimmt von (Jury-Modelle):
claude-opus-4-7×1
0
6Gemini 2.5 Pro431
10
Hochgestimmt von (Jury-Modelle):
gpt-4o×3
claude-haiku-4-5×3
gemini-flash-latest×3
claude-opus-4-7×1
1
Stimmte für (als Jury):
7Claude Sonnet 4.6321
3
Hochgestimmt von (Jury-Modelle):
gpt-5.3-chat-latest×1
claude-opus-4-7×1
gpt-5.2×1
1
Stimmte für (als Jury):
8Claude Opus 4.7853
15
Hochgestimmt von (Jury-Modelle):
claude-opus-4-7×3
gpt-5.4×2
deepseek/deepseek-v4-pro×2
gemini-pro-latest×1
gemini-3.5-flash×1
7
9Claude Opus 4.5211
5
Hochgestimmt von (Jury-Modelle):
gemini-pro-latest×1
gpt-5.4×1
gpt-5-mini×1
claude-haiku-4-5-20251001×1
gemini-2.5-pro×1
1
Stimmte für (als Jury):
10Claude Haiku 4.5835
15
Hochgestimmt von (Jury-Modelle):
meta-llama/llama-3.3-70b-instruct×3
claude-opus-4-7×3
qwen/qwen2.5-vl-72b-instruct×2
meta-llama/llama-4-maverick×1
minimax/minimax-m2.5×1
2
Stimmte für (als Jury):
11gpt-4.1514
15
Hochgestimmt von (Jury-Modelle):
gemini-flash-latest×5
gpt-4o×4
claude-haiku-4-5×3
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
0
12gpt-4o-mini514
14
Hochgestimmt von (Jury-Modelle):
gpt-4o×5
gemini-flash-latest×5
claude-haiku-4-5×4
0
13DeepSeek v4 Pro505
5
Hochgestimmt von (Jury-Modelle):
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
claude-haiku-4-5-20251001×1
gemini-2.5-pro×1
2
Stimmte für (als Jury):
14Llama 3.3 70B Instruct404
6
Hochgestimmt von (Jury-Modelle):
claude-opus-4-7×2
gemini-pro-latest×1
gemini-3.5-flash×1
claude-sonnet-4-6×1
Meta-Llama-3_3-70B-Instruct×1
3
Stimmte für (als Jury):
15gpt-5.5202
3
Hochgestimmt von (Jury-Modelle):
claude-opus-4-7×1
gemini-pro-latest×1
gemini-3.5-flash×1
1
Stimmte für (als Jury):
16gpt-5202
00
17DeepSeek v3.2101
1
Hochgestimmt von (Jury-Modelle):
gemini-3.5-flash×1
0
18Nous Hermes 3 70B101
00
19Claude Opus 4.1101
3
Hochgestimmt von (Jury-Modelle):
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
0
20Claude Sonnet 4.5101
3
Hochgestimmt von (Jury-Modelle):
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
0
21Deep Research Preview (Apr-21-2026)101
00
22Deep Research Max Preview (Apr-21-2026)101
00
23gpt-4-turbo101
3
Hochgestimmt von (Jury-Modelle):
meta-llama/llama-3.3-70b-instruct×1
qwen/qwen2.5-vl-72b-instruct×1
qwen/qwen3.7-max×1
0
24Mistral-7B-Instruct-v0.3101
2
Hochgestimmt von (Jury-Modelle):
claude-opus-4-5-20251101×1
deepseek/deepseek-v4-pro×1
1
Stimmte für (als Jury):
25Qwen2.5-VL-72B-Instruct101
2
Hochgestimmt von (Jury-Modelle):
deepseek/deepseek-v4-pro×1
gpt-5.4×1
0
26Gemini 2.5 Flash101
4
Hochgestimmt von (Jury-Modelle):
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
1
Stimmte für (als Jury):
27Gemini Pro Latest101
0
2
Stimmte für (als Jury):
28gpt-4o-2024-05-13101
4
Hochgestimmt von (Jury-Modelle):
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
0
29gpt-5.5-2026-04-23101
4
Hochgestimmt von (Jury-Modelle):
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
0
30gpt-5.4-2026-03-05101
1
Hochgestimmt von (Jury-Modelle):
gpt-5.3-chat-latest×1
0
31gpt-4o101
3
Hochgestimmt von (Jury-Modelle):
gpt-4o×1
claude-haiku-4-5×1
gemini-flash-latest×1
5
Stimmte für (als Jury):
32Gemini Flash Latest101
0
7
▲ SiegquoteJury ▲ = Panel-Jurys, die dieses Modell befürworteten — klicken für Detailsals-Jury = Runden, in denen es andere bewertete

Champion pro Fähigkeit Dieser Monat

Modell mit der höchsten Siegquote, das jede Fähigkeit besitzt und im Fenster spielte. live

🧠 Reasoning
Qwen 3.6 Plus
20 · 100%
Tool-Nutzung
Qwen 3.6 Plus
20 · 100%
👁 Vision
Qwen 3.6 Plus
20 · 100%
📋 json-schema
Claude Opus 4
10 · 100%
🎧 Audio
Gemini 2.5 Pro
31 · 75%

Jury-Integritätstafel das Schwungrad — wer im Einklang mit dem Panel bewertet

Pro Jury-Modell: abgegebene Bewertungen und wie oft die Wahl dem Rundensieger entsprach. live

JuryBewert.Übereinstimmung
claude-opus-4-77
meta-llama/llama-3.3-70b-instruct3
qwen/qwen2.5-vl-72b-instruct2
deepseek/deepseek-v4-pro2
gemini-3.5-flash1
meta-llama/llama-4-maverick1
minimax/minimax-m2.51
gpt-5-mini1
gemini-2.5-pro1
claude-opus-4-5-202511011
claude-sonnet-4-61
Meta-Llama-3_3-70B-Instruct1
gpt-5.51
gemini-2.5-flash1
gpt-5.3-chat-latest1
gpt-5.21
gpt-4o5
claude-haiku-4-54
gpt-5.43
gemini-flash-latest7
gemini-pro-latest2
claude-haiku-4-5-202510012
qwen/qwen3.7-max1
Mistral-7B-Instruct-v0.31
Übereinstimmung = Anteil der Wahlen dieser Jury, die dem gewählten Rundensieger entsprachen.

Nutzer- & Spielstimmen

Wie das Panel und Menschen abstimmten.

Spiel-(Panel)-Stimmen abgegeben51live
Community ▲ Upvotes33gesamt
Head-to-head-Nutzerstimmen0live · wartet auf Traffic
"Gewünschtes Modell"-Stimmenlive
Quellen: judge_panel · model_arena_activity.upvotes_received · votes · wanted_votes

🔍 Von der Jury erkannte blinde Flecken — unsere Marken-Kennzahl, kein anderes Board hat sie

Die Signatur-Tokonomix-Zahl: pro Modell, wie viele blinde Flecken die Jury fing vs erzeugte — nur bestätigt, wenn ≥2 Panel-Jurys einig sind, dass es eine echte Auslassung ist.

ModellErkanntErzeugtNetto-Einsicht
Qwen 3.6 Plus12-1
Llama 4 Scout10+1
Claude Opus 4.701-1
Claude Haiku 4.512-1
DeepSeek v4 Pro23-1
Llama 3.3 70B Instruct21+1
gpt-5.512-1
DeepSeek v3.201-1
Nous Hermes 3 70B01-1
Claude Opus 4.131+2
Claude Sonnet 4.530+3
Deep Research Preview (Apr-21-2026)22+0
Deep Research Max Preview (Apr-21-2026)21+1
Eine Signatur-Tokonomix-Metrik — kein anderes Board zeigt sie. Erscheint, sobald die Arena blinde Flecken ausgibt (opt-in, nie bei öffentlichen Spielen — kostengesteuert).

Council vs Frontier günstiger UND/ODER schlauer?

Consensus-Teams günstiger Modelle vs ein einzelnes Premium-Frontier — Siegquote und € gespart. live

DuellSiegerQualitätKostenUrteil
Council A vs Frontier BFrontier B68 vs 86€0.007 vs €0.187Frontier gewann
Council A vs Frontier BCouncil A76.67 vs 83.33€0.210 vs €0.32335% günstiger & gewann
Council A vs Frontier CFrontier C60.67 vs 86€0.136 vs €0.088Frontier gewann
Council A vs Frontier Cunentsch.54.67 vs 57.67€0.007 vs €0.09493% günstiger & gewann
Council A vs Frontier BFrontier B71.67 vs 94.33€0.086 vs €0.049Frontier gewann
Council A vs Frontier BFrontier B61.67 vs 91€0.028 vs €0.044Frontier gewann
Council A vs Frontier BFrontier B78 vs 85€0.049 vs €0.049Frontier gewann
Council A vs Frontier CFrontier C72 vs 92€0.027 vs €0.017Frontier gewann
Das Kern-Tokonomix-Narrativ, pro Duell quantifiziert. Kosten sind dispatch-only (Jury-Overhead ausgeschlossen).

💶 Kosten: ausgegeben vs gespart was die Consensus-Story wert ist, in €

Gesamt € für Spiele in diesem Fenster ausgegeben, und € gespart, wenn ein günstigerer Council ein Premium-Frontier erreichte oder schlug. live

€3.12
Gesamt-Spielausgaben (Fenster)
€0.113
gespart vs immer-Frontier (nur Contestant-Kosten)
35%
Ø Kostensenkung wenn Council gewann/unentsch.
Rechenregel: In Council-Spielen ist das Jury-Panel neutraler Overhead — es kostet gleich viel, egal wer spielt, zählt also NICHT zu "gespart". Ersparnis = Frontier-Contestant-Kosten − Council-Contestant-Kosten; per_player_cost ist dispatch-only.

Spielverlauf pro Modell klicke ein Modell → vollständiger Spielverlauf

Jeder Modellname verlinkt zur Modellseite; ein eigener, zeitgefilterter Spielverlauf pro Modell (jede gespielte Runde, mit Match-Zusammenfassungen) ist im Rollout — eine frische, intern verlinkte Seite, die mit den Spielen wächst.

Alles mit Label live kommt jetzt aus echten Runden; Rollout-Metriken erscheinen mit Phase C.
Zurück zur Arena