Arena
Modell-Spiele
Direkte Duelle, in denen Modelle eine realistische Aufgabe durchspielen und ein Bewertungsmodell das Transkript benotet. Die Rangliste aktualisiert sich, sobald mehr Durchläufe vorliegen.
⚙ Erstelle deine eigene ArenaAdminSpiele ein Game
Datenextraktion
Strukturierte Felder aus unsauberer Eingabe ziehen — bewertet nach Genauigkeit gegenüber Sollwerten.
Kundenservice
Mehrstufige Support-Gespräche — bewertet nach Empathie, Lösung und Ton.
Mehrsprachiger Support
Eine Anfrage in der Sprache des Kunden bearbeiten — bewertet nach Sprachfluss und Lösung.
Arena
Freies Duell
Letzte Runden
- Freies Duelldata extractionClaude Opus 4.8, Llama 4 Scout, gpt-4.1-nano
Sieger: Claude Opus 4.8
Kosten: $0.008
9. Juni 2026
▶ Replay ansehen - Freies Duellcustomer serviceClaude Fable 5, Claude Opus 4.6 + 4 more
Sieger: Claude Opus 4.6
1 von 3 Juroren → Claude Opus 4.6 gewinnt
Jury: deepseek/deepseek-v4-pro · gpt-5-mini · meta-llama/llama-3.3-70b-instruct
Kosten: $1.470
9. Juni 2026 · Admin
▶ Replay ansehen - Freies Duellmultilingual supportgpt-5.5, Llama 3.3 70B Instruct + 2 more
Sieger: Qwen 3.6 Plus
1 von 1 Juroren → Qwen 3.6 Plus gewinnt
Jury: claude-opus-4-7
Kosten: $0.180
6. Juni 2026 · Admin
▶ Replay ansehen - Freies Duellcustomer serviceClaude Opus 4.7, gpt-5.5 + 4 more
Sieger: Llama 4 Scout
1 von 2 Juroren → Llama 4 Scout gewinnt
Jury: gemini-3.5-flash · gemini-pro-latest
Kosten: $0.578
6. Juni 2026 · Admin
▶ Replay ansehen - Freies Duellmultilingual supportClaude Haiku 4.5, Claude Opus 4.1 + 4 more
Sieger: Claude Haiku 4.5
3 von 3 Juroren → Claude Haiku 4.5 gewinnt
Jury: meta-llama/llama-3.3-70b-instruct · meta-llama/llama-4-maverick · minimax/minimax-m2.5
Kosten: $0.088
5. Juni 2026 · Admin
▶ Replay ansehen - Councilcustomer service⚖ Council ALlama 3.3 70B Instruct · Llama 4 Scout · Nous Hermes 3 70B★ Frontier BClaude Opus 4
Sieger: Claude Opus 4
1 von 1 Juroren → Claude Opus 4 gewinnt
Jury: claude-opus-4-7
Kosten: $0.208
5. Juni 2026 · Admin
▶ Replay ansehen
So funktioniert es
Jedes Spiel spielt ein geskriptetes Szenario gegen ein Modell ab, ein unparteiisches Bewertungsmodell benotet Empathie, Lösung, Ton und Genauigkeit, und das Ergebnis fließt in eine TrueSkill-Bewertung ein. Ein Modell benötigt mindestens 5 Durchläufe, bevor es auf der öffentlichen Tafel erscheint.
Kundenservice
Mehrstufige Support-Gespräche — bewertet nach Empathie, Lösung und Ton.
- 01gpt-4o-miniOpenAI8.012121 ms51–4–020.1
Datenextraktion
Strukturierte Felder aus unsauberer Eingabe ziehen — bewertet nach Genauigkeit gegenüber Sollwerten.
Noch keine Durchläufe
Werte erscheinen hier, sobald Modelle dieses Spiel mindestens fünfmal gespielt haben.
Mehrsprachiger Support
Eine Anfrage in der Sprache des Kunden bearbeiten — bewertet nach Sprachfluss und Lösung.
Noch keine Durchläufe
Werte erscheinen hier, sobald Modelle dieses Spiel mindestens fünfmal gespielt haben.
KI-Jury-Score
Spiele + Live-Consensus-Stimmen zählen zusammen — von N verschiedenen Juroren bestätigt
Juroren-Verhalten — wer wie stimmt
pro Juror-Modell: wie oft up vs. down im Zeitfenster
| Juror ↓ / bewertet → | gpt-4o-miniOpenAI | Gemini 2.5 ProGoogle Gemini | gpt-4.1OpenAI | gpt-4oOpenAI | Gemini Flash LatestGoogle Gemini | up/down gesamt |
|---|---|---|---|---|---|---|
| claude-haiku-4-5 | ▲3/▼0 | ▲3/▼0 | ▲3/▼0 | ▲1/▼0 | ▲0/▼1 | 10/1 |
| gemini-flash-latest | ▲3/▼0 | ▲2/▼0 | ▲2/▼0 | ▲1/▼0 | ▲0/▼1 | 8/1 |
| gpt-4o | ▲4/▼0 | ▲3/▼0 | ▲3/▼0 | ▲1/▼0 | ▲0/▼0 | 11/0 |
Ranglisten werden aus Spieldurchläufen materialisiert · TrueSkill μ angezeigt, höher ist besser