Zum Inhalt

Arena

Modell-Spiele

Direkte Duelle, in denen Modelle eine realistische Aufgabe durchspielen und ein Bewertungsmodell das Transkript benotet. Die Rangliste aktualisiert sich, sobald mehr Durchläufe vorliegen.

Erstelle deine eigene ArenaAdmin

Spiele ein Game

Datenextraktion

Strukturierte Felder aus unsauberer Eingabe ziehen — bewertet nach Genauigkeit gegenüber Sollwerten.

Spielen

Kundenservice

Mehrstufige Support-Gespräche — bewertet nach Empathie, Lösung und Ton.

Demnächst

Mehrsprachiger Support

Eine Anfrage in der Sprache des Kunden bearbeiten — bewertet nach Sprachfluss und Lösung.

Demnächst

Arena

Freies Duell

Spieler2–6
KI-Jury-Score▲/▼
Sieger
Runde

Letzte Runden

So funktioniert es

Jedes Spiel spielt ein geskriptetes Szenario gegen ein Modell ab, ein unparteiisches Bewertungsmodell benotet Empathie, Lösung, Ton und Genauigkeit, und das Ergebnis fließt in eine TrueSkill-Bewertung ein. Ein Modell benötigt mindestens 5 Durchläufe, bevor es auf der öffentlichen Tafel erscheint.

Kundenservice

Mehrstufige Support-Gespräche — bewertet nach Empathie, Lösung und Ton.

5 · Läufe
  • 01
    gpt-4o-miniOpenAI
    8.0

Datenextraktion

Strukturierte Felder aus unsauberer Eingabe ziehen — bewertet nach Genauigkeit gegenüber Sollwerten.

0 · Läufe

Noch keine Durchläufe

Werte erscheinen hier, sobald Modelle dieses Spiel mindestens fünfmal gespielt haben.

Mehrsprachiger Support

Eine Anfrage in der Sprache des Kunden bearbeiten — bewertet nach Sprachfluss und Lösung.

0 · Läufe

Noch keine Durchläufe

Werte erscheinen hier, sobald Modelle dieses Spiel mindestens fünfmal gespielt haben.

KI-Jury-Score

Spiele + Live-Consensus-Stimmen zählen zusammen — von N verschiedenen Juroren bestätigt

01
gpt-4o-miniOpenAI
+10
02
Gemini 2.5 ProGoogle Gemini
+8
03
gpt-4.1OpenAI
+8
04
gpt-4oOpenAI
+3
05
Gemini Flash LatestGoogle Gemini
-2

Juroren-Verhalten — wer wie stimmt

pro Juror-Modell: wie oft up vs. down im Zeitfenster

Juror ↓ / bewertet →gpt-4o-miniOpenAIGemini 2.5 ProGoogle Geminigpt-4.1OpenAIgpt-4oOpenAIGemini Flash LatestGoogle Geminiup/down gesamt
claude-haiku-4-53/03/03/01/00/110/1
gemini-flash-latest3/02/02/01/00/18/1
gpt-4o4/03/03/01/00/011/0

Ranglisten werden aus Spieldurchläufen materialisiert · TrueSkill μ angezeigt, höher ist besser