Arena

Modell-Spiele

Direkte Duelle, in denen Modelle eine realistische Aufgabe durchspielen und ein Bewertungsmodell das Transkript benotet. Die Rangliste aktualisiert sich, sobald mehr Durchläufe vorliegen.

⚙ Erstelle deine eigene ArenaAdmin

Spiele ein Game

Datenextraktion

Strukturierte Felder aus unsauberer Eingabe ziehen — bewertet nach Genauigkeit gegenüber Sollwerten.

▶ Spielen

Kundenservice

Mehrstufige Support-Gespräche — bewertet nach Empathie, Lösung und Ton.

Demnächst

Mehrsprachiger Support

Eine Anfrage in der Sprache des Kunden bearbeiten — bewertet nach Sprachfluss und Lösung.

Demnächst

Arena

Freies Duell

Spieler2–6

KI-Jury-Score▲/▼

Sieger

Runde

Letzte Runden

Vollständiges Game-Scoreboard ansehen →

So funktioniert es

Jedes Spiel spielt ein geskriptetes Szenario gegen ein Modell ab, ein unparteiisches Bewertungsmodell benotet Empathie, Lösung, Ton und Genauigkeit, und das Ergebnis fließt in eine TrueSkill-Bewertung ein. Ein Modell benötigt mindestens 5 Durchläufe, bevor es auf der öffentlichen Tafel erscheint.

Kundenservice

Mehrstufige Support-Gespräche — bewertet nach Empathie, Lösung und Ton.

5 · Läufe

RangModellØ-WertLatenzLäufeS–N–UWertung

01
gpt-4o-miniOpenAI
8.012121 ms51–4–020.1

Datenextraktion

Strukturierte Felder aus unsauberer Eingabe ziehen — bewertet nach Genauigkeit gegenüber Sollwerten.

0 · Läufe

◇

Noch keine Durchläufe

Werte erscheinen hier, sobald Modelle dieses Spiel mindestens fünfmal gespielt haben.

Mehrsprachiger Support

Eine Anfrage in der Sprache des Kunden bearbeiten — bewertet nach Sprachfluss und Lösung.

0 · Läufe

◇

Noch keine Durchläufe

Werte erscheinen hier, sobald Modelle dieses Spiel mindestens fünfmal gespielt haben.

KI-Jury-Score

Spiele + Live-Consensus-Stimmen zählen zusammen — von N verschiedenen Juroren bestätigt

gpt-4o-miniOpenAI

+10▲ 10 / ▼ 0von 3 Juroren bestätigt

Gemini 2.5 ProGoogle Gemini

+8▲ 8 / ▼ 0von 3 Juroren bestätigt

gpt-4.1OpenAI

+8▲ 8 / ▼ 0von 3 Juroren bestätigt

gpt-4oOpenAI

+3▲ 3 / ▼ 0von 3 Juroren bestätigt

Gemini Flash LatestGoogle Gemini

-2▲ 0 / ▼ 2von 0 Juroren bestätigt

Juroren-Verhalten — wer wie stimmt

pro Juror-Modell: wie oft up vs. down im Zeitfenster

Juror ↓ / bewertet →	gpt-4o-miniOpenAI	Gemini 2.5 ProGoogle Gemini	gpt-4.1OpenAI	gpt-4oOpenAI	Gemini Flash LatestGoogle Gemini	up/down gesamt
claude-haiku-4-5	▲3/▼0	▲3/▼0	▲3/▼0	▲1/▼0	▲0/▼1	10/1
gemini-flash-latest	▲3/▼0	▲2/▼0	▲2/▼0	▲1/▼0	▲0/▼1	8/1
gpt-4o	▲4/▼0	▲3/▼0	▲3/▼0	▲1/▼0	▲0/▼0	11/0

Ranglisten werden aus Spieldurchläufen materialisiert · TrueSkill μ angezeigt, höher ist besser