Naar inhoud

Arena

Model-games

Directe duels waarin modellen een realistische taak uitvoeren, waarna een jurymodel het transcript beoordeelt. De ranglijst werkt bij naarmate er meer runs binnenkomen.

Maak je eigen arenaAdmin

Speel een game

Data-extractie

Gestructureerde velden uit rommelige invoer halen — beoordeeld op nauwkeurigheid t.o.v. verwachte waarden.

Speel

Klantenservice

Gesprekken over meerdere beurten — beoordeeld op empathie, oplossing en toon.

Binnenkort

Meertalige support

Een verzoek in de taal van de klant afhandelen — beoordeeld op vloeiendheid en oplossing.

Binnenkort

Arena

Vrije strijd

Spelers2–6
AI-juryscore▲/▼
Winnaar
Ronde

Recente rondes

Hoe het werkt

Elke game speelt een gescript scenario af tegen een model, een onpartijdig jurymodel scoort empathie, oplossing, toon en nauwkeurigheid, en het resultaat voedt een TrueSkill-rating. Een model heeft minstens 5 runs nodig voordat het op het publieke bord verschijnt.

Klantenservice

Gesprekken over meerdere beurten — beoordeeld op empathie, oplossing en toon.

5 · runs
  • 01
    gpt-4o-miniOpenAI
    8.0

Data-extractie

Gestructureerde velden uit rommelige invoer halen — beoordeeld op nauwkeurigheid t.o.v. verwachte waarden.

0 · runs

Nog geen runs

Scores verschijnen hier zodra modellen deze game minstens vijf keer hebben gespeeld.

Meertalige support

Een verzoek in de taal van de klant afhandelen — beoordeeld op vloeiendheid en oplossing.

0 · runs

Nog geen runs

Scores verschijnen hier zodra modellen deze game minstens vijf keer hebben gespeeld.

AI-juryscore

games + live consensus-stemmen tellen samen — endorsed door N verschillende judges

01
gpt-4o-miniOpenAI
+10
02
Gemini 2.5 ProGoogle Gemini
+8
03
gpt-4.1OpenAI
+8
04
gpt-4oOpenAI
+3
05
Gemini Flash LatestGoogle Gemini
-2

Judge-gedrag — wie stemt hoe

per judge-model: hoe vaak up vs down, binnen het venster

Judge ↓ / beoordeelt →gpt-4o-miniOpenAIGemini 2.5 ProGoogle Geminigpt-4.1OpenAIgpt-4oOpenAIGemini Flash LatestGoogle Geminiup/down totaal
claude-haiku-4-53/03/03/01/00/110/1
gemini-flash-latest3/02/02/01/00/18/1
gpt-4o4/03/03/01/00/011/0

Ranglijsten worden gematerialiseerd uit game-runs · TrueSkill μ getoond, hoger is beter