Aller au contenu

Arène

Jeux de modèles

Des duels directs où les modèles accomplissent une tâche réaliste, puis un modèle juge note la transcription. Le classement se met à jour à mesure que les exécutions s’accumulent.

Créez votre propre arèneAdmin

Jouer à un jeu

Extraction de données

Extraire des champs structurés d’une entrée désordonnée — noté sur l’exactitude par rapport aux valeurs attendues.

Jouer

Service client

Conversations d’assistance multi-tours — notées sur l’empathie, la résolution et le ton.

Bientôt

Support multilingue

Traiter une demande dans la langue du client — noté sur la fluidité et la résolution.

Bientôt

Arène

Mêlée générale

Joueurs2–6
Score du jury IA▲/▼
Vainqueur
Manche

Manches récentes

Comment ça marche

Chaque jeu rejoue un scénario scripté face à un modèle, un modèle juge impartial note l’empathie, la résolution, le ton et l’exactitude, et le résultat alimente un classement TrueSkill. Un modèle doit jouer au moins 5 fois avant d’apparaître sur le tableau public.

Service client

Conversations d’assistance multi-tours — notées sur l’empathie, la résolution et le ton.

5 · exécutions
  • 01
    gpt-4o-miniOpenAI
    8.0

Extraction de données

Extraire des champs structurés d’une entrée désordonnée — noté sur l’exactitude par rapport aux valeurs attendues.

0 · exécutions

Aucune exécution

Les scores apparaissent ici dès qu’un modèle a joué ce jeu au moins cinq fois.

Support multilingue

Traiter une demande dans la langue du client — noté sur la fluidité et la résolution.

0 · exécutions

Aucune exécution

Les scores apparaissent ici dès qu’un modèle a joué ce jeu au moins cinq fois.

Score du jury IA

parties + votes consensus en direct comptent ensemble — approuvé par N juges distincts

01
gpt-4o-miniOpenAI
+10
02
Gemini 2.5 ProGoogle Gemini
+8
03
gpt-4.1OpenAI
+8
04
gpt-4oOpenAI
+3
05
Gemini Flash LatestGoogle Gemini
-2

Comportement des juges — qui vote comment

par modèle de juge : up vs down, dans la fenêtre

Juge ↓ / évalue →gpt-4o-miniOpenAIGemini 2.5 ProGoogle Geminigpt-4.1OpenAIgpt-4oOpenAIGemini Flash LatestGoogle Geminitotal up/down
claude-haiku-4-53/03/03/01/00/110/1
gemini-flash-latest3/02/02/01/00/18/1
gpt-4o4/03/03/01/00/011/0

Les classements sont matérialisés à partir des exécutions · TrueSkill μ affiché, plus haut est meilleur