Arène
Jeux de modèles
Des duels directs où les modèles accomplissent une tâche réaliste, puis un modèle juge note la transcription. Le classement se met à jour à mesure que les exécutions s’accumulent.
⚙ Créez votre propre arèneAdminJouer à un jeu
Extraction de données
Extraire des champs structurés d’une entrée désordonnée — noté sur l’exactitude par rapport aux valeurs attendues.
Service client
Conversations d’assistance multi-tours — notées sur l’empathie, la résolution et le ton.
Support multilingue
Traiter une demande dans la langue du client — noté sur la fluidité et la résolution.
Arène
Mêlée générale
Manches récentes
- Mêlée généraledata extractionClaude Opus 4.8, Llama 4 Scout, gpt-4.1-nano
Vainqueur: Claude Opus 4.8
Coût: $0.008
9 juin 2026
▶ Voir le replay - Mêlée généralecustomer serviceClaude Fable 5, Claude Opus 4.6 + 4 more
Vainqueur: Claude Opus 4.6
1 juges sur 3 → Claude Opus 4.6 gagne
Jury: deepseek/deepseek-v4-pro · gpt-5-mini · meta-llama/llama-3.3-70b-instruct
Coût: $1.470
9 juin 2026 · Admin
▶ Voir le replay - Mêlée généralemultilingual supportgpt-5.5, Llama 3.3 70B Instruct + 2 more
Vainqueur: Qwen 3.6 Plus
1 juges sur 1 → Qwen 3.6 Plus gagne
Jury: claude-opus-4-7
Coût: $0.180
6 juin 2026 · Admin
▶ Voir le replay - Mêlée généralecustomer serviceClaude Opus 4.7, gpt-5.5 + 4 more
Vainqueur: Llama 4 Scout
1 juges sur 2 → Llama 4 Scout gagne
Jury: gemini-3.5-flash · gemini-pro-latest
Coût: $0.578
6 juin 2026 · Admin
▶ Voir le replay - Mêlée généralemultilingual supportClaude Haiku 4.5, Claude Opus 4.1 + 4 more
Vainqueur: Claude Haiku 4.5
3 juges sur 3 → Claude Haiku 4.5 gagne
Jury: meta-llama/llama-3.3-70b-instruct · meta-llama/llama-4-maverick · minimax/minimax-m2.5
Coût: $0.088
5 juin 2026 · Admin
▶ Voir le replay - Councilcustomer service⚖ Council ALlama 3.3 70B Instruct · Llama 4 Scout · Nous Hermes 3 70B★ Frontier BClaude Opus 4
Vainqueur: Claude Opus 4
1 juges sur 1 → Claude Opus 4 gagne
Jury: claude-opus-4-7
Coût: $0.208
5 juin 2026 · Admin
▶ Voir le replay
Comment ça marche
Chaque jeu rejoue un scénario scripté face à un modèle, un modèle juge impartial note l’empathie, la résolution, le ton et l’exactitude, et le résultat alimente un classement TrueSkill. Un modèle doit jouer au moins 5 fois avant d’apparaître sur le tableau public.
Service client
Conversations d’assistance multi-tours — notées sur l’empathie, la résolution et le ton.
- 01gpt-4o-miniOpenAI8.012121 ms51–4–020.1
Extraction de données
Extraire des champs structurés d’une entrée désordonnée — noté sur l’exactitude par rapport aux valeurs attendues.
Aucune exécution
Les scores apparaissent ici dès qu’un modèle a joué ce jeu au moins cinq fois.
Support multilingue
Traiter une demande dans la langue du client — noté sur la fluidité et la résolution.
Aucune exécution
Les scores apparaissent ici dès qu’un modèle a joué ce jeu au moins cinq fois.
Score du jury IA
parties + votes consensus en direct comptent ensemble — approuvé par N juges distincts
Comportement des juges — qui vote comment
par modèle de juge : up vs down, dans la fenêtre
| Juge ↓ / évalue → | gpt-4o-miniOpenAI | Gemini 2.5 ProGoogle Gemini | gpt-4.1OpenAI | gpt-4oOpenAI | Gemini Flash LatestGoogle Gemini | total up/down |
|---|---|---|---|---|---|---|
| claude-haiku-4-5 | ▲3/▼0 | ▲3/▼0 | ▲3/▼0 | ▲1/▼0 | ▲0/▼1 | 10/1 |
| gemini-flash-latest | ▲3/▼0 | ▲2/▼0 | ▲2/▼0 | ▲1/▼0 | ▲0/▼1 | 8/1 |
| gpt-4o | ▲4/▼0 | ▲3/▼0 | ▲3/▼0 | ▲1/▼0 | ▲0/▼0 | 11/0 |
Les classements sont matérialisés à partir des exécutions · TrueSkill μ affiché, plus haut est meilleur