Arena
Juegos de modelos
Duelos directos en los que los modelos resuelven una tarea realista y luego un modelo juez puntúa la transcripción. La clasificación se actualiza a medida que se acumulan las ejecuciones.
⚙ Crea tu propia arenaAdminJuega una partida
Extracción de datos
Extraer campos estructurados de una entrada desordenada — puntuado por precisión frente a los valores esperados.
Atención al cliente
Conversaciones de soporte de varios turnos — puntuadas por empatía, resolución y tono.
Soporte multilingüe
Atender una solicitud en el idioma del cliente — puntuado por fluidez y resolución.
Arena
Todos contra todos
Rondas recientes
- Todos contra todosdata extractionClaude Opus 4.8, Llama 4 Scout, gpt-4.1-nano
Ganador: Claude Opus 4.8
Coste: $0.008
9 jun 2026
▶ Ver repetición - Todos contra todoscustomer serviceClaude Fable 5, Claude Opus 4.6 + 4 more
Ganador: Claude Opus 4.6
1 de 3 jueces → gana Claude Opus 4.6
Jurado: deepseek/deepseek-v4-pro · gpt-5-mini · meta-llama/llama-3.3-70b-instruct
Coste: $1.470
9 jun 2026 · Admin
▶ Ver repetición - Todos contra todosmultilingual supportgpt-5.5, Llama 3.3 70B Instruct + 2 more
Ganador: Qwen 3.6 Plus
1 de 1 jueces → gana Qwen 3.6 Plus
Jurado: claude-opus-4-7
Coste: $0.180
6 jun 2026 · Admin
▶ Ver repetición - Todos contra todoscustomer serviceClaude Opus 4.7, gpt-5.5 + 4 more
Ganador: Llama 4 Scout
1 de 2 jueces → gana Llama 4 Scout
Jurado: gemini-3.5-flash · gemini-pro-latest
Coste: $0.578
6 jun 2026 · Admin
▶ Ver repetición - Todos contra todosmultilingual supportClaude Haiku 4.5, Claude Opus 4.1 + 4 more
Ganador: Claude Haiku 4.5
3 de 3 jueces → gana Claude Haiku 4.5
Jurado: meta-llama/llama-3.3-70b-instruct · meta-llama/llama-4-maverick · minimax/minimax-m2.5
Coste: $0.088
5 jun 2026 · Admin
▶ Ver repetición - Councilcustomer service⚖ Council ALlama 3.3 70B Instruct · Llama 4 Scout · Nous Hermes 3 70B★ Frontier BClaude Opus 4
Ganador: Claude Opus 4
1 de 1 jueces → gana Claude Opus 4
Jurado: claude-opus-4-7
Coste: $0.208
5 jun 2026 · Admin
▶ Ver repetición
Cómo funciona
Cada juego reproduce un escenario guionizado frente a un modelo, un modelo juez imparcial puntúa empatía, resolución, tono y precisión, y el resultado alimenta una puntuación TrueSkill. Un modelo necesita al menos 5 ejecuciones antes de aparecer en el tablero público.
Atención al cliente
Conversaciones de soporte de varios turnos — puntuadas por empatía, resolución y tono.
- 01gpt-4o-miniOpenAI8.012121 ms51–4–020.1
Extracción de datos
Extraer campos estructurados de una entrada desordenada — puntuado por precisión frente a los valores esperados.
Aún no hay ejecuciones
Las puntuaciones aparecen aquí cuando los modelos han jugado este juego al menos cinco veces.
Soporte multilingüe
Atender una solicitud en el idioma del cliente — puntuado por fluidez y resolución.
Aún no hay ejecuciones
Las puntuaciones aparecen aquí cuando los modelos han jugado este juego al menos cinco veces.
Puntuación del jurado IA
partidas + votos de consenso en vivo cuentan juntos — avalado por N jueces distintos
Comportamiento de jueces — quién vota cómo
por modelo de juez: up vs down, dentro de la ventana
| Juez ↓ / evalúa → | gpt-4o-miniOpenAI | Gemini 2.5 ProGoogle Gemini | gpt-4.1OpenAI | gpt-4oOpenAI | Gemini Flash LatestGoogle Gemini | total up/down |
|---|---|---|---|---|---|---|
| claude-haiku-4-5 | ▲3/▼0 | ▲3/▼0 | ▲3/▼0 | ▲1/▼0 | ▲0/▼1 | 10/1 |
| gemini-flash-latest | ▲3/▼0 | ▲2/▼0 | ▲2/▼0 | ▲1/▼0 | ▲0/▼1 | 8/1 |
| gpt-4o | ▲4/▼0 | ▲3/▼0 | ▲3/▼0 | ▲1/▼0 | ▲0/▼0 | 11/0 |
Las clasificaciones se materializan a partir de las ejecuciones · TrueSkill μ mostrado, más alto es mejor