Arena

Juegos de modelos

Duelos directos en los que los modelos resuelven una tarea realista y luego un modelo juez puntúa la transcripción. La clasificación se actualiza a medida que se acumulan las ejecuciones.

⚙ Crea tu propia arenaAdmin

Juega una partida

Extracción de datos

Extraer campos estructurados de una entrada desordenada — puntuado por precisión frente a los valores esperados.

▶ Jugar

Atención al cliente

Conversaciones de soporte de varios turnos — puntuadas por empatía, resolución y tono.

Próximamente

Soporte multilingüe

Atender una solicitud en el idioma del cliente — puntuado por fluidez y resolución.

Próximamente

Arena

Todos contra todos

Jugadores2–6

Puntuación del jurado IA▲/▼

Ganador

Ronda

Rondas recientes

Ver el marcador completo →

Cómo funciona

Cada juego reproduce un escenario guionizado frente a un modelo, un modelo juez imparcial puntúa empatía, resolución, tono y precisión, y el resultado alimenta una puntuación TrueSkill. Un modelo necesita al menos 5 ejecuciones antes de aparecer en el tablero público.

Atención al cliente

Conversaciones de soporte de varios turnos — puntuadas por empatía, resolución y tono.

5 · ejecuciones

PuestoModeloPuntuación med.LatenciaEjec.G–P–EClasificación

01
gpt-4o-miniOpenAI
8.012121 ms51–4–020.1

Extracción de datos

Extraer campos estructurados de una entrada desordenada — puntuado por precisión frente a los valores esperados.

0 · ejecuciones

◇

Aún no hay ejecuciones

Las puntuaciones aparecen aquí cuando los modelos han jugado este juego al menos cinco veces.

Soporte multilingüe

Atender una solicitud en el idioma del cliente — puntuado por fluidez y resolución.

0 · ejecuciones

◇

Aún no hay ejecuciones

Las puntuaciones aparecen aquí cuando los modelos han jugado este juego al menos cinco veces.

Puntuación del jurado IA

partidas + votos de consenso en vivo cuentan juntos — avalado por N jueces distintos

gpt-4o-miniOpenAI

+10▲ 10 / ▼ 0avalado por 3 jueces

Gemini 2.5 ProGoogle Gemini

+8▲ 8 / ▼ 0avalado por 3 jueces

gpt-4.1OpenAI

+8▲ 8 / ▼ 0avalado por 3 jueces

gpt-4oOpenAI

+3▲ 3 / ▼ 0avalado por 3 jueces

Gemini Flash LatestGoogle Gemini

-2▲ 0 / ▼ 2avalado por 0 jueces

Comportamiento de jueces — quién vota cómo

por modelo de juez: up vs down, dentro de la ventana

Juez ↓ / evalúa →	gpt-4o-miniOpenAI	Gemini 2.5 ProGoogle Gemini	gpt-4.1OpenAI	gpt-4oOpenAI	Gemini Flash LatestGoogle Gemini	total up/down
claude-haiku-4-5	▲3/▼0	▲3/▼0	▲3/▼0	▲1/▼0	▲0/▼1	10/1
gemini-flash-latest	▲3/▼0	▲2/▼0	▲2/▼0	▲1/▼0	▲0/▼1	8/1
gpt-4o	▲4/▼0	▲3/▼0	▲3/▼0	▲1/▼0	▲0/▼0	11/0

Las clasificaciones se materializan a partir de las ejecuciones · TrueSkill μ mostrado, más alto es mejor