Ir al contenido

Arena diaria

Repetición de la partida

Reproduciendo una partida guardada: no se llama a ningún modelo.

⚖ Consenso multijuez — nuestra marca
Tokonomix multi-council + juez + detección de puntos ciegos — menor coste, y atrapa los errores que un modelo pasa por alto.
Multi-council · menor costeMultijuez · cross-familyDetección de puntos ciegos · atrapa el error perdidoN-team · grupos enfrentados
Tipo de juego
Turnos: 3
Velocidad1×
customer_service · roundTurno 0 / 3
El modelo más barato que mantiene la calidad aparece aquí.
0 / 3
gpt-4.1
OpenAI
GP
€—puntuación
HP
100
Gemini 2.5 Pro
Google Gemini
GE
€—puntuación
HP
100
gpt-4o-mini
OpenAI
GP
€—puntuación
HP
100
Cliente
Pulsa “Siguiente turno” para empezar.

Veredicto finalcoste, calidad y ventaja

JugadoresCosteCalidadVictoriasVentaja / estado
gpt-4.1€0.004780.672100 HP
Gemini 2.5 Pro€0.008981.33179 HP
gpt-4o-mini€0.000376.33061 HP
0 / 3Daño del dron = fuerza de la mayoría del jurado · HP = ventaja en vivo · € = costes reales

Límite de honestidad

La ventaja empieza en 100; cada turno el modelo activo más débil pierde el daño derivado — daño = 16 + 24·margen, margen = (ganador − segundo) ÷ escala de puntuación (deriveRoundOutcomes v8.1-tokonomix).

Un empate exacto no tiene ganador decisivo — sin disparo, sin daño ese turno.

0 de ventaja NO es eliminación: cada modelo responde en cada turno. El ganador real es el panel del jurado de abajo, mostrado para todos los modelos.

El daño refleja la diferencia relativa entre las mejores puntuaciones, no la calidad absoluta — ganar un turno bajo vale lo mismo que uno alto.

La escala es la puntuación de turno más alta de esta repetición (0–10 o 0–100); un turno alto puede hacer que los demás parezcan más cerca.

Cero llamadas a modelos — render puro de la ronda guardada. Cambiar la vista cambia la imagen, nunca los números.
Volver a la arena