Arena diaria

Repetición de la partida

Reproduciendo una partida guardada: no se llama a ningún modelo.

⚖ Consenso multijuez — nuestra marca

Tokonomix multi-council + juez + detección de puntos ciegos — menor coste, y atrapa los errores que un modelo pasa por alto.

Multi-council · menor costeMultijuez · cross-familyDetección de puntos ciegos · atrapa el error perdidoN-team · grupos enfrentados

Tipo de juego

Turnos: 3

Velocidad1×

customer_service · roundTurno 0 / 3

El modelo más barato que mantiene la calidad aparece aquí.

0 / 3

Council A

Qwen2.5-VL-72B-Instruct · Qwen 2.5 VL 72B Instruct · Meta-Llama-3_3-70B-Instruct · Llama 3.3 70B Instruct · Qwen 3.7 Max

€—puntuación —

100

Frontier B

Claude Opus 4.7

€—puntuación —

100

Cliente

Pulsa “Siguiente turno” para empezar.

Veredicto final — coste, calidad y ventaja

Jugadores	Coste	Calidad	Victorias	Ventaja / estado
Council A	€0.0795	71.67	0	agotado
Frontier B	€0.0451	94.33	3	100 HP

0 / 3Daño del dron = fuerza de la mayoría del jurado · HP = ventaja en vivo · € = costes reales

Límite de honestidad

La ventaja empieza en 100. Las eliminaciones siguen la clasificación final del jurado — el modelo peor clasificado cae primero, con un ritmo para que la última eliminación llegue cerca del final de la ronda. El ganador del jurado nunca es objetivo, así que siempre queda el último en pie (deriveRoundOutcomes v9-elim-tokonomix).

Si el panel termina en un empate real por el primer puesto, nadie es eliminado y cada modelo juega hasta el final.

0 de ventaja significa que ese modelo queda eliminado; en cuanto solo queda el ganador, la repetición muestra el resultado. El panel del jurado de abajo corona a ese mismo modelo, el último en pie.

La barra de ventaja visualiza la clasificación final, no la calidad por turno — la insignia de ganador del turno marca por separado quién respondió mejor en cada turno.

La escala es la puntuación de turno más alta de esta repetición (0–10 o 0–100); un turno alto puede hacer que los demás parezcan más cerca.

Cero llamadas a modelos — render puro de la ronda guardada. Cambiar la vista cambia la imagen, nunca los números.

Volver a la arena

Compartir este resultado

Compartir en X LinkedIn WhatsApp

↺ Iniciar una nueva ronda