Ir al contenido

Arena diaria

Repetición de la partida

Reproduciendo una partida guardada: no se llama a ningún modelo.

⚖ Consenso multijuez — nuestra marca
Tokonomix multi-council + juez + detección de puntos ciegos — menor coste, y atrapa los errores que un modelo pasa por alto.
Multi-council · menor costeMultijuez · cross-familyDetección de puntos ciegos · atrapa el error perdidoN-team · grupos enfrentados
Tipo de juego
Turnos: 3
Velocidad1×
customer_service · roundTurno 0 / 3
El modelo más barato que mantiene la calidad aparece aquí.
0 / 3
Council A
Qwen2.5-VL-72B-Instruct · Qwen 2.5 VL 72B Instruct · Meta-Llama-3_3-70B-Instruct · Llama 3.3 70B Instruct · Qwen 3.7 Max
CO
€—puntuación
HP
100
Frontier B
Claude Opus 4.7
FR
€—puntuación
HP
100
Cliente
Pulsa “Siguiente turno” para empezar.

Veredicto finalcoste, calidad y ventaja

JugadoresCosteCalidadVictoriasVentaja / estado
Council A€0.079571.67161 HP
Frontier B€0.045194.33282 HP
0 / 3Daño del dron = fuerza de la mayoría del jurado · HP = ventaja en vivo · € = costes reales

Límite de honestidad

La ventaja empieza en 100; cada turno el modelo activo más débil pierde el daño derivado — daño = 16 + 24·margen, margen = (ganador − segundo) ÷ escala de puntuación (deriveRoundOutcomes v8.1-tokonomix).

Un empate exacto no tiene ganador decisivo — sin disparo, sin daño ese turno.

0 de ventaja NO es eliminación: cada modelo responde en cada turno. El ganador real es el panel del jurado de abajo, mostrado para todos los modelos.

El daño refleja la diferencia relativa entre las mejores puntuaciones, no la calidad absoluta — ganar un turno bajo vale lo mismo que uno alto.

La escala es la puntuación de turno más alta de esta repetición (0–10 o 0–100); un turno alto puede hacer que los demás parezcan más cerca.

Cero llamadas a modelos — render puro de la ronda guardada. Cambiar la vista cambia la imagen, nunca los números.
Volver a la arena