Ir al contenido

Game Scoreboard histórico

Todo lo que recogen los juegos en un solo tablero — tasas de victoria, votos del jurado, integridad del jurado, detección de puntos ciegos, valor council-vs-frontier y un campeón por capacidad. Todas las cifras se calculan en vivo de rondas reales.

Un análisis más profundo que la franja de rondas recientes. Elige una ventana temporal abajo; cada ventana tiene su propia URL.

Partidas recientes

22
juegos jugados
32
modelos en la arena
51
evaluaciones del jurado
0
votos de usuario cara a cara
17 🔍
puntos ciegos detectados por el jurado (nuestra métrica distintiva · en despliegue)

Mejores modelos — rendimiento de juego tasa de victoria en todas las rondas de la ventana

Calculado en vivo de rondas: juegos, victorias/derrotas, votos del jurado, rondas-como-juez. live

#ModeloJuegosV–DTasa victoriaJurado ▲Como juez
1Qwen 3.6 Plus220
3
Votado por (modelos juez):
claude-opus-4-7×1
claude-sonnet-4-6×1
Meta-Llama-3_3-70B-Instruct×1
0
2Llama 4 Scout110
1
Votado por (modelos juez):
gemini-3.5-flash×1
0
3Claude Opus 4110
1
Votado por (modelos juez):
claude-opus-4-7×1
0
4Claude Opus 4.6110
3
Votado por (modelos juez):
gemini-pro-latest×1
gpt-5.4×1
gpt-5-mini×1
0
5gpt-5.2-chat-latest110
1
Votado por (modelos juez):
claude-opus-4-7×1
0
6Gemini 2.5 Pro431
10
Votado por (modelos juez):
gpt-4o×3
claude-haiku-4-5×3
gemini-flash-latest×3
claude-opus-4-7×1
1
Votó por (como jurado):
7Claude Sonnet 4.6321
3
Votado por (modelos juez):
gpt-5.3-chat-latest×1
claude-opus-4-7×1
gpt-5.2×1
1
Votó por (como jurado):
8Claude Opus 4.7853
15
Votado por (modelos juez):
claude-opus-4-7×3
gpt-5.4×2
deepseek/deepseek-v4-pro×2
gemini-pro-latest×1
gemini-3.5-flash×1
7
9Claude Opus 4.5211
5
Votado por (modelos juez):
gemini-pro-latest×1
gpt-5.4×1
gpt-5-mini×1
claude-haiku-4-5-20251001×1
gemini-2.5-pro×1
1
Votó por (como jurado):
10Claude Haiku 4.5835
15
Votado por (modelos juez):
meta-llama/llama-3.3-70b-instruct×3
claude-opus-4-7×3
qwen/qwen2.5-vl-72b-instruct×2
meta-llama/llama-4-maverick×1
minimax/minimax-m2.5×1
2
Votó por (como jurado):
11gpt-4.1514
15
Votado por (modelos juez):
gemini-flash-latest×5
gpt-4o×4
claude-haiku-4-5×3
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
0
12gpt-4o-mini514
14
Votado por (modelos juez):
gpt-4o×5
gemini-flash-latest×5
claude-haiku-4-5×4
0
13DeepSeek v4 Pro505
5
Votado por (modelos juez):
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
claude-haiku-4-5-20251001×1
gemini-2.5-pro×1
2
Votó por (como jurado):
14Llama 3.3 70B Instruct404
6
Votado por (modelos juez):
claude-opus-4-7×2
gemini-pro-latest×1
gemini-3.5-flash×1
claude-sonnet-4-6×1
Meta-Llama-3_3-70B-Instruct×1
3
Votó por (como jurado):
15gpt-5.5202
3
Votado por (modelos juez):
claude-opus-4-7×1
gemini-pro-latest×1
gemini-3.5-flash×1
1
Votó por (como jurado):
16gpt-5202
00
17DeepSeek v3.2101
1
Votado por (modelos juez):
gemini-3.5-flash×1
0
18Nous Hermes 3 70B101
00
19Claude Opus 4.1101
3
Votado por (modelos juez):
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
0
20Claude Sonnet 4.5101
3
Votado por (modelos juez):
meta-llama/llama-4-maverick×1
meta-llama/llama-3.3-70b-instruct×1
minimax/minimax-m2.5×1
0
21Deep Research Preview (Apr-21-2026)101
00
22Deep Research Max Preview (Apr-21-2026)101
00
23gpt-4-turbo101
3
Votado por (modelos juez):
meta-llama/llama-3.3-70b-instruct×1
qwen/qwen2.5-vl-72b-instruct×1
qwen/qwen3.7-max×1
0
24Mistral-7B-Instruct-v0.3101
2
Votado por (modelos juez):
claude-opus-4-5-20251101×1
deepseek/deepseek-v4-pro×1
1
Votó por (como jurado):
25Qwen2.5-VL-72B-Instruct101
2
Votado por (modelos juez):
deepseek/deepseek-v4-pro×1
gpt-5.4×1
0
26Gemini 2.5 Flash101
4
Votado por (modelos juez):
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
1
Votó por (como jurado):
27Gemini Pro Latest101
0
2
Votó por (como jurado):
28gpt-4o-2024-05-13101
4
Votado por (modelos juez):
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
0
29gpt-5.5-2026-04-23101
4
Votado por (modelos juez):
claude-haiku-4-5-20251001×1
gemini-2.5-flash×1
gemini-flash-latest×1
meta-llama/llama-3.3-70b-instruct×1
0
30gpt-5.4-2026-03-05101
1
Votado por (modelos juez):
gpt-5.3-chat-latest×1
0
31gpt-4o101
3
Votado por (modelos juez):
gpt-4o×1
claude-haiku-4-5×1
gemini-flash-latest×1
5
Votó por (como jurado):
32Gemini Flash Latest101
0
7
▲ tasa de victoriajurado ▲ = jueces del panel que respaldaron este modelo — haz clic para ver cuálescomo-juez = rondas en las que puntuó a otros

Campeón por capacidad Histórico

Modelo con mayor tasa de victoria que tiene cada capacidad y jugó en la ventana. live

🧠 razonamiento
Qwen 3.6 Plus
20 · 100%
uso de herramientas
Qwen 3.6 Plus
20 · 100%
👁 visión
Qwen 3.6 Plus
20 · 100%
📋 json-schema
Claude Opus 4
10 · 100%
🎧 audio
Gemini 2.5 Pro
31 · 75%

Tablero de integridad del jurado el volante — quién puntúa en línea con el panel

Por modelo juez: evaluaciones emitidas y con qué frecuencia su elección coincidió con el ganador de la ronda. live

JuezEval.Coincidencia
claude-opus-4-77
meta-llama/llama-3.3-70b-instruct3
qwen/qwen2.5-vl-72b-instruct2
deepseek/deepseek-v4-pro2
gemini-3.5-flash1
meta-llama/llama-4-maverick1
minimax/minimax-m2.51
gpt-5-mini1
gemini-2.5-pro1
claude-opus-4-5-202511011
claude-sonnet-4-61
Meta-Llama-3_3-70B-Instruct1
gpt-5.51
gemini-2.5-flash1
gpt-5.3-chat-latest1
gpt-5.21
gpt-4o5
claude-haiku-4-54
gpt-5.43
gemini-flash-latest7
gemini-pro-latest2
claude-haiku-4-5-202510012
qwen/qwen3.7-max1
Mistral-7B-Instruct-v0.31
Coincidencia = proporción de elecciones de este juez que coincidieron con el ganador electo de la ronda.

Votos de usuario y juego

Cómo votaron el panel y los humanos.

Votos de juego (panel) emitidos51live
Upvotes ▲ comunidad33histórico
Votos de usuario cara a cara0en vivo · esperando tráfico
Votos "modelo deseado"live
Fuentes: judge_panel · model_arena_activity.upvotes_received · votes · wanted_votes

🔍 Puntos ciegos detectados por el jurado — nuestra métrica de marca, ningún otro tablero la tiene

La cifra distintiva de Tokonomix: por modelo, cuántos puntos ciegos atrapó vs creó el jurado — confirmado solo cuando ≥2 jueces del panel coinciden en que es una omisión real.

ModeloAtrapadosCreadosInsight neto
Qwen 3.6 Plus12-1
Llama 4 Scout10+1
Claude Opus 4.701-1
Claude Haiku 4.512-1
DeepSeek v4 Pro23-1
Llama 3.3 70B Instruct21+1
gpt-5.512-1
DeepSeek v3.201-1
Nous Hermes 3 70B01-1
Claude Opus 4.131+2
Claude Sonnet 4.530+3
Deep Research Preview (Apr-21-2026)22+0
Deep Research Max Preview (Apr-21-2026)21+1
Una métrica distintiva de Tokonomix — ningún otro tablero la muestra. Aparece cuando la arena emite puntos ciegos (opt-in, nunca en juegos públicos — limitado por coste).

Council vs Frontier ¿más barato Y/O más inteligente?

Equipos consenso de modelos baratos vs un único frontier premium — tasa de victoria y € ahorrados. live

DueloGanadorCalidadCosteVeredicto
Council A vs Frontier BFrontier B68 vs 86€0.007 vs €0.187ganó frontier
Council A vs Frontier BCouncil A76.67 vs 83.33€0.210 vs €0.32335% más barato y ganó
Council A vs Frontier CFrontier C60.67 vs 86€0.136 vs €0.088ganó frontier
Council A vs Frontier Cempate54.67 vs 57.67€0.007 vs €0.09493% más barato y ganó
Council A vs Frontier BFrontier B71.67 vs 94.33€0.086 vs €0.049ganó frontier
Council A vs Frontier BFrontier B61.67 vs 91€0.028 vs €0.044ganó frontier
Council A vs Frontier BFrontier B78 vs 85€0.049 vs €0.049ganó frontier
Council A vs Frontier CFrontier C72 vs 92€0.027 vs €0.017ganó frontier
La narrativa central de Tokonomix, cuantificada por duelo. El coste es dispatch-only (sobrecarga del jurado excluida).

💶 Coste: gastado vs ahorrado lo que vale la historia del consenso, en €

Total € gastado en juegos en esta ventana, y € ahorrados cuando un council más barato igualó o venció a un frontier premium. live

€3.12
gasto total de juego (ventana)
€0.113
ahorrado vs siempre-frontier (solo coste de concursantes)
35%
recorte medio cuando council ganó/empató
Regla de cálculo: En juegos council el panel de jurado es sobrecarga neutral — cuesta lo mismo sin importar quién juegue, así que NO cuenta para "ahorrado". Ahorro = coste concursante frontier − coste concursante council; per_player_cost es dispatch-only.

Historial de juego por modelo haz clic en un modelo → su historial completo

Cada nombre de modelo enlaza a su página; un historial de juego por modelo, filtrado por tiempo (cada ronda jugada, con resúmenes) está en despliegue — una página fresca, enlazada internamente, que crece con los juegos.

Todo lo marcado live viene de rondas reales ahora; las métricas en despliegue llegan con la Fase C.
Volver a la arena