Game Scoreboard — histórico

Todo lo que recogen los juegos en un solo tablero — tasas de victoria, votos del jurado, integridad del jurado, detección de puntos ciegos, valor council-vs-frontier y un campeón por capacidad. Todas las cifras se calculan en vivo de rondas reales.

Un análisis más profundo que la franja de rondas recientes. Elige una ventana temporal abajo; cada ventana tiene su propia URL.

Partidas recientes

Atención al clientehace 12 d

Custom — my printer don't start bu i have voltage and i get a cartrridge read errror. wha

GLM-4.5, Meta-Llama-3_3-70B-Instruct, Mistral-7B-Instruct-v0.3 +1 más

■Qwen2.5-VL-72B-Instruct ganó

Ver repetición →

Extracción de datoshace 2 sem

Office Lease Agreement — Riverside Tower

Claude Opus 4.8, gpt-oss-20b, Claude Haiku 4.5 +1 más

■Claude Opus 4.8 ganó

Ver repetición →

Extracción de datoshace 5 sem

Software License Agreement — Acme & Northwind

gpt-oss-20b, Llama-3.1-8B-Instruct, Gemini 2.5 Pro +2 más

■Gemini 2.5 Pro ganó

Ver repetición →

Extracción de datoshace 5 sem

Software License Agreement — Acme & Northwind

Claude Opus 4.8, gpt-oss-20b, Llama-3.1-8B-Instruct

■Llama-3.1-8B-Instruct ganó

Ver repetición →

Extracción de datoshace 5 sem

Office Lease Agreement — Riverside Tower

Claude Opus 4.8, gpt-oss-20b, Llama-3.1-8B-Instruct

■Claude Opus 4.8 ganó

Ver repetición →

Atención al clientehace 6 sem

Custom — My order is not shipped, is the payment correct booked?

Claude Fable 5, Gemini 3.5 Flash, gpt-5-chat-latest

■gpt-5-chat-latest ganó

Ver repetición →

Atención al clientehace 6 sem

Custom — My computer is not starting and i get a black screen, i use Windows. what is the

Antigravity Agent Preview, Claude Fable 5, Claude Haiku 4.5

■Claude Haiku 4.5 ganó

Ver repetición →

Extracción de datoshace 6 sem

Huurovereenkomst bedrijfsruimte — Zuidas

Claude Opus 4.8, Llama 4 Scout, gpt-4.1-nano

■Claude Opus 4.8 ganó

Ver repetición →

juegos jugados

modelos en la arena

evaluaciones del jurado

votos de usuario cara a cara

17 🔍

puntos ciegos detectados por el jurado (nuestra métrica distintiva · en despliegue)

Mejores modelos — rendimiento de juego tasa de victoria en todas las rondas de la ventana

Calculado en vivo de rondas: juegos, victorias/derrotas, votos del jurado, rondas-como-juez. live

#	Modelo	Juegos	V–D	Jurado ▲	Como juez
1	Claude Opus 4.6	2	2–0	▲ 4 Votado por (modelos juez): meta-llama/llama-3.3-70b-instruct×1 gemini-pro-latest×1 gpt-5.4×1 gpt-5-mini×1	0
2	Qwen 3.6 Plus	2	2–0	▲ 3 Votado por (modelos juez): claude-opus-4-7×1 claude-sonnet-4-6×1 Meta-Llama-3_3-70B-Instruct×1	1 Votó por (como jurado): gpt-5-chat-latest×1
3	gpt-5-chat-latest	1	1–0	▲ 4 Votado por (modelos juez): deepseek/deepseek-v4-pro×1 meta-llama/llama-3.3-70b-instruct×1 qwen/qwen3.6-plus×1 qwen/qwen3.7-max×1	0
4	Claude Opus 4	1	1–0	▲ 1 Votado por (modelos juez): claude-opus-4-7×1	0
5	gpt-5.2-chat-latest	1	1–0	▲ 1 Votado por (modelos juez): claude-opus-4-7×1	0
6	Gemini 2.5 Pro	5	4–1	▲ 10 Votado por (modelos juez): gpt-4o×3 claude-haiku-4-5×3 gemini-flash-latest×3 claude-opus-4-7×1	1 Votó por (como jurado): Claude Opus 4.5×1
7	Claude Opus 4.7	9	5–4	▲ 17 Votado por (modelos juez): deepseek/deepseek-v4-pro×3 claude-opus-4-7×3 gpt-5.4×2 gpt-5-mini×1 gemini-pro-latest×1 + 7 más →	7 Votó por (como jurado): Claude Opus 4.7×3 Qwen 3.6 Plus×1 Claude Opus 4×1 Claude Sonnet 4.6×1 gpt-5.2-chat-latest×1
8	Claude Opus 4.8	6	3–3	▲ 2 Votado por (modelos juez): deepseek/deepseek-v4-pro×1 gpt-5-mini×1	2 Votó por (como jurado): Meta-Llama-3_3-70B-Instruct×1 Claude Haiku 4.5×1
9	Claude Sonnet 4.6	4	2–2	▲ 5 Votado por (modelos juez): deepseek/deepseek-v4-pro×1 gpt-5-mini×1 gpt-5.3-chat-latest×1 claude-opus-4-7×1 gpt-5.2×1	1 Votó por (como jurado): Qwen 3.6 Plus×1
10	Qwen2.5-VL-72B-Instruct	2	1–1	▲ 4 Votado por (modelos juez): claude-opus-4-8×1 gpt-5.5×1 deepseek/deepseek-v4-pro×1 gpt-5.4×1	0
11	Llama 4 Scout	2	1–1	▲ 1 Votado por (modelos juez): gemini-3.5-flash×1	0
12	Claude Haiku 4.5	10	4–6	▲ 18 Votado por (modelos juez): meta-llama/llama-3.3-70b-instruct×3 claude-opus-4-7×3 gemini-2.5-flash×2 qwen/qwen2.5-vl-72b-instruct×2 gemini-3.5-flash×1 + 7 más →	2 Votó por (como jurado): DeepSeek v4 Pro×1 gpt-5.5-2026-04-23×1
13	Llama-3.1-8B-Instruct	3	1–2	▲ 0	0
14	Claude Opus 4.5	3	1–2	▲ 7 Votado por (modelos juez): gpt-5-mini×2 deepseek/deepseek-v4-pro×1 gemini-pro-latest×1 gpt-5.4×1 claude-haiku-4-5-20251001×1 + 1 más →	1 Votó por (como jurado): Claude Opus 4.7×1
15	gpt-4.1	5	1–4	▲ 15 Votado por (modelos juez): gemini-flash-latest×5 gpt-4o×4 claude-haiku-4-5×3 claude-haiku-4-5-20251001×1 gemini-2.5-flash×1 + 1 más →	0
16	gpt-4o-mini	5	1–4	▲ 14 Votado por (modelos juez): gpt-4o×5 gemini-flash-latest×5 claude-haiku-4-5×4	0
17	DeepSeek v4 Pro	5	0–5	▲ 5 Votado por (modelos juez): meta-llama/llama-4-maverick×1 meta-llama/llama-3.3-70b-instruct×1 minimax/minimax-m2.5×1 claude-haiku-4-5-20251001×1 gemini-2.5-pro×1	4 Votó por (como jurado): Claude Opus 4.7×2 gpt-5-chat-latest×1 Claude Opus 4.5×1
18	gpt-oss-20b	4	0–4	▲ 0	0
19	Llama 3.3 70B Instruct	4	0–4	▲ 6 Votado por (modelos juez): claude-opus-4-7×2 gemini-pro-latest×1 gemini-3.5-flash×1 claude-sonnet-4-6×1 Meta-Llama-3_3-70B-Instruct×1	5 Votó por (como jurado): Claude Haiku 4.5×3 Claude Fable 5×1 Claude Opus 4.6×1
20	Mistral-7B-Instruct-v0.3	3	0–3	▲ 4 Votado por (modelos juez): claude-opus-4-8×1 gpt-5.5×1 claude-opus-4-5-20251101×1 deepseek/deepseek-v4-pro×1	1 Votó por (como jurado): gpt-4o-2024-05-13×1
21	Claude Fable 5	3	0–3	▲ 7 Votado por (modelos juez): meta-llama/llama-3.3-70b-instruct×1 qwen/qwen3.6-plus×1 gemini-2.5-flash×1 gemini-3.5-flash×1 claude-opus-4-8×1 + 2 más →	0
22	gpt-5.5	2	0–2	▲ 3 Votado por (modelos juez): claude-opus-4-7×1 gemini-pro-latest×1 gemini-3.5-flash×1	2 Votó por (como jurado): Qwen2.5-VL-72B-Instruct×1 Claude Opus 4.7×1
23	gpt-5	2	0–2	▲ 0	0
24	GLM-4.5	1	0–1	▲ 2 Votado por (modelos juez): claude-opus-4-8×1 gpt-5.5×1	0
25	Meta-Llama-3_3-70B-Instruct	1	0–1	▲ 2 Votado por (modelos juez): claude-opus-4-8×1 gpt-5.5×1	1 Votó por (como jurado): Qwen 3.6 Plus×1
26	Cohere Command-A	1	0–1	▲ 0	0
27	Gemini 3.5 Flash	1	0–1	▲ 0	2 Votó por (como jurado): Claude Haiku 4.5×1 Llama 4 Scout×1
28	Antigravity Agent Preview	1	0–1	▲ 0	0
29	gpt-4.1-nano	1	0–1	▲ 0	0
30	DeepSeek v3.2	1	0–1	▲ 1 Votado por (modelos juez): gemini-3.5-flash×1	0
31	Nous Hermes 3 70B	1	0–1	▲ 0	0
32	Claude Opus 4.1	1	0–1	▲ 3 Votado por (modelos juez): meta-llama/llama-4-maverick×1 meta-llama/llama-3.3-70b-instruct×1 minimax/minimax-m2.5×1	0
33	Claude Sonnet 4.5	1	0–1	▲ 3 Votado por (modelos juez): meta-llama/llama-4-maverick×1 meta-llama/llama-3.3-70b-instruct×1 minimax/minimax-m2.5×1	0
34	Deep Research Preview (Apr-21-2026)	1	0–1	▲ 0	0
35	Deep Research Max Preview (Apr-21-2026)	1	0–1	▲ 0	0
36	gpt-4-turbo	1	0–1	▲ 3 Votado por (modelos juez): meta-llama/llama-3.3-70b-instruct×1 qwen/qwen2.5-vl-72b-instruct×1 qwen/qwen3.7-max×1	0
37	Gemini 2.5 Flash	1	0–1	▲ 4 Votado por (modelos juez): claude-haiku-4-5-20251001×1 gemini-2.5-flash×1 gemini-flash-latest×1 meta-llama/llama-3.3-70b-instruct×1	2 Votó por (como jurado): Claude Haiku 4.5×2
38	Gemini Pro Latest	1	0–1	▲ 0	2 Votó por (como jurado): gpt-5.5×1 Claude Opus 4.5×1
39	gpt-4o-2024-05-13	1	0–1	▲ 4 Votado por (modelos juez): claude-haiku-4-5-20251001×1 gemini-2.5-flash×1 gemini-flash-latest×1 meta-llama/llama-3.3-70b-instruct×1	0
40	gpt-5.5-2026-04-23	1	0–1	▲ 4 Votado por (modelos juez): claude-haiku-4-5-20251001×1 gemini-2.5-flash×1 gemini-flash-latest×1 meta-llama/llama-3.3-70b-instruct×1	0
41	gpt-5.4-2026-03-05	1	0–1	▲ 1 Votado por (modelos juez): gpt-5.3-chat-latest×1	0
42	gpt-4o	1	0–1	▲ 3 Votado por (modelos juez): gpt-4o×1 claude-haiku-4-5×1 gemini-flash-latest×1	5 Votó por (como jurado): gpt-4.1×2 Gemini 2.5 Pro×2 gpt-4o-mini×1
43	Gemini Flash Latest	1	0–1	▲ 0	7 Votó por (como jurado): gpt-4o-mini×2 Gemini 2.5 Pro×2 Claude Opus 4.7×1 gpt-5.5-2026-04-23×1 gpt-4.1×1

▲ tasa de victoriajurado ▲ = jueces del panel que respaldaron este modelo — haz clic para ver cuálescomo-juez = rondas en las que puntuó a otros

Campeón por capacidad Histórico

Modelo con mayor tasa de victoria que tiene cada capacidad y jugó en la ventana. live

🧠 razonamiento

Claude Opus 4.6

2–0 · 100%

⚙ uso de herramientas

Claude Opus 4.6

2–0 · 100%

👁 visión

Claude Opus 4.6

2–0 · 100%

📋 json-schema

Claude Opus 4.6

2–0 · 100%

🎧 audio

Gemini 2.5 Pro

4–1 · 80%

Tablero de integridad del jurado el volante — quién puntúa en línea con el panel

Por modelo juez: evaluaciones emitidas y con qué frecuencia su elección coincidió con el ganador de la ronda. live

Juez	Eval.	Coincidencia
claude-opus-4-7	7
gpt-5.5	2
gemini-2.5-flash	2
gemini-3.5-flash	2
qwen/qwen2.5-vl-72b-instruct	2
qwen/qwen3.6-plus	1
meta-llama/llama-4-maverick	1
minimax/minimax-m2.5	1
gemini-2.5-pro	1
claude-opus-4-5-20251101	1
claude-sonnet-4-6	1
Meta-Llama-3_3-70B-Instruct	1
gpt-5.3-chat-latest	1
gpt-5.2	1
meta-llama/llama-3.3-70b-instruct	5
gpt-4o	5
deepseek/deepseek-v4-pro	4
claude-haiku-4-5	4
gpt-5.4	3
gemini-flash-latest	7
claude-opus-4-8	2
qwen/qwen3.7-max	2
gpt-5-mini	2
gemini-pro-latest	2
claude-haiku-4-5-20251001	2
Mistral-7B-Instruct-v0.3	1

Coincidencia = proporción de elecciones de este juez que coincidieron con el ganador electo de la ronda.

Votos de usuario y juego

Cómo votaron el panel y los humanos.

Votos de juego (panel) emitidos	63	live
Upvotes ▲ comunidad	33	histórico
Votos de usuario cara a cara	0	en vivo · esperando tráfico
Votos "modelo deseado"	—	live

Fuentes: judge_panel · model_arena_activity.upvotes_received · votes · wanted_votes

🔍 Puntos ciegos detectados por el jurado — nuestra métrica de marca, ningún otro tablero la tiene

La cifra distintiva de Tokonomix: por modelo, cuántos puntos ciegos atrapó vs creó el jurado — confirmado solo cuando ≥2 jueces del panel coinciden en que es una omisión real.

Modelo	Atrapados	Creados	Insight neto
Claude Opus 4.6	3	0	+3
Qwen 3.6 Plus	1	2	-1
Claude Opus 4.7	0	1	-1
Claude Opus 4.8	1	0	+1
Llama 4 Scout	1	0	+1
Claude Haiku 4.5	4	2	+2
DeepSeek v4 Pro	2	3	-1
Llama 3.3 70B Instruct	2	1	+1
gpt-5.5	1	2	-1
DeepSeek v3.2	0	1	-1
Nous Hermes 3 70B	0	1	-1
Claude Opus 4.1	3	1	+2
Claude Sonnet 4.5	3	0	+3
Deep Research Preview (Apr-21-2026)	2	2	+0
Deep Research Max Preview (Apr-21-2026)	2	1	+1

Una métrica distintiva de Tokonomix — ningún otro tablero la muestra. Aparece cuando la arena emite puntos ciegos (opt-in, nunca en juegos públicos — limitado por coste).

Council vs Frontier ¿más barato Y/O más inteligente?

Equipos consenso de modelos baratos vs un único frontier premium — tasa de victoria y € ahorrados. live

Duelo	Ganador	Calidad	Coste	Veredicto
Council A vs Frontier B	Frontier B	68 vs 86	€0.007 vs €0.187	ganó frontier
Council A vs Frontier B	Council A	76.67 vs 83.33	€0.210 vs €0.323	35% más barato y ganó
Council A vs Frontier C	Frontier C	60.67 vs 86	€0.136 vs €0.088	ganó frontier
Council A vs Frontier C	empate	54.67 vs 57.67	€0.007 vs €0.094	93% más barato y ganó
Council A vs Frontier B	Frontier B	71.67 vs 94.33	€0.086 vs €0.049	ganó frontier
Council A vs Frontier B	Frontier B	61.67 vs 91	€0.028 vs €0.044	ganó frontier
Council A vs Frontier B	Frontier B	78 vs 85	€0.049 vs €0.049	ganó frontier
Council A vs Frontier C	Frontier C	72 vs 92	€0.027 vs €0.017	ganó frontier

La narrativa central de Tokonomix, cuantificada por duelo. El coste es dispatch-only (sobrecarga del jurado excluida).

💶 Coste: gastado vs ahorrado lo que vale la historia del consenso, en €

Total € gastado en juegos en esta ventana, y € ahorrados cuando un council más barato igualó o venció a un frontier premium. live

€8.86

gasto total de juego (ventana)

€0.113

ahorrado vs siempre-frontier (solo coste de concursantes)

35%

recorte medio cuando council ganó/empató

⚠ Regla de cálculo: En juegos council el panel de jurado es sobrecarga neutral — cuesta lo mismo sin importar quién juegue, así que NO cuenta para "ahorrado". Ahorro = coste concursante frontier − coste concursante council; per_player_cost es dispatch-only.

Historial de juego por modelo haz clic en un modelo → su historial completo

Cada nombre de modelo enlaza a su página; un historial de juego por modelo, filtrado por tiempo (cada ronda jugada, con resúmenes) está en despliegue — una página fresca, enlazada internamente, que crece con los juegos.