marketing seo

Lo que 23.000 ejecuciones de benchmark en 220 modelos nos enseñaron sobre la frontera de la IA

Elegir un modelo de IA nunca ha parecido más difícil. El mercado añade nuevos lanzamientos más rápido de lo que la mayoría de los equipos puede evaluarlos, los precios varían en órdenes de magnitud y las afirmaciones de "mejor en su clase" de los proveedores casi siempre se basan en selecciones parciales. Así que dejamos de leer comunicados de prensa y empezamos a medir.

Durante seis semanas — del 30 de abril al 15 de junio de 2026 — Tokonomix ejecutó 23.373 ejecuciones de benchmark en 203 modelos distintos extraídos de nuestro catálogo de 220 modelos rastreados y 131 activos en el momento de la medición, abarcando siete proveedores: Anthropic, OpenAI, Google, OVH (alojado en la UE), OpenRouter, DeepSeek y Mistral. Cada modelo fue puntuado del 0 al 100 en seis categorías de capacidad: codificación, razonamiento, precisión factual, escritura creativa, rendimiento multilingüe y sanidad. Sin el benchmark de ninguna empresa en concreto, sin prompts de demostración seleccionados — medición de nivel de producción, actualizada de forma continua.

Esto es lo que los datos muestran realmente.

La cima está comprimida — más de lo que crees

El hallazgo más llamativo es lo poco que separa a los líderes de la frontera. Los diez modelos con mayor puntuación global (la media de las seis categorías) se sitúan en una banda que abarca apenas un punto:

| Model | Overall Score | |---|---| | gemini-3.1-flash-lite | 99.4 | | gemini-flash-lite-latest | 99.2 | | claude-opus-4-5 | 99.1 | | claude-opus-4-7 | 98.9 | | gpt-5-chat-latest | 98.8 | | claude-opus-4-8 | 98.7 | | claude-opus-4-6 | 98.6 | | gpt-4.1 | 98.0 | | gpt-4.1-mini | 98.0 | | gpt-4.1-nano | 98.0 |

Overall = la media de las seis categorías, medida hasta el 15 de junio de 2026. Nuestro marcador público se actualiza de forma continua a medida que llegan nuevas ejecuciones, por lo que los rankings en vivo diferirán ligeramente de esta instantánea — ese es precisamente el punto: la frontera se mueve semana a semana.

La distancia entre el primer y el décimo puesto es de 1,4 puntos en una escala de 100 puntos. Esta compresión tiene una consecuencia práctica: cualquier afirmación del tipo "el Modelo X es un 20% más inteligente que el Modelo Y" que leas en el blog de un proveedor casi con certeza está midiendo algo concreto y específico, no la capacidad agregada. En la frontera, la capacidad agregada ha convergido.

Esto no significa que todos los modelos sean iguales — significa que la puntuación agregada es el instrumento equivocado para elegir entre ellos. Hay que profundizar más.

Codificación y razonamiento se están saturando

Cuando se desglosan las seis categorías, dos de ellas — codificación y razonamiento — muestran ahora efectos de techo en la frontera. Muchos de los mejores modelos alcanzan el techo de 100 en ambas dimensiones, lo que significa que esas categorías ya no discriminan entre las mejores opciones. Si estás eligiendo un modelo exclusivamente para el desarrollo de software o la resolución de problemas lógicos, estás eligiendo entre modelos que están esencialmente al máximo en las dimensiones que podemos medir actualmente.

Las categorías que sí separan a los modelos en la frontera son la precisión factual, el rendimiento multilingüe y la sanidad. Son más difíciles de saturar porque exigen una amplia cobertura de conocimiento, matices culturales y precisión de dominio, en lugar del seguimiento de reglas que suelen recompensar las tareas de codificación y razonamiento. Si tu caso de uso se encuentra en alguna de estas tres áreas, la decisión de selección se vuelve mucho más significativa — y más dependiente de los datos.

Coste: puedes adquirir aproximadamente el 98% de la frontera por céntimos

El único número que más nos sorprendió: el líder global es un modelo de nivel "flash-lite".

gemini-3.1-flash-lite encabeza el ranking con un 99,4 global — por delante de los modelos insignia más grandes de cualquier proveedor. La capacidad ya no requiere el nivel más grande y más caro. Eso no es un accidente de nuestra metodología de puntuación; aparece de forma consistente a lo largo de las seis semanas de medición.

En términos más amplios, la frontera de coste eficiente tiene este aspecto:

gpt-4.1-nano: 10 centavos por millón de tokens de entrada, 40 centavos por millón de tokens de salida — puntuación global 98.0. Eso está a dos puntos del modelo mejor clasificado a un precio que la mayoría de los modelos insignia no pueden igualar.
gpt-oss-120b (alojado en OVH en la UE): 8 centavos por millón de tokens de entrada, 40 centavos por millón de tokens de salida — puntuación global 97.5.
Mistral-Small-3.2-24B (OVH, UE): 9 centavos por millón de tokens de entrada, 28 centavos por millón de tokens de salida — puntuación global 93.7.

La implicación práctica: para la mayoría de las cargas de trabajo en producción, puedes alcanzar aproximadamente el 98% de la calidad medida de la frontera a una pequeña fracción del precio de los modelos insignia. Los 1-2 puntos restantes en la puntuación agregada pueden importar para tareas específicas de alto riesgo, pero para el uso de propósito general, la economía ha cambiado drásticamente a favor del nivel eficiente.

La velocidad es su propio eje

La latencia no sigue a la calidad. Esto suena obvio, pero los datos lo hacen concreto.

Los respondedores con menor latencia mediana en nuestro conjunto de datos son modelos que quizás no hayas escuchado mencionar en las conversaciones sobre modelos insignia:

voxtral-small-24b: ~157 ms de tiempo de respuesta mediano (p50)
nemotron-super-49b: ~200 ms
hermes-3-llama-3.1-70b: ~227 ms
llama-4-scout: ~248 ms

En el otro extremo:

gemma-4-26b: ~22.950 ms medianos
gemma-4-31b: ~21.940 ms
gpt-4-turbo: ~10.550 ms

Los modelos más lentos en nuestra medición son más de 140 veces más lentos que los más rápidos, en la mediana. Para una aplicación orientada al usuario donde el tiempo de respuesta es una señal de calidad del producto, esa diferencia es la diferencia entre una herramienta a la que la gente recurre y otra que abandona.

La implicación para la selección: la puntuación de calidad y la latencia son variables independientes. Algunos modelos con alta puntuación son lentos. Algunos modelos rápidos tienen buena puntuación en calidad. Debes evaluar ambos ejes simultáneamente para tu caso de uso — un proceso de resumen en segundo plano tiene requisitos diferentes a los de un asistente de codificación en tiempo real.

Soberanía sin sacrificio: los modelos alojados en la UE están ahora cerca de la frontera

Para los equipos que operan bajo el RGPD u otros requisitos de residencia de datos, el alojamiento en la UE históricamente ha significado aceptar un descuento de calidad significativo. Eso ya no es cierto.

Entre los modelos alojados en la infraestructura de OVH en Francia, los siguientes superan el 90 global:

gpt-oss-120b: 97.5
Qwen2.5-VL-72B: 94.3
Mistral-Small-3.2-24B: 93.7
Meta-Llama-3.3-70B: 92.7
Llama-3.1-8B: 91.2

Una puntuación de 97.5 de un modelo con residencia de datos en la UE, a 8 centavos por millón de tokens de entrada, cambia el cálculo de cumplimiento normativo para muchas organizaciones. Hace seis meses esa combinación no existía a este nivel de calidad. Ahora sí.

Entonces, ¿qué modelo deberías usar?

La respuesta honesta es que "el mejor modelo" es la pregunta equivocada.

Los datos muestran una frontera donde los diez mejores modelos están separados por 1,4 puntos y donde un modelo flash-lite lidera el ranking global. En ese entorno, optimizar para la única puntuación agregada más alta te llevará a pagar por diferencias que no puedes medir en producción. La pregunta correcta es: el mejor modelo para esta tarea, a este coste, con este presupuesto de latencia, bajo estas restricciones de residencia de datos.

Ese reenfoque cambia cómo evalúas:

Procesamiento de texto de alto volumen donde el coste domina: gpt-4.1-nano o gpt-oss-120b te ofrecen calidad cercana a la frontera en el rango de 8-10 centavos por millón de tokens de entrada.
Funcionalidades en tiempo real orientadas al usuario donde la latencia domina: los modelos por debajo de 250 ms son el punto de partida; filtra desde ahí por calidad en tu categoría de tarea específica.
Cargas de trabajo factuales, multilingües o de sanidad donde las diferencias de calidad siguen siendo significativas: es exactamente aquí donde más importa la puntuación por categorías en comparativa, porque las puntuaciones de codificación y razonamiento ya no discriminan en la frontera.
Residencia de datos en la UE requerida: el nivel alojado en OVH ofrece ahora puntuaciones globales de 90+ con plena residencia de datos — tenlo en cuenta desde el principio en lugar de tratar la soberanía como una alternativa de último recurso.

El hilo común es que ninguna de estas decisiones puede tomarse a partir de un único ranking agregado o de la página de benchmarks de un proveedor. Requieren medir tu tarea frente a los modelos que estás considerando realmente, con tus propios prompts, a tu escala de uso.

Si quieres probarlo tú mismo, puedes ejecutar la misma evaluación de consenso multi-modelo en tus propios prompts en /live-test/consensus. Ejecuta tu consulta en varios modelos simultáneamente y muestra el acuerdo, el desacuerdo y el rendimiento a nivel de categoría — para que puedas ver dónde los modelos convergen y dónde divergen exactamente en el tipo de pregunta que intentas responder.

La frontera está más concurrida, es más asequible y está más distribuida geográficamente de lo que estaba hace un año. Los equipos que la naveguen bien serán aquellos que midan en lugar de asumir.