Tier C — Especialista

Se ejecuta en:USCreado en:United States

$0.4000

salida · por 1M de tokens (coste base)

Coste

840 ms

Velocidad de respuesta

Aún sin probar

Inteligencia

Veredicto — resumenLIVE

● LIVE

ahora · 2026-07-26

gpt-5-nano shows quality gains but reasoning collapses to zero

✓ Quality improved 12.4 points✓ Multilingual support now excellent✗ Reasoning capability dropped to zero✗ Factual accuracy remains weak

The latest benchmark window reveals a mixed picture for gpt-5-nano. Overall quality improved by 12.4 points to reach 41.3 out of 100, suggesting meaningful progress in model capabilities. However, this improvement masks serious category-level concerns that warrant attention. The most striking finding is the complete failure in reasoning tasks, which scored zero in the current window. This represents a critical regression in logical capabilities. Factual performance also remains weak at just 22 points, indicating the model struggles with knowledge accuracy and retrieval tasks. On the positive side, multilingual support has transformed dramatically from zero to 98 points, establishing gpt-5-nano as highly capable for cross-language applications. Creative tasks maintained stability at 45 points across both windows, showing consistency in generative capabilities. Latency showed modest improvement, dropping from 5084ms to 4833ms at the median, though response times remain relatively slow compared to industry standards. The model appears to have undergone significant architectural changes between windows, evidenced by the shift in tested categories from coding-focused to reasoning and factual assessments. Users should consider gpt-5-nano primarily for multilingual applications while avoiding reasoning-intensive workloads until this critical gap is addressed.

Quality

41.3

Latency p50

4,833 ms

Test runs

1 de 11

Imagen y explicaciónLIVE

OpenAI

gpt-5-nano

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-5-nano es un modelo de lenguaje compacto de OpenAI, posicionado como una opción eficiente dentro de la familia GPT-5. Este modelo está diseñado para aplicaciones que requieren capacidades básicas de generación de texto, donde la eficiencia computacional y el menor consumo de recursos son prioridades. Se orienta a casos de uso como la creación simple de contenido, interfaces conversacionales básicas, tareas de resumen y otras aplicaciones estándar de procesamiento de lenguaje natural que no exigen las capacidades de razonamiento más avanzadas. Como parte de la estrategia escalonada de modelos de OpenAI, GPT-5-nano representa la oferta de nivel de entrada en la serie GPT-5. Si bien las especificaciones de su ventana de contexto no se han divulgado públicamente, el modelo mantiene capacidades estándar de generación de texto propias de los modelos de lenguaje modernos. La designación "nano" indica un recuento de parámetros menor en comparación con sus equivalentes en la línea GPT-5, lo que suele correlacionarse con tiempos de inferencia más rápidos y menores requisitos computacionales, a costa de cierto rendimiento en tareas de razonamiento complejas. GPT-5-nano se sitúa por debajo de las variantes estándar GPT-5 y GPT-5-turbo en la jerarquía de productos de OpenAI. Es adecuado para desarrolladores y organizaciones que buscan integrar la generación de texto con IA en aplicaciones donde la velocidad de respuesta y la eficiencia operativa tienen mayor peso que el manejo de tareas lingüísticas altamente complejas o matizadas. El modelo funciona como un punto de entrada accesible para necesidades estándar de procesamiento de lenguaje, manteniendo la compatibilidad con la infraestructura de API de OpenAI.

GPT-5-nano se posiciona como la puerta de entrada más económica al ecosistema GPT-5, priorizando velocidad y eficiencia sobre razonamiento profundo.
— Resumen editorial de Tokonomix

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5 Nano: el nivel más pequeño original, presente en muchas tuberías de alto volumen

GPT-5 Nano es el modelo de nivel más pequeño del lanzamiento original de GPT-5. Ha impulsado innumerables tuberías de clasificación de alto volumen, etapas de prefiltrado, rutas de autocompletado y flujos de extracción simple desde su lanzamiento. El slug es flotante, lo que significa que cualquiera que lo lea hoy está obteniendo los pesos que OpenAI considera actualmente el gpt-5-nano recomendado — silenciosamente distinto de lo que apuntaba el slug hace un año.

El problema combinado de slug flotante y envejecimiento

Un slug flotante en el nivel más pequeño es operativamente el peor caso. Nano transporta el tráfico de mayor volumen en la mayoría de los stacks, lo que significa que cualquier deriva de comportamiento afecta al mayor número de salidas. El problema de envejecimiento también se aplica aquí — las mejoras de nano entre generaciones han sido sustanciales, por lo que el modelo que corre hoy en gpt-5-nano es significativamente distinto, en su perfil de capacidades, del que impulsaba el slug en el lanzamiento.

Los dos efectos se combinan. Los equipos que no han monitorizado activamente este slug pueden estar corriendo sobre pesos que han derivado múltiples veces a lo largo de la vida útil del slug flotante, contra una integración original calibrada al comportamiento de lanzamiento, con tuberías downstream que han ido absorbiendo silenciosamente cambios de formato y calidad mediante parches acumulados.

La cura no es complicada: fijar una instantánea con fecha en producción, monitorizar la deriva con una suite canario, planificar las migraciones explícitamente en lugar de absorberlas a través de la rotación del slug flotante. La cura raramente se aplica en el nivel nano porque las cargas de trabajo parecen de bajo impacto individualmente y el volumen oculta el coste acumulado.

Qué sigue haciendo este slug

Para clasificación rutinaria sobre un conjunto pequeño de categorías, extracción simple de campos con estructura predecible y completado de forma corta, el modelo sigue haciendo un trabajo útil. El coste por llamada es bajo. El perfil de latencia es el más bajo de la familia.

Para tuberías de prefiltrado que escalan a niveles mayores en función de la salida de clasificación, el modelo encaja con naturalidad como primera etapa incluso hoy. El patrón de escalado absorbe gran parte de la brecha de calidad porque los niveles superiores se ocupan de los casos difíciles.

Bajo el capó

GPT-5 Nano es un decodificador transformer con una escala de parámetros sustancialmente menor que mini, multimodal entre texto y visión, pero con una capacidad de visión notablemente más débil que los niveles superiores. OpenAI no ha publicado el recuento de parámetros.

La tokenización usa el vocabulario BPE estándar de GPT-5. Las entradas de imagen se codifican por mosaicos a un coste fijo de tokens por mosaico. La ventana de contexto es más corta que la de los niveles superiores en términos absolutos, y la coherencia decae mucho antes del límite nominal.

El modelo es significativamente más barato por token que mini, más rápido por solicitud, y la brecha respecto a mini es mayor que la brecha de mini a la base. El corte de entrenamiento se sitúa a mediados de 2025 para los pesos de lanzamiento; si el slug flotante apunta actualmente a una instantánea refrescada, el corte efectivo puede diferir.

Dónde se posiciona hoy

Frente a las ofertas actuales del nivel más pequeño, el modelo — sea cual sea la instantánea a la que resuelva actualmente el slug flotante — se sitúa por debajo de los nanos más nuevos de GPT-5 en la mayoría de las dimensiones de benchmark. El leaderboard de inteligencia sigue la posición comparativa.

Para extracción de datos en su extremo simple y flujos de contenido en el extremo de forma corta, el modelo sigue produciendo salidas utilizables. Para cualquier cosa más exigente, los nanos más nuevos son claramente mejores.

Dónde están los límites

El razonamiento es superficial. Cualquier cosa que requiera inferencia más allá del emparejamiento de patrones es incorrecta para nano.

La coherencia en contexto largo es pobre. Mantén los prompts compactos.

La salida estructurada funciona en esquemas simples y se rompe en los complejos.

La alucinación en temas nicho es mayor que en los niveles superiores. La menor capacidad se manifiesta aquí.

La calidad de visión cae notablemente respecto a los niveles superiores. La lectura estándar de gráficos y el OCR funcionan; los diagramas complejos y los layouts adversariales a menudo no.

El rendimiento en lenguas distintas del inglés es más débil, especialmente en lenguas de bajos recursos.

El conocimiento de desarrollos recientes se detiene en el punto en el que la instantánea actual del slug flotante haya cortado — que puede o no coincidir con aquello contra lo que evaluaste.

Cuándo este slug es la elección correcta

Los casos estrechos:

Estás ejecutando tuberías de prefiltrado en las que la calidad de clasificación es suficiente para la primera etapa y los escalados se encargan de los casos difíciles.

Estás haciendo autocompletado por pulsación de tecla donde la latencia es la restricción principal y el listón de calidad es "mejor que ninguna sugerencia".

Estás ejecutando herramientas internas donde la deriva de comportamiento es genuinamente tolerable.

Cuándo migrar a un pin con fecha o a una generación más nueva

Estás moviendo tráfico de producción con requisitos de estabilidad y no has fijado el modelo. Fija la instantánea de nano con fecha de esta generación, o migra al nano con fecha de una generación más nueva.

Tus tuberías downstream dependen de formatos de salida específicos y has estado absorbiendo la deriva de formato mediante parches silenciosos.

Tu harness de evaluación necesita producir resultados comparables a lo largo del tiempo, algo que el slug flotante hace imposible.

Estás en un contexto regulado donde las pistas de auditoría necesitan identificar el modelo que produjo cualquier salida concreta.

Has medido el coste acumulado de la deriva o de la brecha de capacidad en tu carga de trabajo y supera al coste de migración.

Los dos caminos

Camino uno: fijar la instantánea con fecha de esta generación (gpt-5-nano-2025-08-07). Esto estabiliza el comportamiento sin cambiar la capacidad. Razonable para cargas de trabajo donde la calidad actual es adecuada.

Camino dos: migrar al nano con fecha de una generación más nueva (5.2 Nano, 5.4 Nano, 5.5 Nano). Esto trae mejoras de capacidad junto con la disciplina de fijado. Razonable para cargas de trabajo donde la calidad actual se ha vuelto marginal.

Cualquiera de los dos caminos implica ejecutar evaluación previa al despliegue contra el objetivo, validar las tuberías downstream y cortar el tráfico de producción. No hacer nada significa seguir absorbiendo la deriva del slug flotante en un nivel donde el efecto acumulado es grande.

Alternativas

Para cargas de trabajo que necesitan comportamiento fijado en el nivel más pequeño en otro proveedor, las instantáneas equivalentes a nano comparables de Anthropic y Google se distribuyen con el mismo patrón de fijado.

Para máxima optimización de coste, clasificadores pequeños open-weights ejecutados en tu propia infraestructura pueden igualar al nano de esta generación en tareas estrechas a un coste marginal casi nulo más allá del gasto en GPU.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Comparación de proveedoresLIVE

Comparación de proveedores

Compara cada proveedor de este modelo — coste base, calidad, latencia y disponibilidad.

Azure OpenAI (EU - Sweden)UE

Coste de entrada✓ mejor$0.0500

Coste de salida$0.4000

CalidadAún sin probar

Latencia (p50)Aún sin probar

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

OpenAIEE. UU.Esta oferta

Coste de entrada$0.0500

Coste de salida$0.4000

CalidadAún sin probar

Latencia (p50)✓ mejor840 ms

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

Inteligencia de consenso

TODO EL MODELOINACTIVO

Las señales de consenso son de todo el modelo — todavía no por proveedor.

El scoring de consenso aún recopila datos para este modelo — todavía sin señales.

Votos de la comunidadLIVE

Votos de la comunidad

Lo que opinan los visitantes reales — por proveedor.

Azure OpenAI (EU - Sweden)UE

Aún no hay votos de la comunidad.

OpenAIEE. UU.

Aún no hay votos de la comunidad.

Más resultados — por proveedor

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 24%■ Parcial 0%■ Incorrecto 76%

Juegos y arena

Aún sin datos.

Velocidad y salud

840 ms

Latencia (p50)

—

Disponibilidad

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 24%■ Parcial 0%■ Incorrecto 76%

Juegos y arena

Aún sin datos.

Velocidad y salud

840 ms

Latencia (p50)

—

Disponibilidad

Pregunta y respuesta — explorarLIVE

1 de 80

🧠 inteligenciaOpenAImultilingual · 2026-07-26puntuación: 98

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

120 TL. İndirim tutarı: 150 × 0.20 = 30 TL. Bölgenin indirimi sonrası fiyat: 150 − 30 = 120 TL.

Historial de pruebas — todos los proveedoresLIVE

Puntuación de calidad en el tiempoúltimo 42

Velocidad — latencia p50 en el tiempoúltimo 867 ms

📝Veredicto — resumenLIVE

gpt-5-nano shows quality gains but reasoning collapses to zero

🖼️Imagen y explicaciónLIVE

gpt-5-nano

Capacidades

El problema combinado de slug flotante y envejecimiento

Qué sigue haciendo este slug

Bajo el capó

Dónde se posiciona hoy

Dónde están los límites

Cuándo este slug es la elección correcta

Cuándo migrar a un pin con fecha o a una generación más nueva

Los dos caminos

Alternativas

📊Comparación de proveedoresLIVE

🧠Inteligencia de consenso

👥Votos de la comunidadLIVE

🔬Más resultados — por proveedor

💬Pregunta y respuesta — explorarLIVE

🗂️Historial de pruebas — todos los proveedoresLIVE

Veredicto — resumenLIVE

Imagen y explicaciónLIVE

Comparación de proveedoresLIVE

Inteligencia de consenso

Votos de la comunidadLIVE

Más resultados — por proveedor

Pregunta y respuesta — explorarLIVE

Historial de pruebas — todos los proveedoresLIVE