Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-5-nano

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-5-nano es un modelo de lenguaje compacto de OpenAI, posicionado como una opción eficiente dentro de la familia GPT-5. Este modelo está diseñado para aplicaciones que requieren capacidades básicas de generación de texto, donde la eficiencia computacional y el menor consumo de recursos son prioridades. Se orienta a casos de uso como la creación simple de contenido, interfaces conversacionales básicas, tareas de resumen y otras aplicaciones estándar de procesamiento de lenguaje natural que no exigen las capacidades de razonamiento más avanzadas. Como parte de la estrategia escalonada de modelos de OpenAI, GPT-5-nano representa la oferta de nivel de entrada en la serie GPT-5. Si bien las especificaciones de su ventana de contexto no se han divulgado públicamente, el modelo mantiene capacidades estándar de generación de texto propias de los modelos de lenguaje modernos. La designación "nano" indica un recuento de parámetros menor en comparación con sus equivalentes en la línea GPT-5, lo que suele correlacionarse con tiempos de inferencia más rápidos y menores requisitos computacionales, a costa de cierto rendimiento en tareas de razonamiento complejas. GPT-5-nano se sitúa por debajo de las variantes estándar GPT-5 y GPT-5-turbo en la jerarquía de productos de OpenAI. Es adecuado para desarrolladores y organizaciones que buscan integrar la generación de texto con IA en aplicaciones donde la velocidad de respuesta y la eficiencia operativa tienen mayor peso que el manejo de tareas lingüísticas altamente complejas o matizadas. El modelo funciona como un punto de entrada accesible para necesidades estándar de procesamiento de lenguaje, manteniendo la compatibilidad con la infraestructura de API de OpenAI.

GPT-5-nano se posiciona como la puerta de entrada más económica al ecosistema GPT-5, priorizando velocidad y eficiencia sobre razonamiento profundo.

Resumen editorial de Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
426212638265526722605-2206-15ms
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-5-nano
$0.0500 por 1M de tokens de entrada
$0.4000 por 1M de tokens de salida
≈ $0.0001 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.0500
por 1M de tokens de salida$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0500

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)240 / avg 283
465104

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Inferencia rápida y ligeraCosto operativo reducidoIntegración sencilla vía API de OpenAIBuen rendimiento en resúmenes cortosApto para interfaces conversacionales básicasEscalable a alto volumen de peticionesCompatible con el SDK estándar de OpenAIIdeal para casos de uso simples

Debilidades

Razonamiento complejo limitadoVentana de contexto no divulgadaCapacidades multimodales no confirmadasTier C: por debajo de modelos premium
Sección 05

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000
Sección 06

Preguntas frecuentes

Es ideal para generación de texto sencilla, resúmenes cortos, chatbots básicos y clasificación ligera. No se recomienda para razonamiento matemático avanzado ni análisis jurídico profundo.

Una opción sólida cuando el volumen y la latencia importan más que la sofisticación. Para tareas complejas, conviene escalar a un hermano mayor de la familia.

Veredicto de Tokonomix
Sección 07

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 08

Veredictos del benchmark Tokonomix

2026-06-14

gpt-5-nano maintains stability with no benchmark changes this window

This benchmark window shows gpt-5-nano operating in a steady state with no measurable performance changes across any evaluated dimensions. The model continues to support the full suite of capabilities introduced in the previous window, including tools, vision, json_mode, pdf_input, reasoning, json_schema, parallel_tools, and prompt_caching. All benchmarks remain consistent with prior measurements, indicating stable model behavior and no regressions. Users can expect the same performance characteristics observed in the last evaluation period. The absence of benchmark data changes suggests either unchanged model weights or modifications that do not materially impact measured performance metrics. This stability may be valuable for production deployments requiring predictable behavior. Organizations currently using gpt-5-nano should not expect different results from their existing implementations. The maintained capability set continues to position this model as a multimodal option with structured output support and advanced tooling features.

Quality

Latency p50

Test runs

0

Stable performance maintained No capability regressions detected
Sección 09

Perfil completo del modelo

gpt-5-nano — illustration 1
GPT-5 Nano: el nivel más pequeño original, presente en muchas tuberías de alto volumen

GPT-5 Nano es el modelo de nivel más pequeño del lanzamiento original de GPT-5. Ha impulsado innumerables tuberías de clasificación de alto volumen, etapas de prefiltrado, rutas de autocompletado y flujos de extracción simple desde su lanzamiento. El slug es flotante, lo que significa que cualquiera que lo lea hoy está obteniendo los pesos que OpenAI considera actualmente el gpt-5-nano recomendado — silenciosamente distinto de lo que apuntaba el slug hace un año.

El problema combinado de slug flotante y envejecimiento

Un slug flotante en el nivel más pequeño es operativamente el peor caso. Nano transporta el tráfico de mayor volumen en la mayoría de los stacks, lo que significa que cualquier deriva de comportamiento afecta al mayor número de salidas. El problema de envejecimiento también se aplica aquí — las mejoras de nano entre generaciones han sido sustanciales, por lo que el modelo que corre hoy en gpt-5-nano es significativamente distinto, en su perfil de capacidades, del que impulsaba el slug en el lanzamiento.

Los dos efectos se combinan. Los equipos que no han monitorizado activamente este slug pueden estar corriendo sobre pesos que han derivado múltiples veces a lo largo de la vida útil del slug flotante, contra una integración original calibrada al comportamiento de lanzamiento, con tuberías downstream que han ido absorbiendo silenciosamente cambios de formato y calidad mediante parches acumulados.

La cura no es complicada: fijar una instantánea con fecha en producción, monitorizar la deriva con una suite canario, planificar las migraciones explícitamente en lugar de absorberlas a través de la rotación del slug flotante. La cura raramente se aplica en el nivel nano porque las cargas de trabajo parecen de bajo impacto individualmente y el volumen oculta el coste acumulado.

Qué sigue haciendo este slug

Para clasificación rutinaria sobre un conjunto pequeño de categorías, extracción simple de campos con estructura predecible y completado de forma corta, el modelo sigue haciendo un trabajo útil. El coste por llamada es bajo. El perfil de latencia es el más bajo de la familia.

Para tuberías de prefiltrado que escalan a niveles mayores en función de la salida de clasificación, el modelo encaja con naturalidad como primera etapa incluso hoy. El patrón de escalado absorbe gran parte de la brecha de calidad porque los niveles superiores se ocupan de los casos difíciles.

Bajo el capó

GPT-5 Nano es un decodificador transformer con una escala de parámetros sustancialmente menor que mini, multimodal entre texto y visión, pero con una capacidad de visión notablemente más débil que los niveles superiores. OpenAI no ha publicado el recuento de parámetros.

La tokenización usa el vocabulario BPE estándar de GPT-5. Las entradas de imagen se codifican por mosaicos a un coste fijo de tokens por mosaico. La ventana de contexto es más corta que la de los niveles superiores en términos absolutos, y la coherencia decae mucho antes del límite nominal.

El modelo es significativamente más barato por token que mini, más rápido por solicitud, y la brecha respecto a mini es mayor que la brecha de mini a la base. El corte de entrenamiento se sitúa a mediados de 2025 para los pesos de lanzamiento; si el slug flotante apunta actualmente a una instantánea refrescada, el corte efectivo puede diferir.

Dónde se posiciona hoy

Frente a las ofertas actuales del nivel más pequeño, el modelo — sea cual sea la instantánea a la que resuelva actualmente el slug flotante — se sitúa por debajo de los nanos más nuevos de GPT-5 en la mayoría de las dimensiones de benchmark. El leaderboard de inteligencia sigue la posición comparativa.

Para extracción de datos en su extremo simple y flujos de contenido en el extremo de forma corta, el modelo sigue produciendo salidas utilizables. Para cualquier cosa más exigente, los nanos más nuevos son claramente mejores.

Dónde están los límites

El razonamiento es superficial. Cualquier cosa que requiera inferencia más allá del emparejamiento de patrones es incorrecta para nano.

La coherencia en contexto largo es pobre. Mantén los prompts compactos.

La salida estructurada funciona en esquemas simples y se rompe en los complejos.

La alucinación en temas nicho es mayor que en los niveles superiores. La menor capacidad se manifiesta aquí.

La calidad de visión cae notablemente respecto a los niveles superiores. La lectura estándar de gráficos y el OCR funcionan; los diagramas complejos y los layouts adversariales a menudo no.

El rendimiento en lenguas distintas del inglés es más débil, especialmente en lenguas de bajos recursos.

El conocimiento de desarrollos recientes se detiene en el punto en el que la instantánea actual del slug flotante haya cortado — que puede o no coincidir con aquello contra lo que evaluaste.

Cuándo este slug es la elección correcta

Los casos estrechos:

Estás ejecutando tuberías de prefiltrado en las que la calidad de clasificación es suficiente para la primera etapa y los escalados se encargan de los casos difíciles.

Estás haciendo autocompletado por pulsación de tecla donde la latencia es la restricción principal y el listón de calidad es "mejor que ninguna sugerencia".

Estás ejecutando herramientas internas donde la deriva de comportamiento es genuinamente tolerable.

Cuándo migrar a un pin con fecha o a una generación más nueva

Estás moviendo tráfico de producción con requisitos de estabilidad y no has fijado el modelo. Fija la instantánea de nano con fecha de esta generación, o migra al nano con fecha de una generación más nueva.

Tus tuberías downstream dependen de formatos de salida específicos y has estado absorbiendo la deriva de formato mediante parches silenciosos.

Tu harness de evaluación necesita producir resultados comparables a lo largo del tiempo, algo que el slug flotante hace imposible.

Estás en un contexto regulado donde las pistas de auditoría necesitan identificar el modelo que produjo cualquier salida concreta.

Has medido el coste acumulado de la deriva o de la brecha de capacidad en tu carga de trabajo y supera al coste de migración.

Los dos caminos

Camino uno: fijar la instantánea con fecha de esta generación (gpt-5-nano-2025-08-07). Esto estabiliza el comportamiento sin cambiar la capacidad. Razonable para cargas de trabajo donde la calidad actual es adecuada.

Camino dos: migrar al nano con fecha de una generación más nueva (5.2 Nano, 5.4 Nano, 5.5 Nano). Esto trae mejoras de capacidad junto con la disciplina de fijado. Razonable para cargas de trabajo donde la calidad actual se ha vuelto marginal.

Cualquiera de los dos caminos implica ejecutar evaluación previa al despliegue contra el objetivo, validar las tuberías downstream y cortar el tráfico de producción. No hacer nada significa seguir absorbiendo la deriva del slug flotante en un nivel donde el efecto acumulado es grande.

Alternativas

Para cargas de trabajo que necesitan comportamiento fijado en el nivel más pequeño en otro proveedor, las instantáneas equivalentes a nano comparables de Anthropic y Google se distribuyen con el mismo patrón de fijado.

Para máxima optimización de coste, clasificadores pequeños open-weights ejecutados en tu propia infraestructura pueden igualar al nano de esta generación en tareas estrechas a un coste marginal casi nulo más allá del gasto en GPU.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-5-nano — illustration 2
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
833 ms
Latencia P95
902 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026