Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-5

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-5 es un modelo de lenguaje de gran escala desarrollado por OpenAI, que representa la siguiente generación de la serie Generative Pre-trained Transformer de la compañía. Como sucesor de GPT-4, este modelo continúa el enfoque de OpenAI de entrenar redes neuronales a gran escala con datos de texto diversos para realizar tareas lingüísticas de propósito general. Está diseñado para la generación, comprensión y razonamiento de texto, así como para conversaciones multi-turno en una amplia variedad de dominios y aplicaciones. El modelo emplea arquitectura transformer y se basa en los fundamentos técnicos establecidos por sus predecesores. Aunque OpenAI no ha divulgado públicamente detalles arquitectónicos específicos como el número de parámetros o la metodología de entrenamiento, GPT-5 mantiene las capacidades estándar esperadas de los modelos de lenguaje de frontera, incluyendo completado de texto, respuesta a preguntas, resumen, generación de código y escritura creativa. El tamaño de la ventana de contexto permanece sin confirmar en la documentación pública, aunque se espera que maneje longitudes de entrada considerables para tareas complejas. Dentro de la línea de modelos de OpenAI, GPT-5 representa el modelo insignia actual de generación de texto, posicionado como la oferta más avanzada en su API y ecosistema de productos. Se sitúa por encima de GPT-4 y de iteraciones anteriores en cuanto a cronología de lanzamiento y nivel de capacidad previsto. El modelo es accesible a través de la infraestructura estándar de la API de OpenAI y está integrado en diversos productos de OpenAI, atendiendo tanto a casos de uso de desarrolladores como empresariales que requieren capacidades de procesamiento de lenguaje de última generación.

GPT-5 es el modelo insignia de la nueva generación de OpenAI, representando el estado del arte en generación de texto y razonamiento avanzado.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
504594411384168242226405-2206-15ms
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-5
$1.25 por 1M de tokens de entrada
$10.00 por 1M de tokens de salida
≈ $0.0028 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$1.25
por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)207 / avg 236
39329

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Razonamiento de última generaciónMayor precisión factual que GPT-4Codificación avanzada en múltiples lenguajesAnálisis complejo multi-dominioGeneración de texto de alta calidadSoporte multilingüe mejorado

Debilidades

Especificaciones de contexto no publicadasCosto operativo elevadoMayor latencia en respuestas complejasEspecificaciones técnicas no divulgadas
Sección 05

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000
Sección 06

Preguntas frecuentes

Mayor capacidad de razonamiento, mejor precisión factual y seguimiento de instrucciones más sofisticado según los benchmarks publicados.

Como sucesor de GPT-4, GPT-5 establece nuevos estándares en capacidad de razonamiento, precisión factual y seguimiento de instrucciones complejas.

Resumen de benchmark Tokonomix
Sección 07

Disponibilidad

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=5

Últimos 30 días

100.0%

n=5

Tiempo de respuesta mediano

22,891ms

n=5

Basado en 73 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

5

Respuestas OK (30d)

5

Total de llamadas (7d)

5

Respuestas OK (7d)

5

Sección 08

Veredictos del benchmark Tokonomix

2026-06-14

GPT-5 maintains baseline with no measurable performance changes

GPT-5 shows no benchmark changes in this evaluation window, maintaining the performance baseline established in the previous period. All previously introduced capabilities including tools, vision, json_mode, pdf_input, reasoning, json_schema, parallel_tools, and prompt_caching remain available without modification. The model continues to operate at its initial deployment specifications with no observable improvements or regressions across measured dimensions. This stability period suggests OpenAI is prioritizing infrastructure scaling and reliability over incremental capability updates. Users can expect consistent behavior matching prior performance characteristics. The lack of benchmark movement indicates no changes to underlying model weights, inference parameters, or capability implementations. Organizations relying on GPT-5 for production workloads benefit from predictable behavior, though those anticipating performance improvements will need to wait for future updates. The static benchmark window may reflect OpenAI's focus on monitoring real-world deployment patterns before introducing modifications. As GPT-5 remains in its established baseline state, users should continue standard evaluation practices for their specific use cases rather than expecting behavioral changes.

Quality

Latency p50

Test runs

0

Consistent performance maintained All capabilities remain stable
Sección 09

Perfil completo del modelo

gpt-5 — illustration 1
GPT-5: el modelo frontier de OpenAI cuando tomó el slot insignia

gpt-5 es el alias continuo de la línea frontier GPT-5 de OpenAI. Entrada de texto más visión, el amplio conjunto de capacidades multimodal heredado de la generación GPT-4o "omni", y el perfil de razonamiento y seguimiento de instrucciones que tomó el slot de insignia predeterminado de la familia GPT-4o cuando se lanzó.

A mediados de 2026, la línea GPT-5 cubre varias variantes: GPT-5 base, la actualización 5.1, la versión 5.2, especializaciones codex, clases de tamaño mini y nano. Esta página cubre el alias base gpt-5 como punto de entrada a la familia.

Qué aportó GPT-5 al slot insignia

El salto de GPT-4o a GPT-5 fue menos un único salto de capacidad y más un conjunto de ganancias incrementales que se acumularon en la mayoría de las categorías de evaluación:

  • Seguimiento de instrucciones más ajustado en tareas de múltiples pasos donde GPT-4o ocasionalmente perdía el hilo.
  • Atención en contexto largo notablemente mejor. Los mismos números de ventana de contexto que GPT-4o pero con una atención que se mantiene más profundamente en el buffer.
  • Ergonomía de uso de herramientas mejorada: llamadas paralelas, adherencia al esquema en esquemas complejos, recuperación de fallos parciales de herramientas.
  • Comportamiento de rechazo más consistente en prompts de borde que producían una amplia varianza entre ejecuciones en GPT-4o.
  • Incertidumbre mejor calibrada. El modelo está más dispuesto a decir "no lo sé" y es menos propenso a la alucinación confiada en los tipos de prompts que exponían los puntos débiles de GPT-4o.

Ninguno de esos es individualmente un salto generacional. El efecto colectivo es suficientemente significativo como para que, para los nuevos proyectos que comienzan en 2026, GPT-5 sea generalmente el valor predeterminado de OpenAI correcto a menos que el tamaño del tier de coste le empuje hacia una variante mini o nano.

Dónde rinde bien

Cargas de trabajo donde el perfil de calidad de GPT-5 se diferencia de la familia GPT-4o:

  • Tareas de razonamiento de múltiples pasos donde el modelo tiene que encadenar inferencias en secuencias más largas sin perder el hilo.
  • Agentes con uso intensivo de herramientas donde la ergonomía de llamadas paralelas y la fiabilidad del esquema se traducen en menos invocaciones fallidas de herramientas por sesión.
  • Cargas de trabajo de documentos de contexto largo donde la calidad de atención en la segunda mitad del buffer importa tanto como el tamaño del buffer.
  • Pipelines de producción que dependen de la salida JSON donde la adherencia al esquema de 5 reduce los fallos de parsing posteriores.
  • Interfaces conversacionales donde la consistencia de rechazos importa en entradas de usuarios diversas.

Dónde falla

Es el modelo de tier frontier. Las restricciones que conlleva:

  • El coste por solicitud es mayor que las alternativas de tier mini. Para clasificación masiva, extracción o soporte conversacional simple, GPT-5-mini o GPT-4o-mini es la mejor opción de economía unitaria.
  • La latencia es mayor que la de los modelos más pequeños. Para UIs interactivas donde importa la velocidad de escritura, sopese el coste de latencia frente al beneficio de calidad.
  • Sin audio nativo, voz en tiempo real o vídeo en el endpoint base gpt-5. La línea audio-preview, la vista previa en tiempo real y los endpoints de transcripción y TTS siguen siendo los caminos correctos para esas cargas de trabajo.
  • Despliegue auto-alojado no disponible. Solo API de OpenAI. La encuesta /usecases/local cubre lo que está disponible cuando se requiere operación on-premise.

Dónde se sitúa frente al campo

A mediados de 2026, la comparación de tier frontier tiene este aspecto:

Frente a Claude Opus 4.6 y 4.7: GPT-5 generalmente gana en ergonomía de uso de herramientas y salida JSON fiable por esquema. Opus generalmente gana en estilo de razonamiento cuidadoso y en prosa administrativa en lenguas europeas. Los dos intercambian victorias en categorías de benchmark; la elección correcta depende de qué categorías importan para su producto. La comparación por categorías está en /benchmarks/leaderboard.

Frente a la familia Gemini 3: el manejo del contexto largo de Gemini a escala de varios millones de tokens está diferenciado. GPT-5 se mantiene en los tamaños de contexto sub-200k más convencionales en los que opera la mayoría de las cargas de trabajo de producción.

Frente a los modelos frontier de peso abierto: Llama, Mistral Large y la línea frontier de Qwen son auto-alojables para los casos donde los modelos de solo API no son una opción. GPT-5 gana en ergonomía del desarrollador y en calidad bruta en la mayoría de los benchmarks; los modelos abiertos ganan cuando se necesitan pesos en la propia infraestructura. Consulte /usecases/local.

El encuadre honesto: para los equipos que usan OpenAI que comienzan desde cero en 2026, gpt-5 es el valor predeterminado correcto. Para los equipos que eligen entre proveedores, la respuesta depende de qué eje competitivo importa más para el producto.

Cuándo usar el alias continuo frente a una instantánea con fecha

El alias continuo gpt-5 recoge las versiones incrementales de OpenAI automáticamente. Las instantáneas con fecha (gpt-5-2025-08-07, gpt-5.1-2025-11-13, etc.) congelan versiones específicas para despliegues de producción estables.

Para el desarrollo activo y la investigación, el alias continuo está bien. Para los despliegues de producción lanzados donde la previsibilidad del comportamiento importa, ancle a una instantánea con fecha y migre hacia adelante en su propio calendario de evaluación.

Cuándo elegirlo

Use gpt-5 cuando:

  • Necesite la calidad flagship de OpenAI y el coste por solicitud sea aceptable para la carga de trabajo.
  • La aplicación se beneficia de las mejoras de uso de herramientas, contexto largo o razonamiento sobre GPT-4o.
  • La consistencia de comportamiento en entradas de usuarios diversas importa para su producto.

Omítalo cuando:

  • Un modelo de tier mini en la familia GPT-5 o GPT-4o gestiona la tarea a un coste notablemente más bajo.
  • El audio, la voz en tiempo real o el vídeo es el requisito real: use los endpoints especializados.
  • El despliegue on-premise es obligatorio.
  • El modelo frontier de otro proveedor gana en el eje que más importa para su producto.

Notas de despliegue

API de Chat Completions estándar. El uso de herramientas, la salida estructurada, la entrada de visión y el streaming funcionan todos como de producción. La superficie de la API es compatible hacia adelante con las instantáneas con fecha de GPT-5 y las especializaciones codex.

El ajuste fino alojado de OpenAI soporta GPT-5, que es uno de los caminos más prácticos para extraer calidad adicional para dominios estrechos.

La lectura pragmática: gpt-5 es el valor predeterminado de OpenAI correcto para nuevos proyectos de tier frontier en 2026 a menos que el tamaño del tier de coste o un requisito de modalidad especializada apunte a otro lado. Compárelo con las alternativas en los mismos prompts en /live-test.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-5 — illustration 2gpt-5 — illustration 3
Última prueba automática
15 jun 2026 · 08:01 UTC · Benchmark de velocidad
Latencia P50
965 ms
Latencia P95
1139 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026