Tier B — Producción

Se ejecuta en:USCreado en:United States

$10.00

salida · por 1M de tokens (coste base)

Coste

4,774 ms

Velocidad de respuesta

100 / 100

Inteligencia

Veredicto — resumenLIVE

● LIVE

ahora · 2026-07-26

GPT-5 shows significant quality decline with category instability

✗ Quality score dropped 8%✗ Factual accuracy critically low✗ Latency increased 19%✓ Multilingual capability at 100

The latest benchmark window reveals concerning performance degradation for GPT-5. The overall quality score dropped from 37.2 to 34.3, representing an 8% decline. More alarming is the categorical instability: coding capabilities have disappeared entirely from measurements, while reasoning shows a zero score. Factual accuracy has collapsed to just 2 out of 100, down from unmeasured in the previous window. Creative performance also declined from 45 to 35. The only bright spot is multilingual capability, which jumped from 0 to a perfect 100, suggesting either a focused improvement or measurement inconsistency between windows. Latency has also worsened, with p50 response times increasing 19% from 8765ms to 10430ms, making the model notably slower. The shifting category measurements across windows raise questions about result consistency. Users should exercise caution with factual queries and reasoning tasks, where the model currently shows critical weaknesses. The multilingual improvement may benefit international users, but overall trajectory suggests instability in the model's capabilities. These results warrant careful monitoring in subsequent benchmark windows to determine whether this represents temporary variance or a sustained decline in performance.

Quality

34.3

Latency p50

10,430 ms

Test runs

1 de 11

Imagen y explicaciónLIVE

OpenAI

gpt-5-2025-08-07

Tier B — Producción

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-5-2025-08-07 es el modelo de lenguaje de última generación de OpenAI, lanzado en agosto de 2025. Este modelo representa un avance arquitectónico significativo respecto a la serie GPT-4, incorporando capacidades de razonamiento mejoradas, mayor precisión factual y un rendimiento más robusto en diversas tareas de procesamiento de lenguaje natural. Está diseñado para generación de texto de propósito general, incluyendo análisis complejo, escritura creativa, documentación técnica, generación de código y resolución de problemas de múltiples pasos. El modelo cuenta con capacidades estándar de generación de texto con un tamaño de ventana de contexto no revelado. GPT-5 demuestra mejoras notables en consistencia lógica, tasas reducidas de alucinación y mejor seguimiento de instrucciones en comparación con sus predecesores. Ha sido entrenado con un corte de conocimiento más reciente que versiones anteriores, aunque OpenAI no ha revelado la composición específica de datos de entrenamiento ni el conteo de parámetros. El modelo muestra una fortaleza particular en mantener coherencia durante conversaciones extendidas y manejar instrucciones matizadas que requieren interpretar la intención implícita del usuario. Dentro de la línea de modelos de OpenAI, GPT-5-2025-08-07 se sitúa en el nivel superior como el modelo de disponibilidad general más capaz. Sucede a la familia GPT-4, que incluía variantes como GPT-4 Turbo y GPT-4o. Este modelo está posicionado como la oferta insignia de OpenAI para usuarios que requieren capacidades de vanguardia en comprensión y generación de lenguaje. El identificador de versión con fecha indica esta instantánea específica de agosto de 2025, siguiendo la convención de OpenAI de mantener lanzamientos versionados para consistencia y reproducibilidad en aplicaciones de producción.

GPT-5-2025-08-07 marca el salto generacional más significativo de OpenAI desde GPT-4, estableciendo nuevos estándares en razonamiento lógico y coherencia conversacional extendida.
— Análisis comparativo Tokonomix

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5 (instantánea 2025-08-07): el original fijado

Esta es la instantánea fechada del modelo base original GPT-5, lanzado el 7 de agosto de 2025 y congelado en ese punto. Mientras que el slug flotante gpt-5 ha seguido moviéndose bajo los equipos que lo señalaban, esta versión fechada captura un conjunto específico de pesos, un perfil de comportamiento específico, un artefacto reproducible. Esto la hace útil para un conjunto reducido pero importante de trabajos: líneas base de comparación, flujos de trabajo regulados, y cualquier producto que necesite señalar al mismo modelo dentro de seis meses y obtener la misma respuesta.

Por qué existen las instantáneas fechadas

OpenAI distribuye cada generación en dos variantes. El nombre flotante (gpt-5) sigue cualquier instantánea que sea actualmente recomendada. El nombre fechado (gpt-5-2025-08-07) fija una versión específica de los pesos. El slug flotante se beneficia de mejoras silenciosas; el slug fechado se beneficia de no sorprenderte nunca.

Para comparaciones de evaluación a lo largo del tiempo, el slug fechado es la única elección honesta. Si tu informe de benchmark de diciembre dice "GPT-5 obtuvo X en nuestra suite", y alguien lo vuelve a ejecutar en mayo contra el slug flotante, no estarán comparando el mismo modelo. La instantánea fechada soluciona eso. El comportamiento del 7 de agosto de 2025 es el comportamiento que obtienes cada vez que lees este endpoint, hasta que OpenAI eventualmente lo retire.

Qué es esta instantánea

GPT-5 fue el primer modelo de la familia GPT-5, lanzado como un modelo frontera multimodal de texto y visión. La instantánea 2025-08-07 refleja el comportamiento de lanzamiento: datos de entrenamiento hasta cualquier fecha límite que OpenAI usó a mediados de 2025, el pase original de entrenamiento de seguridad, la calibración original del codificador de visión, los comportamientos originales de uso de herramientas.

Actualizaciones posteriores del slug flotante han modificado estas características. Los cambios documentados a lo largo de la línea 5.x más amplia han incluido un seguimiento de instrucciones refinado en casos límite, comportamiento de rechazo ajustado en ciertas categorías de contenido, y mejoras incrementales al OCR de visión. Ninguno de esos cambios toca esta instantánea. Lo que obtuviste en agosto de 2025 es lo que obtienes hoy.

Bajo el capó

El modelo es un decodificador transformer que acepta entradas de texto e imagen intercaladas y emite salida únicamente de texto. El recuento de parámetros, los detalles de enrutamiento de expertos, y las elecciones arquitectónicas exactas no son públicas. La tokenización usa el vocabulario BPE de GPT-5. Las entradas de imagen se codifican en mosaicos a un coste fijo de tokens por mosaico, que se acumula rápidamente en cargas de trabajo de documentos de múltiples páginas.

El límite de entrenamiento para esta instantánea se sitúa a mediados de 2025. El modelo conoce estándares de lenguaje principales y versiones de frameworks vigentes en ese período y fabricará alegremente información sobre cualquier cosa más reciente. Para flujos de trabajo que involucran eventos recientes o nuevas APIs de bibliotecas, esto importa — fija la instantánea, acepta que el conocimiento envejece, y enruta consultas de eventos actuales a través de recuperación o búsqueda web en lugar de depender del conocimiento paramétrico del modelo.

Dónde se posiciona hoy

Frente al panorama más amplio de modelos frontera, la instantánea de agosto de 2025 de GPT-5 se sitúa en el nivel superior en tareas de propósito general y el nivel medio-superior en trabajo intensivo de visión. Las versiones más nuevas 5.1, 5.2 y posteriores instantáneas la han superado en la mayoría de métricas. La tabla de clasificación de inteligencia rastrea la clasificación comparativa.

Para una instantánea fijada en agosto de 2025 este es el patrón esperado. El punto no es ser el modelo absolutamente mejor disponible en mayo de 2026; el punto es ser el mismo modelo en mayo de 2026 que en agosto de 2025, para que las comparaciones y auditorías permanezcan válidas.

Cuándo fijar a esta instantánea

Recurre a gpt-5-2025-08-07 cuando la reproducibilidad sea más valiosa que la calidad máxima. Los casos de uso claros:

Comparaciones de evaluación a lo largo del tiempo. Si tu suite de benchmark se ejecutó contra esta instantánea cuando se lanzó, ejecútala contra esta instantánea nuevamente en lugar del slug flotante. De lo contrario estás midiendo la evolución del modelo en lugar de tu propio cambio.

Decisiones reguladas donde los registros de auditoría necesitan identificar el modelo exacto que produjo una salida dada. "Usamos gpt-5" es una respuesta insuficiente cuando un auditor pregunta qué versión. "Usamos gpt-5-2025-08-07" es suficiente.

Funcionalidades de cara al cliente con SLAs de calidad que fueron calibrados contra un comportamiento de modelo específico. Si tus prompts y ejemplos few-shot fueron ajustados a esta instantánea, moverte a una más nueva sin re-ajustar arriesga regresiones sutiles.

Experimentos A/B de larga duración donde el control necesita permanecer genuinamente fijo durante la duración de la prueba.

Cuándo no fijar a esta instantánea

Evítala para el desarrollo de nuevas funcionalidades. Usa el slug flotante o la instantánea fechada más reciente en su lugar; quieres el modelo más capaz disponible mientras construyes, no el más antiguo disponible que todavía funciona.

Evítala para chat de propósito general y flujos de trabajo de contenido donde las ganancias en instantáneas más nuevas son reales y el coste de la deriva de comportamiento es bajo. Las instantáneas 5.1, 5.2 y posteriores son mejores en las mismas cargas de trabajo. Fija al historial solo cuando el historial importa.

Evítala si estás ejecutando cualquier prompt que dependa del conocimiento de eventos posteriores a mediados de 2025. El modelo no lo sabe. Adivinará. Las adivinanzas a veces sonarán correctas y a veces serán completamente erróneas.

Notas operacionales

OpenAI publica cronogramas de desaprobación para instantáneas fechadas. Las instantáneas más antiguas eventualmente se retiran. Cuando eso le suceda a esta, tu código que fija este slug comenzará a devolver errores. Planifica con anticipación: suscríbete a los anuncios de desaprobación, y mantén un camino hacia adelante a cualquier instantánea que fijarás a continuación.

Para flujos de trabajo de extracción de datos donde la capacidad de visión es crítica, la instantánea de agosto de 2025 es competente pero ha sido superada por refinamientos posteriores del codificador de visión. Si el trabajo lo permite, ejecuta los mismos documentos a través de esta instantánea y una más nueva en paralelo durante algunas semanas antes de decidir si migrar la fijación.

Alternativas

Para flujos de trabajo que necesitan el mismo tipo de reproducibilidad fijada pero se preocupan por un modelo diferente, cada proveedor frontera ahora distribuye instantáneas fechadas junto a sus slugs flotantes. El patrón es estándar de la industria. Elige el modelo que coincida con tus requisitos de calidad y modalidad, luego fija su versión fechada en lugar de la flotante.

Para optimización pura de coste en cargas de trabajo rutinarias, los miembros más pequeños de la familia 5.x (los niveles mini y nano) cubren la mayor parte de lo que el chat de propósito general realmente necesita a una fracción del coste. Fija esas instantáneas también si te preocupa la reproducibilidad allí.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Comparación de proveedoresLIVE

Comparación de proveedores

Compara cada proveedor de este modelo — coste base, calidad, latencia y disponibilidad.

Azure OpenAI (EU - Sweden)UE

Coste de entrada✓ mejor$1.25

Coste de salida$10.00

CalidadAún sin probar

Latencia (p50)Aún sin probar

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

OpenAIEE. UU.Esta oferta

Coste de entrada$1.25

Coste de salida$10.00

Calidad✓ mejor100.0

Latencia (p50)✓ mejor4,774 ms

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

Inteligencia de consenso

TODO EL MODELO

Las señales de consenso son de todo el modelo — todavía no por proveedor.

8.0

Utilidad del agente (1–10)

—

Puntuación de precisión

Detecciones únicas

Solicitudes validadas

Votos de la comunidadLIVE

Votos de la comunidad

Lo que opinan los visitantes reales — por proveedor.

Azure OpenAI (EU - Sweden)UE

Aún no hay votos de la comunidad.

OpenAIEE. UU.

Aún no hay votos de la comunidad.

Más resultados — por proveedor

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 38%■ Parcial 0%■ Incorrecto 62%

Juegos y arena

Aún sin datos.

Velocidad y salud

4,774 ms

Latencia (p50)

—

Disponibilidad

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 38%■ Parcial 0%■ Incorrecto 62%

Juegos y arena

Aún sin datos.

Velocidad y salud

4,774 ms

Latencia (p50)

—

Disponibilidad

Pregunta y respuesta — explorarLIVE

1 de 80

🧠 inteligenciaOpenAImultilingual · 2026-07-26puntuación: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

%20 indirim, 150 TL’nin %20’si olan 30 TL’yi düşmek demektir. 150 − 30 = 120 TL Ya da 150 × 0,8 = 120 TL.

Historial de pruebas — todos los proveedoresLIVE

Puntuación de calidad en el tiempoúltimo 34

Velocidad — latencia p50 en el tiempo

Aparece una tendencia cuando este modelo se ha probado en varios días distintos.

📝Veredicto — resumenLIVE

GPT-5 shows significant quality decline with category instability

🖼️Imagen y explicaciónLIVE

gpt-5-2025-08-07

Capacidades

Por qué existen las instantáneas fechadas

Qué es esta instantánea

Bajo el capó

Dónde se posiciona hoy

Cuándo fijar a esta instantánea

Cuándo no fijar a esta instantánea

Notas operacionales

Alternativas

📊Comparación de proveedoresLIVE

🧠Inteligencia de consenso

👥Votos de la comunidadLIVE

🔬Más resultados — por proveedor

💬Pregunta y respuesta — explorarLIVE

🗂️Historial de pruebas — todos los proveedoresLIVE

Veredicto — resumenLIVE

Imagen y explicaciónLIVE

Comparación de proveedoresLIVE

Inteligencia de consenso

Votos de la comunidadLIVE

Más resultados — por proveedor

Pregunta y respuesta — explorarLIVE

Historial de pruebas — todos los proveedoresLIVE