Tier B — Producción

Se ejecuta en:USCreado en:United States

$2.00

salida · por 1M de tokens (coste base)

Coste

2,427 ms

Velocidad de respuesta

100 / 100

Inteligencia

Veredicto — resumenLIVE

● LIVE

ahora · 2026-07-26

Quality drops 45 points with factual and reasoning scores falling to zero

✗ Quality dropped 45 points✗ Factual and reasoning scores zero✓ Multilingual performance remains excellent✗ Latency increased 3 percent

This benchmark window shows a significant degradation in gpt-5-mini-2025-08-07 performance, with the overall quality score plummeting from 81.3 to 36.3 out of 100. The most alarming change is the complete failure in factual and reasoning categories, both scoring zero compared to their absence from previous measurements where coding achieved perfect scores. This suggests either a regression in the model's core capabilities or fundamental issues with these newly-tested aspects. Multilingual performance remains the model's strongest area, maintaining near-perfect scores at 100 in the current window versus 99 previously. Creative tasks held steady at 45 across both windows, indicating some consistency in generation capabilities. Latency increased slightly from 6548ms to 6742ms at the median, representing a modest 3% slowdown that is unlikely to impact most use cases significantly. The previous window highlighted eight major capabilities including reasoning and vision support, but the current results suggest these additions may not be functioning as intended. Users should exercise caution when deploying this model for factual retrieval or logical reasoning tasks until these critical issues are addressed. The model appears most reliable for multilingual applications at present.

Quality

36.3

Latency p50

6,742 ms

Test runs

1 de 11

Imagen y explicaciónLIVE

OpenAI

gpt-5-mini-2025-08-07

Tier B — Producción

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-5-mini-2025-08-07 es un modelo de generación de texto desarrollado por OpenAI, lanzado como parte de la familia GPT-5 en 2025. Como indica su designación "mini", este modelo representa una variante más pequeña y eficiente dentro de la línea, diseñada para equilibrar capacidad con eficiencia computacional. Procesa y genera texto similar al humano basado en indicaciones de entrada, adecuado para aplicaciones que incluyen generación de contenido, agentes conversacionales, análisis de texto y tareas lingüísticas de propósito general. El modelo presenta capacidades estándar de generación de texto sin funciones multimodales especializadas, enfocándose en la comprensión y producción fundamental del lenguaje. El tamaño de su ventana de contexto no ha sido divulgado públicamente, aunque mantiene las características arquitectónicas fundamentales de la serie GPT-5, incluyendo capacidades de razonamiento mejoradas y respuestas factuales más precisas en comparación con generaciones anteriores. La fecha de lanzamiento de agosto de 2025 sugiere que incorpora datos de entrenamiento y refinamientos arquitectónicos disponibles hasta ese momento. Dentro de la línea de modelos de OpenAI, GPT-5-mini ocupa una posición como opción accesible para desarrolladores y organizaciones que requieren procesamiento de lenguaje capaz sin la sobrecarga computacional de los modelos GPT-5 a escala completa. Sirve casos de uso donde la velocidad de respuesta y la eficiencia de recursos se priorizan junto con la calidad, haciéndolo apropiado para aplicaciones de alto rendimiento, sistemas embebidos o escenarios con limitaciones de infraestructura. El modelo mantiene compatibilidad con la infraestructura API estándar de OpenAI y el ecosistema de herramientas.

GPT-5-mini-2025-08-07 representa la apuesta de OpenAI por democratizar las capacidades de quinta generación, ofreciendo razonamiento avanzado en un formato optimizado para escenarios donde la eficiencia computacional es tan importante como la calidad de respuesta.
— Análisis editorial Tokonomix

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5 Mini (instantánea 2025-08-07): el pin datado mini más antiguo

Esta es la instantánea datada del GPT-5 Mini original, congelada en el lanzamiento del 7 de agosto de 2025. Es la instantánea datada más antigua dentro de la familia GPT-5 Mini — fijada por equipos que adoptaron Mini en el lanzamiento de GPT-5 y no han migrado desde entonces. La pregunta operativa definitoria para este pin ya no es "¿debería fijarlo?" sino "¿cuándo planeo la migración fuera de él, y hacia dónde me traslado?"

El argumento de la ventana de deprecación

OpenAI publica calendarios de deprecación para las instantáneas datadas. El patrón a lo largo de las generaciones de modelos ha sido consistente: las instantáneas eventualmente se retiran, con al menos unos meses de aviso previo. La fecha exacta se anuncia cuando se produce el anuncio, no es predecible con anticipación.

Para una instantánea que ha existido desde el lanzamiento de GPT-5, la pregunta no es si viene la deprecación. Es si tienes un plan de migración listo cuando OpenAI publique el calendario. Los equipos que han estado operando contra este pin durante más tiempo tienen la mayor inversión técnica acumulada — prompts calibrados al comportamiento específico del modelo, parseo downstream que depende de particularidades del output, arneses de evaluación que referencian esta instantánea como su línea base. Todo eso necesita moverse cuando esta instantánea se retire.

La mitigación es planificar con anticipación. Identificar a qué Mini más nuevo migrarás. Ejecutar evaluaciones periódicas contra ese objetivo. Construir el trabajo de ingeniería de prompts de migración como un proyecto conocido en lugar de una respuesta de crisis. El coste es pequeño si se planifica. Es mucho mayor si se hace bajo presión de plazos cuando llega la fecha de deprecación.

Lo que captura esta instantánea

El lanzamiento de agosto 2025 de GPT-5 Mini: pesos de lanzamiento, comportamiento de lanzamiento en clasificación y extracción, perfil de latencia de lanzamiento, configuración del codificador de visión de lanzamiento para la clase de tamaño. El modelo no ha cambiado desde entonces.

Las mejoras que la línea GPT-5 más amplia ha acumulado en generaciones subsecuentes — mejor precisión de clasificación, output estructurado más ajustado, capacidad de visión mejorada, conocimiento de desarrollos posteriores a mediados de 2025 — ninguna de ellas aparece aquí.

Bajo el capó

Arquitectónicamente este es el decodificador transformer GPT-5 Mini a una escala de parámetros menor que el base 5.0. El modelo acepta entradas de texto e imagen intercaladas y emite output solo de texto. OpenAI no ha publicado conteos de parámetros.

La tokenización usa el vocabulario BPE estándar de GPT-5. Las entradas de imagen se codifican por mosaicos a un coste de token fijo por mosaico. El corte de entrenamiento aterriza a mediados de 2025. El modelo conoce estándares de lenguaje principales y versiones de frameworks vigentes hasta ese período.

Los perfiles de coste por token y latencia por solicitud están bloqueados en los valores de lanzamiento.

Dónde se sitúa hoy

Frente a las ofertas actuales de nivel pequeño, la instantánea de agosto 2025 de GPT-5 Mini se sitúa muy por debajo de los minis GPT-5 más nuevos en la mayoría de las dimensiones de benchmark. El ranking de inteligencia rastrea la posición comparativa; la brecha con las instantáneas actuales se ha ido ampliando a medida que llegan generaciones más nuevas.

Para cargas de trabajo rutinarias — clasificación básica, extracción simple, output estructurado corto, automatización de servicio al cliente sobre patrones muy transitados — la instantánea continúa haciendo trabajo útil. Para cualquier cosa que requiera conocimiento posterior a mediados de 2025, capacidad de visión reciente, o las mejoras de calidad de los minis más nuevos, el modelo es cada vez más la elección incorrecta.

Para flujos de trabajo de contenido en el extremo muy rutinario y extracción de datos en documentos estándar, la instantánea sigue siendo funcional. Para cargas de trabajo más exigentes, la brecha con los pins más nuevos es visible.

Cuándo mantener este pin en su lugar

Los casos para permanecer en esta instantánea son estrechos y se están reduciendo:

Tienes herramientas downstream estrechamente calibradas contra los patrones de output específicos de este modelo y el coste de migración sigue siendo mayor que el coste acumulado de permanecer.

Estás en un contexto regulado donde este pin específico es parte de un ciclo de auditoría activo y cambiar modelos requiere re-certificación que aún no se ha activado.

Tu carga de trabajo es genuinamente rutinaria y la brecha de calidad con los minis más nuevos no afecta los resultados de ninguna manera que puedas medir.

Estás ejecutando experimentos A/B de larga duración donde el brazo de control necesita permanecer genuinamente fijo durante toda la duración de la prueba, y la prueba aún no ha concluido.

Cuándo migrar ahora

Los disparadores claros:

OpenAI ha publicado el calendario de deprecación para esta instantánea, y la fecha está lo suficientemente cerca como para requerir planificación de migración activa.

Tu carga de trabajo ha crecido para necesitar capacidades que esta generación no tiene — conocimiento posterior al corte, calidad de visión, confiabilidad de output estructurado que los minis más nuevos proporcionan.

Tu arnés de evaluación muestra que la brecha de calidad acumulada está costando resultados significativos — más tickets de soporte, más trabajo de limpieza, más problemas visibles para el cliente.

Estás en un punto de reconstrucción natural en tu pipeline donde el coste de migración es menor de lo habitual.

Elegir el objetivo de migración

Los objetivos naturales son las instantáneas datadas de generaciones Mini más nuevas: 5.2 Mini, 5.4 Mini, 5.5 Mini, o la que sea actual cuando migres. La elección depende de las mismas consideraciones que cualquier elección de Mini: necesidades de capacidad, sensibilidad al coste, disposición a migrar nuevamente más tarde versus fijar el último disponible.

La mayoría de los equipos que migran fuera de esta instantánea terminan en el Mini datado estable más reciente que ha estado en producción el tiempo suficiente para que los parches de vida temprana se hayan asentado. Eso te da las ganancias de calidad de la generación más nueva con la estabilidad operacional de un pin maduro.

El patrón de migración

Fijar la instantánea objetivo en pre-lanzamiento. Ejecutar tus prompts existentes a través de ella. Esperar hacer algún ajuste porque los patrones de output difieren ligeramente entre generaciones. Validar contra tu suite de evaluación. Actualizar el parseo downstream si han cambiado peculiaridades de formato. Cambiar el tráfico de producción. Retirar el pin antiguo.

El proyecto completo generalmente toma algunas semanas-ingeniero para una carga de trabajo de complejidad moderada. Hecho antes de la deprecación, es un proyecto planificado. Hecho bajo presión de plazos, es un simulacro de incendio.

Alternativas

Para cargas de trabajo que necesitan comportamiento de nivel mini fijado en un proveedor diferente, las instantáneas datadas comparables de Anthropic y Google ofrecen el mismo patrón de fijación a ratios coste-calidad potencialmente diferentes.

Para cargas de trabajo optimizadas en coste donde el ecosistema OpenAI no es crítico, clasificadores pequeños de pesos abiertos ejecutándose en tu propia infraestructura proporcionan la historia de residencia y la previsibilidad operacional que los slugs flotantes no pueden.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Comparación de proveedoresLIVE

Comparación de proveedores

Compara cada proveedor de este modelo — coste base, calidad, latencia y disponibilidad.

Azure OpenAI (EU - Sweden)UE

Coste de entrada✓ mejor$0.2500

Coste de salida$2.00

CalidadAún sin probar

Latencia (p50)Aún sin probar

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

OpenAIEE. UU.Esta oferta

Coste de entrada$0.2500

Coste de salida$2.00

Calidad✓ mejor100.0

Latencia (p50)✓ mejor2,427 ms

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

Inteligencia de consenso

TODO EL MODELO

Las señales de consenso son de todo el modelo — todavía no por proveedor.

—

Utilidad del agente (1–10)

—

Puntuación de precisión

Detecciones únicas

Solicitudes validadas

Votos de la comunidadLIVE

Votos de la comunidad

Lo que opinan los visitantes reales — por proveedor.

Azure OpenAI (EU - Sweden)UE

Aún no hay votos de la comunidad.

OpenAIEE. UU.

Aún no hay votos de la comunidad.

Más resultados — por proveedor

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 57%■ Parcial 0%■ Incorrecto 43%

Juegos y arena

Aún sin datos.

Velocidad y salud

2,427 ms

Latencia (p50)

—

Disponibilidad

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 57%■ Parcial 0%■ Incorrecto 43%

Juegos y arena

Aún sin datos.

Velocidad y salud

2,427 ms

Latencia (p50)

—

Disponibilidad

Pregunta y respuesta — explorarLIVE

1 de 80

🧠 inteligenciaOpenAImultilingual · 2026-07-26puntuación: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

%20 indirim demek fiyatın %80'ine düşmesi demektir. 150 × 0,80 = 120 Cevap: 120 TL.

Historial de pruebas — todos los proveedoresLIVE

Puntuación de calidad en el tiempoúltimo 38

Velocidad — latencia p50 en el tiempo

Aparece una tendencia cuando este modelo se ha probado en varios días distintos.

📝Veredicto — resumenLIVE

Quality drops 45 points with factual and reasoning scores falling to zero

🖼️Imagen y explicaciónLIVE

gpt-5-mini-2025-08-07

Capacidades

El argumento de la ventana de deprecación

Lo que captura esta instantánea

Bajo el capó

Dónde se sitúa hoy

Cuándo mantener este pin en su lugar

Cuándo migrar ahora

Elegir el objetivo de migración

El patrón de migración

Alternativas

📊Comparación de proveedoresLIVE

🧠Inteligencia de consenso

👥Votos de la comunidadLIVE

🔬Más resultados — por proveedor

💬Pregunta y respuesta — explorarLIVE

🗂️Historial de pruebas — todos los proveedoresLIVE

Veredicto — resumenLIVE

Imagen y explicaciónLIVE

Comparación de proveedoresLIVE

Inteligencia de consenso

Votos de la comunidadLIVE

Más resultados — por proveedor

Pregunta y respuesta — explorarLIVE

Historial de pruebas — todos los proveedoresLIVE