Tier B — Producción

Se ejecuta en:USCreado en:United States

$4.40

salida · por 1M de tokens (coste base)

Coste

2,161 ms

Velocidad de respuesta

100 / 100

Inteligencia

Veredicto — resumenLIVE

● LIVE

ahora · 2026-07-26

o4-mini suffers major quality collapse in factual and reasoning tasks

✗ Quality dropped 50 points✗ Factual and reasoning scores zero✓ Creative performance remains strong✓ Multilingual capability at 100

The o4-mini model has experienced a severe degradation in performance, with overall quality plummeting from 99.3 to 49.4 across the benchmark window. Most alarming is the complete failure in factual and reasoning categories, both scoring zero compared to previous strong performance. This represents a fundamental regression in core capabilities that previously defined the model's value proposition. Creative and multilingual capabilities remain intact, with creative tasks scoring 98 and multilingual achieving a perfect 100. The coding category, previously at 100, is no longer being measured in the current window. Latency has increased modestly from 3945ms to 4477ms at the median, suggesting potential infrastructure changes alongside the quality issues. This dramatic shift indicates either a problematic deployment, a flawed model update, or significant changes to the underlying architecture that have compromised reasoning abilities. Users relying on factual accuracy or logical reasoning should exercise extreme caution with this version until the issues are resolved. The consistency of creative and multilingual performance suggests the problems are specific to analytical capabilities rather than a complete system failure.

Quality

49.4

Latency p50

4,477 ms

Test runs

1 de 11

Imagen y explicaciónLIVE

OpenAI

o4-mini-2025-04-16

Tier B — Producción

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

o4-mini-2025-04-16 es un modelo de generación de texto desarrollado por OpenAI, lanzado en abril de 2025 como parte de la familia de la serie o. Este modelo representa una variante compacta dentro de la línea enfocada en razonamiento de OpenAI, diseñada para equilibrar un desempeño competente con una mayor eficiencia. Admite tareas estándar de generación de texto, incluyendo respuesta a preguntas, creación de contenido, análisis y aplicaciones conversacionales generales. El tamaño de la ventana de contexto no ha sido divulgado públicamente por OpenAI hasta el momento. Los modelos de la serie o se distinguen por una arquitectura que enfatiza capacidades extendidas de razonamiento, permitiendo enfoques más deliberados para la resolución de problemas en comparación con los modelos de lenguaje autorregresivos tradicionales. La designación "mini" indica que se trata de una versión más pequeña y eficiente en recursos frente a los modelos completos de la serie o, lo que la hace adecuada para aplicaciones donde las restricciones de despliegue o la latencia de respuesta son factores relevantes. A pesar de su tamaño reducido, o4-mini conserva la metodología central de razonamiento que caracteriza a la familia de la serie o. Dentro de la línea de modelos de OpenAI, o4-mini-2025-04-16 se ubica por debajo de modelos insignia como GPT-4 y variantes mayores de la serie o en términos de escala y capacidad, aunque ofrece ventajas en eficiencia operativa. Se posiciona como una opción para desarrolladores y organizaciones que buscan modelos con capacidad de razonamiento sin la carga computacional de sistemas más grandes. El modelo sigue la convención de versionado por fechas de OpenAI, donde la marca temporal indica su punto específico de lanzamiento y consideraciones sobre el corte de datos de entrenamiento.

Prueba o4-mini-2025-04-16 con tus propias preguntas

o4-mini de abril 2025 es el snapshot de lanzamiento del modelo de razonamiento eficiente de cuarta generación de OpenAI.
— Resumen de benchmark Tokonomix

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 100000

o4-mini-2025-04-16: la instantánea de producción de abril de 2025 del modelo de razonamiento de volumen de OpenAI

El alias fechado de abril de 2025 de o4-mini captura la instantánea del modelo de razonamiento de nivel volumen de OpenAI tal como se desplegó para uso en producción general. Es la versión que debe fijarse para flujos de trabajo regulados, requisitos de trazabilidad de auditoría, o despliegues en producción donde el alias flotante o4-mini que avanza podría interrumpir flujos de trabajo validados que dependen de un comportamiento de razonamiento consistente.

Qué representa esta instantánea

La instantánea de abril es o4-mini en el momento de su lanzamiento en producción general, sucediendo a la familia o3-mini obsoleta como opción de razonamiento de nivel volumen de OpenAI. El conjunto de capacidades es lo que describe la página flotante de o4-mini: generación con prioridad en razonamiento en el nivel mini con mejor precisión que el o3-mini obsoleto, perfil de costos que escala a cargas de trabajo de volumen, perfil de latencia que se sitúa entre los modelos reflex y el o3 completo.

Esta es la instantánea fechada a la que la mayoría de los despliegues de producción que ejecutan o4-mini están realmente fijados, particularmente aquellos que migraron desde o3-mini aproximadamente en la misma época. Si tu aplicación está en producción estable en o4-mini y funciona bien, es probable que esta sea la instantánea que está ejecutando.

Fijar una versión importa más para los modelos de razonamiento que para los modelos reflex. El paso de razonamiento es sensible a los pesos exactos y a las decisiones en tiempo de entrenamiento sobre cómo asignar el presupuesto de razonamiento. Un cambio sutil en la distribución de cadena de pensamiento entre instantáneas puede cambiar qué problemas resuelve correctamente el modelo, incluso si la precisión promedio se mantiene estable o mejora. Para flujos de trabajo donde has validado empíricamente que o4-mini maneja tu clase de problema específica, la instantánea fechada es el contrato que protege ese comportamiento validado.

Cuándo tiene sentido fijar esta instantánea

Flujos de trabajo regulados donde las pistas de auditoría requieren reproducibilidad exacta de las salidas del modelo durante largos períodos de tiempo. Tecnología legal, servicios financieros y aplicaciones científicas donde los pasos de razonamiento importan para revisión posterior o reproducibilidad metodológica. Despliegues de producción que manejan volúmenes de tráfico altos donde un cambio de comportamiento en el modelo subyacente podría afectar a decenas de miles de usuarios antes de que lo notes.

Para trabajo exploratorio y construcción de prototipos, el o4-mini flotante es la elección correcta. Fija versión solo cuando la estabilidad de producción o los requisitos de cumplimiento justifiquen la sobrecarga de mantenimiento de revalidar migraciones de instantáneas según un calendario.

La cuestión de migración desde esta instantánea a un futuro modelo de razonamiento más nuevo no es trivial. El comportamiento de razonamiento puede cambiar de maneras que afectan qué problemas resuelve el modelo. Planifica trabajo de revalidación, no una actualización directa. Para flujos de trabajo que han estado en esta instantánea durante muchos meses y que ahora enfrentan un eventual lanzamiento de modelo sucesor, el patrón operativo es configurar evaluación paralela inmediatamente y documentar las diferencias antes de que la presión de obsolescencia fuerce la migración.

Donde no funciona bien

Los mismos límites que se aplican al o4-mini flotante se aplican aquí. Los problemas absolutamente más difíciles en la frontera del razonamiento requieren el o3-2025-04-16 completo o niveles superiores. Las aplicaciones interactivas en tiempo real son incompatibles con la latencia de razonamiento. La resumición y extracción simples desperdician el cómputo de razonamiento. La escritura creativa produce la prosa plana y cuidadosa típica de los modelos de razonamiento.

Esta instantánea no cambia el conjunto fundamental de capacidades. Es un ancla de estabilidad, no un diferenciador de rendimiento respecto al alias flotante tal como existía en abril de 2025. Si el o4-mini flotante desde entonces se ha movido a pesos más nuevos con características diferentes, la comparación entre esta instantánea y el nombre flotante hoy es significativa para la planificación de migración.

Notas prácticas y qué más considerar

Para cargas de trabajo que necesitan mayor precisión de la que entrega el nivel mini, o3 y o3-2025-04-16 son la actualización de nivel completo. Para los problemas más difíciles donde deseas máxima precisión sin importar el costo, o1-pro y o1-pro-2025-03-19 son las variantes de razonamiento extendido de generación o1 que aún están disponibles.

Para flujos de trabajo de investigación que necesitan integración de fuentes externas junto con razonamiento, o4-mini-deep-research y o4-mini-deep-research-2025-06-26 son las variantes dedicadas de modo investigación en la misma generación que esta instantánea.

Para cargas de trabajo que migran desde o3-mini-2025-01-31, esta instantánea es el sucesor natural. La migración es directa en la superficie de API y generalmente favorable en comportamiento, pero amerita evaluación adecuada contra tu corpus de prueba específico en lugar de un cambio ciego.

La residencia de datos en la UE no se satisface por defecto en esta instantánea ni en ninguno de los endpoints de razonamiento relacionados de OpenAI. El patrón de gateway regional con acuerdos de procesamiento de datos sigue siendo la solución práctica para despliegues europeos regulados. La línea de tiempo de obsolescencia de alias fechados para instantáneas de o4-mini no se ha publicado en detalle, pero el patrón operativo de planificar revalidación al menos cada doce meses sigue aplicando. Quedarse atrás por varias generaciones de instantáneas convierte el mantenimiento rutinario en una migración más arriesgada cuando llega la eventual obsolescencia.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Comparación de proveedoresLIVE

Comparación de proveedores

Compara cada proveedor de este modelo — coste base, calidad, latencia y disponibilidad.

Azure OpenAI (EU - Sweden)UE

Coste de entrada✓ mejor$1.10

Coste de salida$4.40

CalidadAún sin probar

Latencia (p50)Aún sin probar

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

OpenAIEE. UU.Esta oferta

Coste de entrada$1.10

Coste de salida$4.40

Calidad✓ mejor100.0

Latencia (p50)✓ mejor2,161 ms

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

Inteligencia de consenso

TODO EL MODELOINACTIVO

Las señales de consenso son de todo el modelo — todavía no por proveedor.

El scoring de consenso aún recopila datos para este modelo — todavía sin señales.

Votos de la comunidadLIVE

Votos de la comunidad

Lo que opinan los visitantes reales — por proveedor.

Azure OpenAI (EU - Sweden)UE

Aún no hay votos de la comunidad.

OpenAIEE. UU.

Aún no hay votos de la comunidad.

Más resultados — por proveedor

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 81%■ Parcial 0%■ Incorrecto 19%

Juegos y arena

Aún sin datos.

Velocidad y salud

2,161 ms

Latencia (p50)

—

Disponibilidad

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 81%■ Parcial 0%■ Incorrecto 19%

Juegos y arena

Aún sin datos.

Velocidad y salud

2,161 ms

Latencia (p50)

—

Disponibilidad

Pregunta y respuesta — explorarLIVE

1 de 80

🧠 inteligenciaOpenAImultilingual · 2026-07-26puntuación: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

Ürünün indirimi: İndirim miktarı = 150 TL × %20 = 150 × 0,20 = 30 TL İndirimli fiyat = 150 TL − 30 TL = 120 TL

Historial de pruebas — todos los proveedoresLIVE

Puntuación de calidad en el tiempoúltimo 59

Velocidad — latencia p50 en el tiempo

Aparece una tendencia cuando este modelo se ha probado en varios días distintos.

📝Veredicto — resumenLIVE

o4-mini suffers major quality collapse in factual and reasoning tasks

🖼️Imagen y explicaciónLIVE

o4-mini-2025-04-16

Capacidades

Qué representa esta instantánea

Cuándo tiene sentido fijar esta instantánea

Donde no funciona bien

Notas prácticas y qué más considerar

📊Comparación de proveedoresLIVE

🧠Inteligencia de consenso

👥Votos de la comunidadLIVE

🔬Más resultados — por proveedor

💬Pregunta y respuesta — explorarLIVE

🗂️Historial de pruebas — todos los proveedoresLIVE

Veredicto — resumenLIVE

Imagen y explicaciónLIVE

Comparación de proveedoresLIVE

Inteligencia de consenso

Votos de la comunidadLIVE

Más resultados — por proveedor

Pregunta y respuesta — explorarLIVE

Historial de pruebas — todos los proveedoresLIVE