Tier C — Especialista

Se ejecuta en:USCreado en:United States

$4.40

salida · por 1M de tokens (coste base)

Coste

630 ms

Velocidad de respuesta

Aún sin probar

Inteligencia

Veredicto — resumenLIVE

● LIVE

ahora · 2026-07-26

Quality drops 44 points as factual and reasoning scores fall to zero

✗ Quality dropped 44 points✗ Factual and reasoning at zero✓ Creative score improved to 96✓ Multilingual reaches perfect 100

The o4-mini model has experienced a significant performance degradation in the current benchmark window, with overall quality falling from 93.0 to 48.9 out of 100. The most concerning development is the complete collapse of factual and reasoning capabilities, both now scoring zero compared to their absence from measurement in the previous window. This suggests either newly tested categories exposing critical gaps or actual regression in core competencies. On the positive side, the model maintains exceptional performance in specific areas. Creative tasks score an impressive 96, showing slight improvement from the previous 92. Multilingual capabilities have strengthened to a perfect 100, up from 87. However, coding performance is no longer measured in this window, making direct comparison impossible. Latency has increased modestly from 3887ms to 4098ms at the median, representing a 5.4% slowdown. With only 5 test runs in each window, sample size remains limited for drawing definitive conclusions. Users should be aware that while o4-mini excels at creative and multilingual tasks, it currently shows no measurable capability in factual accuracy or logical reasoning according to these benchmarks. This asymmetric performance profile makes the model suitable only for specific use cases.

Quality

48.9

Latency p50

4,098 ms

Test runs

1 de 10

Imagen y explicaciónLIVE

OpenAI

o4-mini

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

o4-mini es un modelo de lenguaje desarrollado por OpenAI como parte de la familia de la serie o. Esta serie representa un enfoque distinto al de los modelos GPT, ya que incorpora capacidades de razonamiento extendido que permiten al modelo procesar consultas complejas mediante un análisis de varios pasos antes de generar respuestas. La variante o4-mini se posiciona como una versión más compacta dentro de esta línea, diseñada para equilibrar el rendimiento de razonamiento con la eficiencia computacional en aplicaciones que requieren resolución lógica de problemas y tareas analíticas. El modelo admite capacidades estándar de generación de texto y está destinado a casos de uso que involucran razonamiento matemático, asistencia en programación, análisis científico y otros dominios donde el pensamiento sistemático resulta valioso. Si bien OpenAI no ha divulgado públicamente detalles técnicos específicos sobre el recuento de parámetros y la arquitectura, los modelos de la serie o se caracterizan por su capacidad de asignar cómputo adicional durante la inferencia para mejorar la calidad de las respuestas en problemas complejos. El tamaño de la ventana de contexto de o4-mini no ha sido confirmado oficialmente hasta el momento. Dentro del portafolio de modelos de OpenAI, o4-mini ocupa un rol especializado junto a la serie GPT-4. Mientras que los modelos GPT enfatizan una amplia capacidad conversacional y la generación de texto de propósito general, la serie o se centra en tareas que requieren un procesamiento analítico más profundo. La denominación "mini" sugiere que esta variante está optimizada para la accesibilidad y el despliegue práctico, manteniendo a la vez las características centrales de razonamiento de la familia o4, lo que la hace adecuada para desarrolladores que buscan capacidades mejoradas de resolución de problemas sin requerir los recursos completos de variantes de modelos más grandes.

o4-mini es la variante eficiente de la cuarta generación de modelos de razonamiento de OpenAI, diseñada para análisis lógico sin el costo del modelo completo.
— Resumen de benchmark Tokonomix

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 100000

o4-mini: el modelo de razonamiento rentable de OpenAI y sucesor de o3-mini

o4-mini es el modelo que sucedió a o3-mini en la línea de razonamiento de volumen de OpenAI. Mismo patrón arquitectónico de generación basada en razonamiento, mismo posicionamiento amplio de cargas de trabajo, pero con una precisión mediblemente superior y un perfil de latencia ligeramente mejor en los tipos de problemas que anteriormente se ejecutaban en o3-mini. Para equipos que ejecutan flujos de trabajo en producción sobre el mini anterior, este es el objetivo de migración.

Qué obtienes en el nivel mini

o4-mini maneja problemas con forma de razonamiento a un perfil de costes que escala a cargas de trabajo de volumen. Revisión de código a escala, análisis estructurado de documentos, planificación de múltiples pasos sobre restricciones moderadamente complejas, extracción de cláusulas contractuales, clasificación de literatura científica. El mini cubre todo esto cómodamente y a un coste por llamada que hace que los despliegues de alto rendimiento sean económicamente viables.

El paso de razonamiento sigue ocurriendo. Sigues pagando por tokens de razonamiento. El modelo sigue tardando más que un modelo reflexivo en producir una respuesta. Lo que sacrificas en el nivel mini comparado con el o3 completo o la frontera de razonamiento más reciente es cierta precisión en los problemas absolutamente más difíciles y cierta amplitud en el espacio de soluciones candidatas que el modelo puede explorar antes de comprometerse con una respuesta.

Para la mayoría de cargas de trabajo de razonamiento este intercambio es favorable. La mayoría de los problemas no requieren el techo de capacidad absoluto. Requieren deliberación que capture el tipo de error que un modelo reflexivo enviaría, y lo requieren a un coste que escale a miles de consultas por hora. El nivel mini está construido para esa forma de trabajo.

La capacidad de contexto largo se mantiene. o4-mini maneja bien cargas de trabajo de razonamiento sobre documentos largos, aunque la especificación exacta de la ventana de contexto no siempre está documentada de forma prominente. Para análisis de documentos largos en el nivel mini, esta es la herramienta correcta.

Dónde funciona

Ingeniería de software a dificultad moderada. Revisión de código, asistencia en refactorización, ayuda de depuración donde el problema está uno o dos pasos alejado del síntoma. o4-mini captura suficientes errores para ser una capa útil de programación en pareja sin el coste de ejecutar o3 completo para cada consulta.

Análisis de documentos a volumen. Pipelines de revisión de contratos, clasificación de presentaciones regulatorias, selección de artículos de investigación. El paso de razonamiento añade suficiente deliberación para capturar el tipo de error que el reconocimiento de patrones pasaría por alto, a un coste unitario que hace el despliegue económicamente viable.

Cargas de trabajo de planificación estructurada. Asignación de recursos bajo restricciones moderadas, problemas de programación, árboles de decisión de múltiples pasos. El mini maneja estos bien siempre que las restricciones no interactúen de las formas más complejas, donde el o3 completo comienza a destacar notablemente.

Objetivo de migración desde o3-mini. La razón más común por la que los equipos están eligiendo o4-mini hoy es para migrar desde o3-mini antes de su precipicio de depreciación. La migración es directa en superficie de API y generalmente favorable en comportamiento, aunque merece una revalidación adecuada.

Dónde falla

Los problemas absolutamente más difíciles en la frontera de razonamiento. Para estos, el o3 completo o su instantánea fechada o3-2025-04-16 destacan mediblemente. El nivel mini nunca fue diseñado para competir en la frontera; fue diseñado para llevar razonamiento útil al trabajo de volumen.

Aplicaciones interactivas en tiempo real. La latencia de razonamiento hace que el mini sea incompatible con UX de chat que necesita respuestas por debajo del segundo. Usa modelos reflexivos para esas cargas de trabajo y reserva el mini para trabajo de razonamiento asíncrono.

Resumen y extracción simples. El cómputo de razonamiento se desperdicia en tareas que no lo necesitan. Usa modelos reflexivos para estas cargas de trabajo donde el coste por llamada importa más que la profundidad de razonamiento.

Escritura creativa donde el flujo importa. El mini produce prosa cuidadosa y correcta con el efecto plano típico de los modelos de razonamiento. Los modelos reflexivos a menudo producen salida creativa más viva.

Elegirlo o subir de nivel

Para nuevas construcciones en el nivel de razonamiento, o4-mini es el predeterminado correcto en el nivel de volumen. La instantánea fechada o4-mini-2025-04-16 es la versión a fijar para flujos de trabajo regulados o reproducibilidad en producción.

Para cargas de trabajo que necesitan razonamiento genuinamente de frontera, el o3 completo es la ruta de actualización. Para los problemas más difíciles donde quieres máxima precisión independientemente del coste, o1-pro y su instantánea fechada siguen disponibles en la configuración de razonamiento extendido de la generación o1.

Para flujos de trabajo de investigación que necesitan navegación e integración de fuentes externas junto con razonamiento, o4-mini-deep-research y o4-mini-deep-research-2025-06-26 son las variantes dedicadas en modo investigación. Estas abordan una forma de carga de trabajo para la que el o4-mini estándar no es exactamente la herramienta adecuada.

Para flujos de trabajo que migran desde o3-mini, la cuestión de planificación es de tiempo más que de capacidad. Configura evaluación paralela contra o4-mini, documenta las diferencias en tu carga de trabajo, y realiza el cambio antes del precipicio de depreciación de o3-mini. La migración es generalmente favorable pero merece validación adecuada en lugar de una actualización ciega de sustitución directa.

La residencia de datos en la UE no se satisface por defecto en ninguno de los endpoints de razonamiento de OpenAI. El patrón de gateway regional sigue siendo la solución alternativa para despliegues europeos regulados.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Comparación de proveedoresLIVE

Comparación de proveedores

Compara cada proveedor de este modelo — coste base, calidad, latencia y disponibilidad.

Azure OpenAI (EU - Sweden)UE

Coste de entrada✓ mejor$1.10

Coste de salida$4.40

CalidadAún sin probar

Latencia (p50)Aún sin probar

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

OpenAIEE. UU.Esta oferta

Coste de entrada$1.10

Coste de salida$4.40

CalidadAún sin probar

Latencia (p50)✓ mejor630 ms

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

Inteligencia de consenso

TODO EL MODELOINACTIVO

Las señales de consenso son de todo el modelo — todavía no por proveedor.

El scoring de consenso aún recopila datos para este modelo — todavía sin señales.

Votos de la comunidadLIVE

Votos de la comunidad

Lo que opinan los visitantes reales — por proveedor.

Azure OpenAI (EU - Sweden)UE

Aún no hay votos de la comunidad.

OpenAIEE. UU.

Aún no hay votos de la comunidad.

Más resultados — por proveedor

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 76%■ Parcial 0%■ Incorrecto 24%

Juegos y arena

Aún sin datos.

Velocidad y salud

630 ms

Latencia (p50)

—

Disponibilidad

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 76%■ Parcial 0%■ Incorrecto 24%

Juegos y arena

Aún sin datos.

Velocidad y salud

630 ms

Latencia (p50)

—

Disponibilidad

Pregunta y respuesta — explorarLIVE

1 de 80

🧠 inteligenciaOpenAImultilingual · 2026-07-26puntuación: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

150 TL’lik ürünün %20’si = 150 × 0,20 = 30 TL İndirimli fiyatı = 150 – 30 = 120 TL

Historial de pruebas — todos los proveedoresLIVE

Puntuación de calidad en el tiempoúltimo 58

Velocidad — latencia p50 en el tiempoúltimo 584 ms

📝Veredicto — resumenLIVE

Quality drops 44 points as factual and reasoning scores fall to zero

🖼️Imagen y explicaciónLIVE

o4-mini

Capacidades

Qué obtienes en el nivel mini

Dónde funciona

Dónde falla

Elegirlo o subir de nivel

📊Comparación de proveedoresLIVE

🧠Inteligencia de consenso

👥Votos de la comunidadLIVE

🔬Más resultados — por proveedor

💬Pregunta y respuesta — explorarLIVE

🗂️Historial de pruebas — todos los proveedoresLIVE

Veredicto — resumenLIVE

Imagen y explicaciónLIVE

Comparación de proveedoresLIVE

Inteligencia de consenso

Votos de la comunidadLIVE

Más resultados — por proveedor

Pregunta y respuesta — explorarLIVE

Historial de pruebas — todos los proveedoresLIVE