Tier C — Especialista

Se ejecuta en:USCreado en:United States

$4.40

salida · por 1M de tokens (coste base)

Coste

1,738 ms

Velocidad de respuesta

100 / 100

Inteligencia

Veredicto — resumenLIVE

● LIVE

ahora · 2026-07-26

o3-mini quality drops 46 points with reasoning scores falling to zero

✗ Quality dropped 46 points✗ Reasoning performance collapsed to zero✗ Factual accuracy degraded significantly✓ Latency improved slightly

The o3-mini model has experienced a significant performance decline in this benchmark window, with overall quality dropping from 99.3 to 53.4 points. The most concerning change is the reasoning category scoring zero, compared to strong performance in the previous window. Factual accuracy has also degraded substantially to just 22 points. However, the model maintains exceptional multilingual capabilities at 100 points and continues to deliver strong creative performance at 92 points. Response latency has actually improved slightly from 3360ms to 3147ms at the median, suggesting the performance issues are quality-related rather than infrastructure problems. The test methodology remains consistent with five runs in each window. Users relying on this model for reasoning tasks or factual question-answering should exercise caution and validate outputs carefully. The dramatic shift in capability distribution suggests potential changes to the model deployment, configuration, or underlying weights. Creative and multilingual use cases appear largely unaffected and may continue to perform reliably. OpenAI has not publicly addressed these benchmark changes at the time of this verdict.

Quality

53.4

Latency p50

3,147 ms

Test runs

1 de 11

Imagen y explicaciónLIVE

OpenAI

o3-mini-2025-01-31

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

o3-mini-2025-01-31 es un modelo de lenguaje orientado al razonamiento desarrollado por OpenAI, lanzado en enero de 2025 como parte de la serie de modelos o3. Representa una variante compacta diseñada para equilibrar capacidades avanzadas de razonamiento con mayor eficiencia en comparación con modelos más grandes de la misma familia. El modelo emplea computación extendida en tiempo de inferencia, lo que le permite dedicar ciclos adicionales de procesamiento a problemas complejos antes de generar respuestas. Esta arquitectura lo hace particularmente adecuado para tareas que requieren razonamiento lógico de múltiples pasos, resolución de problemas matemáticos y generación de código. El modelo se basa en el marco de razonamiento introducido con los modelos de la serie o de OpenAI, que enfatizan la resolución deliberativa de problemas por encima de la generación inmediata de respuestas. Aunque los detalles técnicos específicos sobre el recuento de parámetros y la arquitectura no han sido revelados, o3-mini se posiciona como una alternativa más accesible al modelo o3 completo, ofreciendo un sólido rendimiento en pruebas de razonamiento mientras requiere menos recursos computacionales. El tamaño de su ventana de contexto no ha sido especificado públicamente por OpenAI al momento del lanzamiento. Dentro de la línea de modelos de OpenAI, o3-mini-2025-01-31 se sitúa junto a otros modelos orientados al razonamiento como una opción más ligera para aplicaciones donde la calidad del razonamiento es prioritaria pero las restricciones de recursos son una consideración. Está dirigido a casos de uso que incluyen asistencia en desarrollo de software, razonamiento científico, computación matemática y tareas analíticas estructuradas. El modelo admite capacidades estándar de generación de texto mientras mantiene el enfoque de razonamiento en cadena característico de la serie o3, haciéndolo adecuado tanto para aplicaciones de propósito general como para cargas de trabajo de razonamiento especializadas.

Prueba o3-mini-2025-01-31 con tus propias preguntas

o3-mini-2025-01-31 representa el esfuerzo de OpenAI por democratizar el razonamiento avanzado, ofreciendo capacidades deliberativas en un paquete más eficiente que sus hermanos mayores de la serie o3.
— Análisis Tokonomix, enero 2025

Capacidades

toolssource: litellmjson modereasoningjson schemaprompt cachingmax output tokens: 100000

⚠️ Modelo obsoleto. OpenAI lo ha reemplazado con o4-mini (abril 2025), que ofrece precisión de razonamiento mejorada a coste similar. Los proyectos nuevos deben usar o4-mini directamente. Las integraciones existentes de o3-mini deben planificar la migración antes de que el endpoint de la API sea descontinuado.

o3-mini-2025-01-31: la instantánea fechada del modelo de razonamiento de nivel volumen obsoleto de OpenAI

El alias fechado de enero de 2025 de o3-mini captura la instantánea que fijó el comportamiento de producción del primer modelo de razonamiento de nivel volumen de OpenAI. Con o3-mini ahora obsoleto en favor de o4-mini, esta instantánea cumple un propósito limitado pero real: un ancla de estabilidad para flujos de trabajo de producción ejecutándose en o3-mini que necesitan mantener comportamiento consistente durante su ventana de migración hacia el sucesor.

Qué representa esta instantánea

La instantánea de enero es o3-mini tal como se distribuyó para uso estable en producción. El conjunto de capacidades es lo que describe la página flotante de o3-mini: generación centrada en razonamiento en el nivel mini, ventana de contexto de 200,000 tokens, perfil de costes que escalaba a cargas de trabajo de volumen, precisión que se situaba por debajo del o3 completo pero por encima de lo que los modelos reflex podían entregar en problemas orientados al razonamiento.

Para equipos ejecutando despliegues de producción calibrados contra esta instantánea, el alias fechado ha sido el anclaje seguro mientras los mensajes del ciclo de vida de OpenAI sobre o3-mini se estabilizaban. Ahora que la obsolescencia en favor de o4-mini está anunciada, la instantánea anclada sirve a la ventana de migración en lugar de a la estabilidad de producción a largo plazo.

El contrato de anclaje sigue vigente. Los pesos de la instantánea de enero no cambiarán, y el comportamiento del modelo no cambiará por debajo de ti. Lo que sí cambia es la línea temporal de disponibilidad del endpoint. Una vez que OpenAI descontinúe el endpoint de o3-mini, el alias fechado desaparecerá con él. Planifica la migración a o4-mini antes de ese límite abrupto.

La ventana de migración

Para despliegues de producción ejecutándose en o3-mini-2025-01-31, el objetivo de migración es o4-mini en el alias flotante o o4-mini-2025-04-16 en la instantánea fechada. La migración es directa en la superficie de la API. Ambos modelos comparten la misma forma de petición y respuesta, por lo que el código de integración no cambia.

Los deltas de comportamiento son reales pero generalmente favorables. o4-mini fue entrenado para mejorar los puntos débiles específicos de o3-mini: mejor precisión en síntesis de código compleja, rendimiento más confiable en razonamiento de múltiples pasos bajo restricciones interactuantes, y un perfil de latencia ligeramente mejor en promedio. La mayoría de las cargas de trabajo ven mejoras en lugar de regresiones cuando realizan la transición.

Los patrones de prompts que fueron ajustados a la distribución de razonamiento específica de o3-mini pueden necesitar ajustes para obtener resultados equivalentes en o4-mini. Planifica una pista de evaluación paralela donde ejecutes tu corpus de prueba contra ambos modelos, documentes los deltas y realices la transición cuando los deltas sean aceptables. No asumas que la migración es gratuita aunque la superficie de la API sea idéntica.

La línea temporal de obsolescencia no ha sido publicada en detalle preciso. El patrón de OpenAI con modelos de razonamiento obsoletos ha sido una ventana de descontinuación de varios meses con aviso explícito anticipado. Incorpora la migración en tu calendario de lanzamientos en lugar de esperar el aviso de obsolescencia.

Dónde falla y qué nunca fue

Las mismas limitaciones que se aplicaban a o3-mini se aplican a esta instantánea. Las aplicaciones conversacionales en tiempo real encajan mal porque la latencia de razonamiento es incompatible con la UX de chat. La resumición y extracción simples desperdician el cómputo de razonamiento. La escritura creativa produce prosa plana y cautelosa sin estilo.

Dentro del nivel de razonamiento, esta instantánea nunca fue la opción de máxima precisión. El o3 completo o o1-pro y sus instantáneas fechadas eran las variantes para los problemas más difíciles. El nivel mini era el nivel económicamente viable para volumen, nunca el nivel de precisión frontera.

Para flujos de trabajo que han crecido más allá del conjunto de capacidades del nivel mini durante el tiempo en esta instantánea, el objetivo de migración puede situarse por encima de o4-mini en un nivel superior en lugar de en el mismo nivel de volumen. o3-2025-04-16 es la instantánea fechada del o3 completo si tu carga de trabajo ahora justifica el mayor coste para mejor precisión. Ejecuta la comparación apropiadamente en lugar de optar por defecto por la migración de mismo nivel.

Notas prácticas

El patrón operacional para la gestión de instantáneas durante una ventana de obsolescencia es establecer evaluación paralela contra el modelo sucesor inmediatamente, documentar los deltas de comportamiento a través de tu corpus completo de pruebas y realizar la transición en un lanzamiento planificado en lugar de bajo presión de fecha límite de obsolescencia. Para múltiples flujos de trabajo de producción anclados a instantáneas obsoletas, prioriza las migraciones por riesgo de carga de trabajo e impacto en ingresos en lugar de procesarlas en orden aleatorio.

Para flujos de trabajo de investigación que necesitan integración de fuentes externas junto con razonamiento, o4-mini-deep-research es la variante dedicada al modo investigación en la generación o4. Esto aborda cargas de trabajo para las que o3-mini a veces era forzado a manejar pero para las que realmente no estaba bien adaptado.

La residencia de datos en la UE no se satisface por defecto en esta instantánea ni en ninguno de los endpoints de razonamiento relacionados de OpenAI. El patrón de gateway regional sigue siendo la solución práctica para despliegues europeos regulados, y esa restricción no cambia con la migración a o4-mini.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Comparación de proveedoresLIVE

Comparación de proveedores

Compara cada proveedor de este modelo — coste base, calidad, latencia y disponibilidad.

Azure OpenAI (EU - Sweden)UE

Coste de entrada✓ mejor$1.10

Coste de salida$4.40

CalidadAún sin probar

Latencia (p50)Aún sin probar

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

OpenAIEE. UU.Esta oferta

Coste de entrada$1.10

Coste de salida$4.40

Calidad✓ mejor100.0

Latencia (p50)✓ mejor1,738 ms

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

Inteligencia de consenso

TODO EL MODELOINACTIVO

Las señales de consenso son de todo el modelo — todavía no por proveedor.

El scoring de consenso aún recopila datos para este modelo — todavía sin señales.

Votos de la comunidadLIVE

Votos de la comunidad

Lo que opinan los visitantes reales — por proveedor.

Azure OpenAI (EU - Sweden)UE

Aún no hay votos de la comunidad.

OpenAIEE. UU.

Aún no hay votos de la comunidad.

Más resultados — por proveedor

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 86%■ Parcial 5%■ Incorrecto 10%

Juegos y arena

Aún sin datos.

Velocidad y salud

1,738 ms

Latencia (p50)

—

Disponibilidad

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 86%■ Parcial 5%■ Incorrecto 10%

Juegos y arena

Aún sin datos.

Velocidad y salud

1,738 ms

Latencia (p50)

—

Disponibilidad

Pregunta y respuesta — explorarLIVE

1 de 80

🧠 inteligenciaOpenAImultilingual · 2026-07-26puntuación: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

Ürünün orijinal fiyatı 150 TL'dir. %20 indirim uygulandığında: İndirim miktarı = 150 TL × 0.20 = 30 TL Dolayısıyla, indirimli fiyat = 150 TL - 30 TL = 120 TL Sonuç olarak ürün 120 TL olur.

Historial de pruebas — todos los proveedoresLIVE

Puntuación de calidad en el tiempoúltimo 61

Velocidad — latencia p50 en el tiempo

Aparece una tendencia cuando este modelo se ha probado en varios días distintos.

📝Veredicto — resumenLIVE

o3-mini quality drops 46 points with reasoning scores falling to zero

🖼️Imagen y explicaciónLIVE

o3-mini-2025-01-31

Capacidades

Qué representa esta instantánea

La ventana de migración

Dónde falla y qué nunca fue

Notas prácticas

📊Comparación de proveedoresLIVE

🧠Inteligencia de consenso

👥Votos de la comunidadLIVE

🔬Más resultados — por proveedor

💬Pregunta y respuesta — explorarLIVE

🗂️Historial de pruebas — todos los proveedoresLIVE

Veredicto — resumenLIVE

Imagen y explicaciónLIVE

Comparación de proveedoresLIVE

Inteligencia de consenso

Votos de la comunidadLIVE

Más resultados — por proveedor

Pregunta y respuesta — explorarLIVE

Historial de pruebas — todos los proveedoresLIVE