Tier C — Especialista

Se ejecuta en:USCreado en:United States

$4.40

salida · por 1M de tokens (coste base)

Coste

557 ms

Velocidad de respuesta

Aún sin probar

Inteligencia

Veredicto — resumenLIVE

● LIVE

ahora · 2026-07-26

o3-mini shows quality decline and factual performance drop

✗ Quality dropped 8.2 points✗ Factual performance collapsed to 2/100✗ Latency increased 15 percent✓ Multilingual stability maintained at 100

The o3-mini model experienced a notable quality decline in this benchmark window, with the overall score dropping 8.2 points from 66.2 to 58.0. The most concerning change is in factual performance, which collapsed from its previous level to just 2 out of 100, indicating significant reliability issues with fact-based queries. This represents a critical weakness that users should be aware of when deploying the model for knowledge-intensive tasks. On the positive side, multilingual capabilities remained strong at 100, maintaining consistency across both benchmark windows. Creative and reasoning tasks both scored 65, showing moderate competency in these areas. The emergence of category scores for creative and reasoning tasks, replacing the previous coding score of 99, suggests either a shift in test methodology or model capabilities. Latency increased from 3108ms to 3569ms at the median, representing a 15% slowdown that may impact user experience in latency-sensitive applications. With only five test runs in each window, these results provide an early signal of performance characteristics but should be validated with additional testing. Users requiring factual accuracy should exercise particular caution with this version.

Quality

58.0

Latency p50

3,569 ms

Test runs

1 de 11

Imagen y explicaciónLIVE

OpenAI

o3-mini

Tier C — Especialista · 200K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

o3-mini es un modelo de lenguaje centrado en el razonamiento desarrollado por OpenAI como parte de la familia de la serie o. Está diseñado para abordar tareas analíticas complejas que requieren razonamiento de varios pasos, como la resolución de problemas matemáticos, la generación de código, el análisis científico y la toma de decisiones estructurada. A diferencia de los modelos optimizados principalmente para la velocidad o la fluidez conversacional, o3-mini prioriza procesos de razonamiento deliberados, lo que lo hace especialmente adecuado para aplicaciones donde la precisión y la coherencia lógica son fundamentales. El modelo admite una ventana de contexto de 200,000 tokens, lo que le permite procesar y mantener la coherencia en documentos extensos, bases de código largas o interacciones de varios turnos con una retención sustancial del contexto. Ofrece capacidades estándar de generación de texto mientras aplica técnicas de aprendizaje por refuerzo para mejorar su desempeño en razonamiento. Este enfoque permite al modelo descomponer problemas, evaluar pasos intermedios y llegar a conclusiones bien fundamentadas en diversos dominios. Dentro de la línea de modelos de OpenAI, o3-mini ocupa una posición como modelo de razonamiento compacto, ofreciendo un equilibrio entre las exigencias computacionales de los sistemas de razonamiento más grandes y la accesibilidad de los modelos más pequeños. Está destinado a usuarios que requieren capacidades de razonamiento sin la carga de recursos de los modelos completos de la serie o. El modelo está orientado a desarrolladores, investigadores y organizaciones que buscan un rendimiento confiable en tareas que se benefician del pensamiento estructurado en lugar de resultados puramente generativos o conversacionales.

o3-mini lleva las capacidades de razonamiento extendido de la serie o3 a un modelo más eficiente, con 200K tokens de contexto y menor costo computacional.
— Resumen de benchmark Tokonomix

Capacidades

toolssource: litellmjson modereasoningjson schemaprompt cachingmax output tokens: 100000

⚠️ Modelo obsoleto. OpenAI lo ha reemplazado con o4-mini (abril de 2025), que ofrece mayor precisión de razonamiento a un coste similar. Los proyectos nuevos deberían orientarse directamente a o4-mini. Las integraciones existentes de o3-mini deberían planificar la migración antes de que el endpoint de la API quede desactivado.

o3-mini: el modelo de razonamiento económico que introdujo la deliberación por niveles de volumen

o3-mini fue el modelo que hizo viable la generación de estilo razonamiento a gran volumen. Mientras que o1 y o3 demostraron lo que la cadena de pensamiento extendida podía lograr en la frontera tecnológica, o3-mini fue la variante que aportó una fracción sustancial de esa profundidad de razonamiento a cargas de trabajo donde el coste por llamada dominaba. Ahora está obsoleto en favor de o4-mini, pero comprender qué hizo y dónde encaja en el linaje importa para los equipos que planifican la migración desde integraciones existentes de o3-mini.

Qué hizo o3-mini de manera diferente

La variante mini mantuvo el patrón de generación con razonamiento primero del modelo o3 más grande, pero con un presupuesto de parámetros menor y un presupuesto de razonamiento más ajustado por prompt. El intercambio fue directo: precisión algo reducida en los problemas más difíciles, a cambio de un perfil de costes que escalaba a cargas de trabajo de volumen de una manera que el o3 completo no podía hacer.

Para la mayor parte de las cargas de trabajo de razonamiento que no requerían el techo de capacidad absoluto, o3-mini era el nivel adecuado. Revisión de código, tareas de análisis estructurado, planificación multietapa sobre conjuntos de restricciones moderadamente complejos, extracción de cláusulas contractuales, clasificación de literatura científica. Todas estas funcionaban bien en la variante mini a un coste unitario que hacía que el despliegue fuera económicamente viable.

La ventana de contexto de 200.000 tokens se heredó del modelo padre, lo que importaba para flujos de trabajo con documentos largos donde la entrada podía ser sustancial. Mini no renunció a la capacidad de contexto largo; renunció a cierta profundidad de razonamiento a cambio de eficiencia de costes.

El perfil de latencia se situaba entre los modelos reflex y el o3 completo. Más rápido que o3 porque había menos cómputo de razonamiento que gastar, pero aún mediblemente más lento que los modelos reflex de clase GPT-4o porque el paso de razonamiento seguía ocurriendo.

Por qué quedó obsoleto

OpenAI reemplazó o3-mini con o4-mini en abril de 2025. El sucesor ofreció mejor precisión en las mismas cargas de trabajo a un coste comparable, lo que hizo que continuar el desarrollo del modelo anterior fuera comercialmente injustificable. El anuncio de obsolescencia dio a los clientes existentes una ventana de migración para validar sus flujos de trabajo contra o4-mini y realizar la transición antes de que el endpoint de o3-mini quede desactivado.

La historia de migración es directa en la superficie de la API. Ambos modelos comparten la misma forma de solicitud y respuesta, por lo que el código de integración no cambia. Lo que sí cambia es el comportamiento subyacente. o4-mini es un modelo diferente con una distribución de razonamiento diferente, y los patrones de prompt que se ajustaron al comportamiento específico de o3-mini pueden necesitar ajustes para obtener resultados equivalentes o mejores en el sucesor.

Para los equipos que aún están en o3-mini, la pregunta de planificación es el momento. Ejecute una pista de evaluación paralela contra o4-mini, documente los deltas de comportamiento en su carga de trabajo específica y realice la transición antes del precipicio de obsolescencia. El cronograma de obsolescencia no se ha publicado en detalle, pero el patrón de OpenAI con modelos de razonamiento obsoletos ha sido una ventana de cierre de varios meses con aviso anticipado.

Dónde falló

Los mismos límites que se aplican a todos los modelos de razonamiento se aplicaron a o3-mini. Las aplicaciones conversacionales en tiempo real no eran adecuadas porque la latencia del razonamiento era incompatible con la experiencia de usuario de chat. La resumición y extracción simples desperdiciaban el cómputo de razonamiento. La escritura creativa producía la misma prosa cuidadosa y plana hacia la que tienden todos los modelos de razonamiento.

Dentro del nivel de razonamiento, o3-mini no era la elección correcta para problemas en el techo de capacidad absoluto. El o3 completo o o1-pro eran las variantes para los problemas más difíciles donde la máxima precisión justificaba el coste. Mini era el nivel de volumen, nunca el nivel de máxima precisión.

Qué usar en su lugar

El sucesor directo es o4-mini en el alias flotante o o4-mini-2025-04-16 en la instantánea fechada para producción fijada. La ruta de migración es directa en la superficie de la API pero vale la pena una validación adecuada en su carga de trabajo específica.

Para cargas de trabajo que han crecido más allá del sobre de capacidad del nivel mini, el o3 completo o o3-2025-04-16 en la instantánea fechada es la ruta de actualización. El perfil de costes es más alto pero la precisión en problemas difíciles es significativamente mejor.

Para flujos de trabajo de investigación que necesitan integración de fuentes externas junto con razonamiento, o4-mini-deep-research es la variante dedicada en modo investigación en la misma generación que o4-mini.

La instantánea fechada o3-mini-2025-01-31 permanece disponible para equipos que necesitan un ancla de estabilidad mientras planifican la migración desde o3-mini. Use esto solo para el período puente de migración, no para nuevas construcciones. La residencia de datos de la UE no está satisfecha por defecto en ninguno de estos endpoints.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Comparación de proveedoresLIVE

Comparación de proveedores

Compara cada proveedor de este modelo — coste base, calidad, latencia y disponibilidad.

Azure OpenAI (EU - Sweden)UE

Coste de entrada✓ mejor$1.10

Coste de salida$4.40

CalidadAún sin probar

Latencia (p50)Aún sin probar

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

OpenAIEE. UU.Esta oferta

Coste de entrada$1.10

Coste de salida$4.40

CalidadAún sin probar

Latencia (p50)✓ mejor557 ms

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

Inteligencia de consenso

TODO EL MODELOINACTIVO

Las señales de consenso son de todo el modelo — todavía no por proveedor.

El scoring de consenso aún recopila datos para este modelo — todavía sin señales.

Votos de la comunidadLIVE

Votos de la comunidad

Lo que opinan los visitantes reales — por proveedor.

Azure OpenAI (EU - Sweden)UE

Aún no hay votos de la comunidad.

OpenAIEE. UU.

Aún no hay votos de la comunidad.

Más resultados — por proveedor

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 67%■ Parcial 14%■ Incorrecto 19%

Juegos y arena

Aún sin datos.

Velocidad y salud

557 ms

Latencia (p50)

—

Disponibilidad

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 67%■ Parcial 14%■ Incorrecto 19%

Juegos y arena

Aún sin datos.

Velocidad y salud

557 ms

Latencia (p50)

—

Disponibilidad

Pregunta y respuesta — explorarLIVE

1 de 80

🧠 inteligenciaOpenAImultilingual · 2026-07-26puntuación: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

Ürünün indirim miktarını hesaplayalım: 150 TL'nin %20'si = 150 × 0.20 = 30 TL olur. İndirimli fiyat ise 150 TL - 30 TL = 120 TL'dir.

Historial de pruebas — todos los proveedoresLIVE

Puntuación de calidad en el tiempoúltimo 59

Velocidad — latencia p50 en el tiempoúltimo 553 ms

📝Veredicto — resumenLIVE

o3-mini shows quality decline and factual performance drop

🖼️Imagen y explicaciónLIVE

o3-mini

Capacidades

Qué hizo o3-mini de manera diferente

Por qué quedó obsoleto

Dónde falló

Qué usar en su lugar

📊Comparación de proveedoresLIVE

🧠Inteligencia de consenso

👥Votos de la comunidadLIVE

🔬Más resultados — por proveedor

💬Pregunta y respuesta — explorarLIVE

🗂️Historial de pruebas — todos los proveedoresLIVE

Veredicto — resumenLIVE

Imagen y explicaciónLIVE

Comparación de proveedoresLIVE

Inteligencia de consenso

Votos de la comunidadLIVE

Más resultados — por proveedor

Pregunta y respuesta — explorarLIVE

Historial de pruebas — todos los proveedoresLIVE