Tier C — Especialista

Se ejecuta en:USCreado en:United States

$60.00

salida · por 1M de tokens (coste base)

Coste

2,530 ms

Velocidad de respuesta

100 / 100

Inteligencia

Veredicto — resumenLIVE

● LIVE

ahora · 2026-07-26

o1 quality drops 44 points with category coverage and latency regression

✗ Quality dropped 44 points✗ Factual accuracy at 2✗ Latency increased 33%✓ Multilingual maintains perfect score

The latest benchmark window shows a significant degradation in o1's performance, with overall quality falling from 99.3 to 55.4 out of 100. The model has lost coverage in its coding category entirely, which previously scored perfectly at 100. Creative performance declined from 98 to 72, while reasoning capabilities dropped to 48 from what was previously strong performance. Most critically, factual accuracy collapsed to just 2 points, representing a severe regression. Multilingual support remains the sole bright spot, maintaining a perfect 100 score across both windows. Latency has also worsened, with median response time increasing 33% from 3899ms to 5173ms. The limited test run sample of 5 runs in each window suggests these results should be interpreted cautiously, but the consistency of degradation across multiple categories indicates a systemic issue rather than random variance. Users relying on o1 for factual information retrieval or coding tasks should exercise particular caution and verify outputs carefully. The dramatic shift from near-perfect performance to mid-range scores warrants investigation into whether model updates, infrastructure changes, or evaluation methodology shifts are responsible.

Quality

55.4

Latency p50

5,173 ms

Test runs

1 de 11

Imagen y explicaciónLIVE

OpenAI

o1

Tier C — Especialista · 200K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

El modelo o1 es un modelo de lenguaje extenso desarrollado por OpenAI, que representa una evolución significativa en el enfoque de la compañía hacia el razonamiento de IA. A diferencia de los modelos de lenguaje tradicionales que generan respuestas token por token en un solo paso directo, o1 incorpora razonamiento interno extendido antes de producir resultados. Este modelo está diseñado para manejar tareas complejas que requieren resolución de problemas de múltiples pasos, deducción lógica y análisis cuidadoso, haciéndolo particularmente adecuado para dominios como matemáticas, programación, razonamiento científico y otras aplicaciones analíticas. o1 cuenta con una ventana de contexto de 200,000 tokens, permitiéndole procesar cantidades sustanciales de información en una sola interacción. La arquitectura del modelo enfatiza el razonamiento deliberativo, dedicando recursos computacionales adicionales durante la inferencia para explorar rutas de solución antes de decidirse por una respuesta. Este enfoque puede resultar en resultados más precisos y mejor razonados para problemas desafiantes, aunque puede requerir tiempos de procesamiento más largos comparado con modelos generativos estándar. El modelo soporta capacidades estándar de generación de texto mientras aplica su marco de razonamiento para producir respuestas. En la línea de modelos de OpenAI, o1 se sitúa junto a la familia GPT-4 pero sirve un propósito distinto. Mientras que los modelos GPT-4 sobresalen en tareas de lenguaje de propósito general con tiempos de respuesta rápidos, o1 está posicionado para casos de uso donde la profundidad de razonamiento tiene prioridad sobre la velocidad. Representa la exploración de OpenAI en modelos que priorizan el tiempo de reflexión y la resolución sistemática de problemas, ofreciendo a los usuarios una arquitectura alternativa optimizada para el rigor analítico más que solo la fluidez conversacional.

o1 redefine el equilibrio entre velocidad y profundidad en modelos de lenguaje, priorizando el razonamiento deliberado sobre la generación instantánea para resolver problemas complejos que requieren análisis metódico.
— Análisis editorial Tokonomix

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 100000

o1: el primer modelo de razonamiento de OpenAI y el momento en que la cadena de pensamiento pasó a producción

o1 es el modelo que convirtió el razonamiento extendido en una característica de producto de primera clase en lugar de un truco de prompting inteligente. Donde cada modelo anterior de clase GPT producía una respuesta transmitiendo tokens hacia adelante en un único paso, o1 dedica tiempo de reloj real a pensar antes de responder. El cambio arquitectónico importa más de lo que parece. Para una clase de problemas donde un paso incorrecto se acumula en una respuesta incorrecta, la diferencia entre un modelo que reconoce patrones y uno que delibera genuinamente es la diferencia entre una herramienta útil y una engañosa.

Qué hacen realmente los modelos de razonamiento

Cuando se envía un prompt a o1, el modelo dedica tiempo a generar razonamiento interno antes de producir la salida visible. No se ven los tokens de razonamiento. Se ve la respuesta final y se factura el cómputo de razonamiento como parte de la respuesta. El patrón es poco familiar viniendo de los modelos de chat. Una solicitud puede tomar cinco, diez o treinta segundos según la complejidad del problema, y la latencia no es un error.

El intercambio es directo. Se cede el rápido tiempo hasta el primer token de GPT-4o y modelos de reflex similares. A cambio se obtiene una precisión sustancialmente mayor en problemas que requieren razonamiento de múltiples pasos, prueba formal, síntesis de código complejo o planificación cuidadosa sobre muchas restricciones interrelacionadas. El razonamiento matemático, la resolución de problemas científicos y la generación de código complejo son las categorías donde o1 se sitúa notablemente por delante de los modelos sin razonamiento.

La ventana de contexto de 200 000 tokens sitúa a o1 en territorio frontier para el razonamiento sobre documentos largos. Se puede dar al modelo un contrato legal complejo, un artículo de investigación más referencias de apoyo, o un fragmento sustancial de base de código y pedirle que razone sobre todo ello. La combinación de profundidad de razonamiento y contexto largo es lo que hace a o1 apto para cargas de trabajo que fallaban bajo versiones anteriores de GPT.

Dónde funciona

Matemáticas y razonamiento formal. Álgebra simbólica, pruebas de múltiples pasos, problemas donde la respuesta requiere rastrear docenas de variables intermedias. o1 gestiona estos de una forma que los modelos de tier chat simplemente no hacen.

Síntesis de código complejo. Escribir un algoritmo no trivial, refactorizar una función enredada con múltiples dependencias, depurar un problema donde la causa raíz está a varias capas de distancia del síntoma. El paso de razonamiento a menudo detecta errores que un modelo más rápido enviaría felizmente.

Razonamiento científico. Problemas interdisciplinarios donde la respuesta requiere integrar información de física, química, biología o estadística. El modelo puede mantener múltiples marcos en razonamiento activo en lugar de colapsar al más familiar del entrenamiento.

Planificación estratégica bajo restricciones. Problemas de asignación de recursos, programación, optimización multiobjetivo. Cualquier lugar donde un problema tenga muchas restricciones en interacción y una simplificación incorrecta da la respuesta incorrecta.

Dónde falla

Aplicaciones interactivas en tiempo real. El perfil de latencia de un modelo de razonamiento es fundamentalmente incompatible con una interfaz de chat que necesita responder en menos de un segundo. Para los productos conversacionales, use modelos de reflex de clase GPT-4o y reserve o1 para los turnos genuinamente difíciles.

Búsqueda y resumen simples. Pedir a o1 que resuma un documento o extraiga unos pocos campos es un desperdicio. El modelo dedicará cómputo de razonamiento a una tarea que no lo requiere, y se pagará por ese cómputo. Los modelos de reflex gestionan estas tareas de forma más rápida y barata.

Escritura creativa donde importa el flujo. El modelo de razonamiento produce prosa correcta y cuidadosa. No es la herramienta correcta cuando se quiere voz, ritmo o estilo artístico. Para trabajo creativo, los modelos de tier chat a menudo producen mejores salidas porque no están restringidos por la generación primero-razonamiento.

Flujos de trabajo con uso intensivo de herramientas con muchos bucles ajustados. El paso de razonamiento añade latencia a cada turno. Para agentes que necesitan llamar a herramientas en rápida sucesión con razonamiento entre cada llamada, la latencia acumulada hace el bucle lento. Algunos frameworks de agentes se han adaptado a esto; muchos no.

Cuándo elegirlo o migrar a modelos de razonamiento más nuevos

o1 fue el primer modelo de razonamiento de producción. Ya no es el más capaz. o3 es el sucesor significativo con mayor capacidad de razonamiento, y o4-mini es el modelo de razonamiento de tier medio rentable que gestiona muchas cargas de trabajo para las que se usaba o1 a un precio más bajo.

Para el alias con fecha de esta generación, o1-2024-12-17 es la instantánea para anclar en flujos de trabajo regulados o reproducibilidad. o1-pro es la variante de mayor esfuerzo que dedica más tokens de razonamiento por prompt para problemas donde la máxima precisión justifica el coste adicional.

Para las tareas de investigación genuinamente profundas que necesitan que el modelo navegue, sintetice y razone sobre fuentes externas, o4-mini-deep-research es la variante de modo de investigación dedicada. La residencia de datos en la UE no está satisfecha por defecto en ninguno de los endpoints de razonamiento de OpenAI. El patrón de puerta de enlace regional es la solución para los despliegues europeos regulados.

Use o1 cuando la corrección en un problema difícil importa más que la latencia de reloj. Use un modelo de reflex cuando la latencia importa más que la profundidad del razonamiento. La elección arquitectónica debe ser deliberada, no predeterminada.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Comparación de proveedoresLIVE

Comparación de proveedores

Compara cada proveedor de este modelo — coste base, calidad, latencia y disponibilidad.

Azure OpenAI (EU - Sweden)UE

Coste de entrada$16.50

Coste de salida$66.00

CalidadAún sin probar

Latencia (p50)Aún sin probar

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

OpenAIEE. UU.Esta oferta

Coste de entrada✓ mejor$15.00

Coste de salida$60.00

Calidad✓ mejor100.0

Latencia (p50)✓ mejor2,530 ms

DisponibilidadAún sin probar

Costes por 1M de tokens (coste base)

Inteligencia de consenso

TODO EL MODELOINACTIVO

Las señales de consenso son de todo el modelo — todavía no por proveedor.

El scoring de consenso aún recopila datos para este modelo — todavía sin señales.

Votos de la comunidadLIVE

Votos de la comunidad

Lo que opinan los visitantes reales — por proveedor.

Azure OpenAI (EU - Sweden)UE

Aún no hay votos de la comunidad.

OpenAIEE. UU.

Aún no hay votos de la comunidad.

Más resultados — por proveedor

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 81%■ Parcial 0%■ Incorrecto 19%

Juegos y arena

Aún sin datos.

Velocidad y salud

2,530 ms

Latencia (p50)

—

Disponibilidad

Calidad por categoría

Rúbrica de juego

Aún sin datos.

Veredicto del juez

■ OK 81%■ Parcial 0%■ Incorrecto 19%

Juegos y arena

Aún sin datos.

Velocidad y salud

2,530 ms

Latencia (p50)

—

Disponibilidad

Pregunta y respuesta — explorarLIVE

1 de 80

🧠 inteligenciaOpenAImultilingual · 2026-07-26puntuación: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

150 TL olan bir ürün üzerine %20 indirim uygulandığında, ürünün indirimsiz fiyatının %80’i ödenir. Dolayısıyla 150 TL × 0,80 = 120 TL ödenir.

Historial de pruebas — todos los proveedoresLIVE

Puntuación de calidad en el tiempoúltimo 59

Velocidad — latencia p50 en el tiempo

Aparece una tendencia cuando este modelo se ha probado en varios días distintos.

📝Veredicto — resumenLIVE

o1 quality drops 44 points with category coverage and latency regression

🖼️Imagen y explicaciónLIVE

o1

Capacidades

Qué hacen realmente los modelos de razonamiento

Dónde funciona

Dónde falla

Cuándo elegirlo o migrar a modelos de razonamiento más nuevos

📊Comparación de proveedoresLIVE

🧠Inteligencia de consenso

👥Votos de la comunidadLIVE

🔬Más resultados — por proveedor

💬Pregunta y respuesta — explorarLIVE

🗂️Historial de pruebas — todos los proveedoresLIVE

Veredicto — resumenLIVE

Imagen y explicaciónLIVE

Comparación de proveedoresLIVE

Inteligencia de consenso

Votos de la comunidadLIVE

Más resultados — por proveedor

Pregunta y respuesta — explorarLIVE

Historial de pruebas — todos los proveedoresLIVE