Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-3.5-turbo-0125

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-3.5-turbo-0125 es un modelo de lenguaje extenso desarrollado por OpenAI, lanzado en enero de 2024 como una actualización incremental de la serie GPT-3.5-turbo. Este modelo representa una versión instantánea de la arquitectura GPT-3.5-turbo, que se basa en la tecnología Generative Pre-trained Transformer de OpenAI. Está diseñado para tareas de generación de texto de propósito general que incluyen conversación, creación de contenido, resumen, análisis y asistencia de programación. El modelo procesa entrada de texto y genera respuestas similares a las humanas basándose en patrones aprendidos durante el entrenamiento con diversos datos de texto de internet. El modelo admite capacidades estándar de generación de texto con precisión mejorada y tasas reducidas de alucinación en comparación con iteraciones anteriores de GPT-3.5. Aunque OpenAI no ha especificado públicamente el tamaño exacto de la ventana de contexto, los modelos GPT-3.5-turbo típicamente manejan varios miles de tokens de contexto. La designación 0125 indica que esta es una versión instantánea estable, lo que significa que su comportamiento permanece consistente a lo largo del tiempo en lugar de estar sujeto a actualizaciones continuas como el endpoint rotativo GPT-3.5-turbo. Dentro de la línea de modelos de OpenAI, GPT-3.5-turbo-0125 se sitúa como una opción de nivel medio entre los modelos heredados GPT-3 y la serie más avanzada GPT-4. Ofrece un equilibrio de capacidad y eficiencia, haciéndolo adecuado para aplicaciones que requieren rendimiento confiable en tareas estándar de lenguaje natural sin la sobrecarga computacional de modelos más grandes. El modelo es accesible a través de la API de OpenAI y sirve como una opción práctica para desarrolladores que construyen aplicaciones de IA conversacional y sistemas automatizados de procesamiento de texto.

GPT-3.5-turbo-0125 representa la opción equilibrada para equipos que necesitan respuestas confiables sin el costo de modelos de última generación, ofreciendo un rendimiento consistente gracias a su naturaleza de versión fija.

Análisis Tokonomix, Q1 2024
Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
96
Multilingüe
100
Razonamiento
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-3.5-turbo-0125
$0.5000 por 1M de tokens de entrada
$1.50 por 1M de tokens de salida
≈ $0.0006 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.5000
por 1M de tokens de salida$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$1.50

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Versión fija sin cambios inesperadosRendimiento sólido en conversaciónLatencia baja en respuestasAsistencia efectiva para códigoReducción de alucinaciones vs. versiones anterioresAPI bien documentada y estableResumenes y análisis de texto fiablesComportamiento reproducible entre llamadas

Debilidades

Conocimiento limitado a datos pre-2023Sin capacidades de visión o imágenesRazonamiento complejo inferior a GPT-4Ventana de contexto más pequeña
Sección 04

Capacidades

toolssource: litellmparallel toolsprompt cachingmax output tokens: 4096
Sección 05

Preguntas frecuentes

La 0125 es una instantánea fija que mantiene comportamiento consistente, mientras que gpt-3.5-turbo es un alias móvil que OpenAI actualiza periódicamente. Si necesitas reproducibilidad exacta en producción, usa la versión con fecha.

Para aplicaciones de producción que valoran la estabilidad y predicción de costos sobre capacidades multimodales avanzadas, esta instantánea fija sigue siendo una elección pragmática y bien documentada.

Evaluación Tokonomix de modelos de rango medio
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-582/100 · 77 runs
50 correct15 partial12 wrong65% accuracy
2026-06-14

New tool capabilities added, but no performance data available

The gpt-3.5-turbo-0125 model has been updated with significant new capabilities including tools, parallel tools, and prompt caching support. These additions represent meaningful feature expansion for the model, potentially enabling more complex workflows through function calling and improved efficiency via caching mechanisms. However, benchmark performance data remains unavailable for both the current and previous windows, making it impossible to assess how these new features impact the model's actual task performance across standard evaluation metrics. Without concrete benchmark results, users cannot determine whether the model maintains competitive accuracy, reasoning ability, or output quality compared to alternatives. The addition of parallel tool calling could theoretically improve efficiency for multi-step tasks, while prompt caching may reduce latency and costs for repetitive queries. Users considering this model should conduct their own testing to validate performance for their specific use cases, as the absence of standardized benchmark data prevents objective comparison. The feature additions are promising from a capabilities standpoint, but empirical performance validation is needed to fully assess the model's effectiveness.

Quality

Latency p50

Test runs

0

Tool support added Parallel tools enabled Prompt caching available No benchmark data
Sección 08

Perfil completo del modelo

gpt-3.5-turbo-0125 — illustration 1

⚠️ Modelo obsoleto. OpenAI ha retirado este modelo. Para nuevos proyectos, consulte GPT-4o mini para uso general rentable o GPT-4.1 para un razonamiento más sólido. Las integraciones existentes deben planificar la migración antes de que el endpoint de la API sea discontinuado.

gpt-3.5-turbo-0125: la actualización de enero de 2024

gpt-3.5-turbo-0125 es la instantánea con fecha de GPT-3.5 Turbo lanzada el 25 de enero de 2024. Fue la última actualización significativa de capacidad de la línea 3.5: seguimiento de instrucciones más agudo, correcciones de problemas en el modo JSON y las mejoras del tokenizador que hicieron que el modelo se comportara de manera más predecible en casos extremos.

Ahora está retirado. El identificador anclado sigue resolviendo hoy pero el horizonte de obsolescencia es finito, y los nuevos proyectos no deberían apuntarlo.

Qué cambió en esta versión

El titular de las notas de OpenAI de enero de 2024 fue el seguimiento de instrucciones. Las instantáneas 3.5 anteriores tenían la costumbre de parafrasear las instrucciones en lugar de ejecutarlas: el modelo reconocía una solicitud y luego se desviaba hacia una respuesta diferente de la que el prompt pedía realmente. La versión 0125 apretó eso de forma material.

Para los equipos que ejecutaban 3.5 en producción, la mejora en el seguimiento de instrucciones fue el tipo de actualización que no aparece en las puntuaciones de benchmark pero sí aparece en las puntuaciones de evaluación frente a los propios prompts. La misma definición de tarea producía una salida más limpia, y las soluciones en la capa de prompts escritas contra instantáneas anteriores a menudo podían retirarse.

El modo JSON fue la otra corrección silenciosa. Las instantáneas 3.5 anteriores producían JSON que era mayormente válido pero ocasionalmente malformado en casos extremos específicos: comas finales en arrays, llaves de cierre faltantes bajo carga, escapado inconsistente de cadenas anidadas. La versión 0125 corrigió suficientes de esos para que los parsers posteriores pudieran eliminar una o dos capas de manejo defensivo.

El perfil de coste se mantuvo donde vivía el resto de la línea 3.5, lo cual era lo que hacía interesantes estas mejoras en ese momento. Mismo precio, mejor comportamiento.

Qué seguía roto

Profundidad de razonamiento. 0125 seguía siendo un modelo de clase 3.5. Los prompts de múltiples pasos que requerían un encadenamiento real de inferencias, la síntesis de código novedoso, los puzles de lógica densa: todo visiblemente más débil que lo que GPT-4 ya había lanzado. La corrección del seguimiento de instrucciones hizo al modelo más fiable; no lo hizo más inteligente en ningún sentido profundo.

Factualidad. Las alucinaciones no se abordaron de ninguna forma estructural. El modelo seguía inventando respuestas confiadas cuando el prompt no contenía la respuesta. La generación aumentada por recuperación o la revisión humana seguía siendo necesaria en cualquier ruta factual.

Calibración de rechazos. Ligeramente más consistente que las instantáneas anteriores, pero el patrón de rechazar prompts inocuos y cumplir con los de borde que los modelos frontier rechazarían persistió.

Por qué los equipos anclaron a 0125

Durante la mayor parte de 2024, cuando 3.5 era el valor predeterminado rentable, esta era la instantánea a la que los equipos anclaban. Tres razones.

Primera, "el 3.5 estable más reciente". Los despliegues de producción que necesitaban reproducibilidad querían el modelo con los menos quirks conocidos; 0125 era la opción más reciente y menos defectuosa.

Segunda, los pipelines posteriores ajustados contra el comportamiento de 0125. Una vez que un parser, una suite de pruebas de CI o un clasificador posterior ajustado a medida se habían construido contra esta instantánea, el coste de reajustar contra una instantánea más reciente era real. El anclaje protegía esa inversión.

Tercera, los flujos de trabajo regulados aprobados contra este identificador. Algunas revisiones de cumplimiento se completaron específicamente contra 0125 y no podían moverse a una instantánea diferente sin un nuevo ciclo de auditoría.

Las tres razones han envejecido mal ahora que la familia 3.5 está obsoleta. El objetivo de migración ya no es una instantánea 3.5 diferente.

Migración hoy

La instantánea 0125 es más reciente que la versión original de 3.5 y el cálculo de migración es ligeramente diferente al de migrar desde el Turbo original.

Si ancló a 0125 específicamente por las mejoras en el seguimiento de instrucciones, la migración de comportamiento más cercana es GPT-4o mini. La latencia es comparable, la superficie de la API es la misma, el seguimiento de instrucciones es notablemente más sólido.

Si su pipeline posterior depende del comportamiento específico del modo JSON de 0125, la característica de salidas estructuradas en las instantáneas GPT-4o desde agosto de 2024 en adelante y en toda la familia GPT-4.1 es un reemplazo más fiable. Es posible que necesite reajustar el parser posterior; el panorama más amplio es que el cumplimiento estricto del esquema elimina los modos de fallo contra los que los trucos de ingeniería de prompts estaban trabajando.

Si su carga de trabajo con forma de razonamiento ya estaba empujando a 0125 más allá de su techo, el salto a gpt-4.1-mini o al GPT-4.1 completo es el salto más grande pero es el que se ajusta a la carga de trabajo.

Qué hacer hoy

Si 0125 sigue en su stack:

Primero, audite la carga de trabajo. La familia 3.5 era suficientemente buena para una gran fracción del tráfico de producción de 2024; la pregunta es si su carga de trabajo específica sigue beneficiándose de este anclaje o si debería haberse movido hace un año.

Segundo, ejecute una evaluación real contra su candidato de migración. Los modelos más recientes a menudo necesitan prompts diferentes, y mantener la ingeniería de prompts de la era 0125 puede hacer que un sucesor parezca peor de lo que es.

Tercero, planifique la transición antes de que llegue el correo de obsolescencia. La familia 3.5 está en un calendario finito. El tráfico de producción en una instantánea 3.5 anclada es un riesgo conocido; un riesgo conocido es uno que puede mitigar en su propio calendario.

Para la comparación entre categorías, consulte /benchmarks/leaderboard.

Cuándo elegirlo

No elija esta instantánea para nuevas construcciones. La familia 3.5 está obsoleta y los identificadores anclados eventualmente serán discontinuados.

Para las integraciones existentes, planifique la migración. El sucesor de comportamiento más similar para las cargas de trabajo con forma de 0125 es GPT-4o mini; el movimiento prospectivo es la familia GPT-4.1. En cualquier caso, la transición debería ocurrir en su calendario de lanzamiento, no en el calendario de obsolescencia de OpenAI.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-3.5-turbo-0125 — illustration 2gpt-3.5-turbo-0125 — illustration 3
Última prueba automática
14 jun 2026 · 04:58 UTC · Benchmark
Latencia P50
2331 ms
Latencia P95
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026