¿Este modelo puede procesar imágenes o documentos PDF?

No, GPT-3.5-turbo-0125 solo acepta entrada de texto. Para capacidades de visión necesitarías GPT-4 Turbo o GPT-4o.

¿Cuándo debería elegir este modelo en lugar de GPT-4?

Cuando tu caso de uso prioriza velocidad y eficiencia de costos sobre razonamiento avanzado. Es ideal para chatbots de atención al cliente, resúmenes simples, clasificación de texto y tareas donde GPT-4 sería excesivo.

¿Qué tan actualizado está el conocimiento del modelo?

El conocimiento tiene un corte en algún punto de 2021-2022. Para información en tiempo real necesitas complementar con búsqueda externa o usar modelos con acceso a internet.

¿Es compatible con function calling y herramientas?

Sí, GPT-3.5-turbo-0125 soporta function calling y puede ejecutar llamadas estructuradas a APIs externas, aunque con menos fiabilidad que las versiones GPT-4.

Tier C — Especialista

Se ejecuta en:USCreado en:United States

OpenAI

gpt-3.5-turbo-0125

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

GPT-3.5-turbo-0125 es un modelo de lenguaje extenso desarrollado por OpenAI, lanzado en enero de 2024 como una actualización incremental de la serie GPT-3.5-turbo. Este modelo representa una versión instantánea de la arquitectura GPT-3.5-turbo, que se basa en la tecnología Generative Pre-trained Transformer de OpenAI. Está diseñado para tareas de generación de texto de propósito general que incluyen conversación, creación de contenido, resumen, análisis y asistencia de programación. El modelo procesa entrada de texto y genera respuestas similares a las humanas basándose en patrones aprendidos durante el entrenamiento con diversos datos de texto de internet. El modelo admite capacidades estándar de generación de texto con precisión mejorada y tasas reducidas de alucinación en comparación con iteraciones anteriores de GPT-3.5. Aunque OpenAI no ha especificado públicamente el tamaño exacto de la ventana de contexto, los modelos GPT-3.5-turbo típicamente manejan varios miles de tokens de contexto. La designación 0125 indica que esta es una versión instantánea estable, lo que significa que su comportamiento permanece consistente a lo largo del tiempo en lugar de estar sujeto a actualizaciones continuas como el endpoint rotativo GPT-3.5-turbo. Dentro de la línea de modelos de OpenAI, GPT-3.5-turbo-0125 se sitúa como una opción de nivel medio entre los modelos heredados GPT-3 y la serie más avanzada GPT-4. Ofrece un equilibrio de capacidad y eficiencia, haciéndolo adecuado para aplicaciones que requieren rendimiento confiable en tareas estándar de lenguaje natural sin la sobrecarga computacional de modelos más grandes. El modelo es accesible a través de la API de OpenAI y sirve como una opción práctica para desarrolladores que construyen aplicaciones de IA conversacional y sistemas automatizados de procesamiento de texto.

GPT-3.5-turbo-0125 representa la opción equilibrada para equipos que necesitan respuestas confiables sin el costo de modelos de última generación, ofreciendo un rendimiento consistente gracias a su naturaleza de versión fija.
— Análisis Tokonomix, Q1 2024

Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

Razonamiento

Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-3.5-turbo-0125

$0.5000 por 1M de tokens de entrada

$1.50 por 1M de tokens de salida

≈ $0.0006 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.5000

por 1M de tokens de salida$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$1.50

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Versión fija sin cambios inesperadosRendimiento sólido en conversaciónLatencia baja en respuestasAsistencia efectiva para códigoReducción de alucinaciones vs. versiones anterioresAPI bien documentada y estableResumenes y análisis de texto fiablesComportamiento reproducible entre llamadas

Debilidades

Conocimiento limitado a datos pre-2023Sin capacidades de visión o imágenesRazonamiento complejo inferior a GPT-4Ventana de contexto más pequeña

Sección 04

Capacidades

toolssource: litellmparallel toolsprompt cachingmax output tokens: 4096

Sección 05

Preguntas frecuentes

La 0125 es una instantánea fija que mantiene comportamiento consistente, mientras que gpt-3.5-turbo es un alias móvil que OpenAI actualiza periódicamente. Si necesitas reproducibilidad exacta en producción, usa la versión con fecha.

Para aplicaciones de producción que valoran la estabilidad y predicción de costos sobre capacidades multimodales avanzadas, esta instantánea fija sigue siendo una elección pragmática y bien documentada.
— Evaluación Tokonomix de modelos de rango medio

Sección 06

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-585/100 · 112 runs

81 correct15 partial16 wrong72% accuracy

● 2026-07-26

Maintains tool execution and parallel processing with prompt caching

The gpt-3.5-turbo-0125 model continues to demonstrate consistent performance across its core capabilities. The model maintains support for tool execution, parallel tool processing, and prompt caching features that were previously available. No significant performance changes were detected in this benchmark window compared to the previous evaluation period. The model remains positioned as a cost-effective option for applications requiring structured function calling and multi-tool orchestration. Users can expect stable behavior when implementing tool-based workflows, with the parallel processing capability enabling efficient handling of multiple function calls in a single request. The prompt caching feature continues to provide latency and cost benefits for applications with repetitive context patterns. This stability makes the model a reliable choice for production deployments where consistent behavior is valued. Organizations already using this model should not expect disruptions to existing integrations or workflows. The lack of capability changes suggests the model is in a maintenance phase, which may be appropriate for users prioritizing predictability over cutting-edge features.

Quality

—

Latency p50

—

Test runs

✓ Stable tool execution maintained✓ Parallel processing remains functional✓ Prompt caching support continues

Sección 08

Perfil completo del modelo

⚠️ Modelo obsoleto. OpenAI ha retirado este modelo. Para nuevos proyectos, consulte GPT-4o mini para uso general rentable o GPT-4.1 para un razonamiento más sólido. Las integraciones existentes deben planificar la migración antes de que el endpoint de la API sea discontinuado.

gpt-3.5-turbo-0125: la actualización de enero de 2024

gpt-3.5-turbo-0125 es la instantánea con fecha de GPT-3.5 Turbo lanzada el 25 de enero de 2024. Fue la última actualización significativa de capacidad de la línea 3.5: seguimiento de instrucciones más agudo, correcciones de problemas en el modo JSON y las mejoras del tokenizador que hicieron que el modelo se comportara de manera más predecible en casos extremos.

Ahora está retirado. El identificador anclado sigue resolviendo hoy pero el horizonte de obsolescencia es finito, y los nuevos proyectos no deberían apuntarlo.

Qué cambió en esta versión

El titular de las notas de OpenAI de enero de 2024 fue el seguimiento de instrucciones. Las instantáneas 3.5 anteriores tenían la costumbre de parafrasear las instrucciones en lugar de ejecutarlas: el modelo reconocía una solicitud y luego se desviaba hacia una respuesta diferente de la que el prompt pedía realmente. La versión 0125 apretó eso de forma material.

Para los equipos que ejecutaban 3.5 en producción, la mejora en el seguimiento de instrucciones fue el tipo de actualización que no aparece en las puntuaciones de benchmark pero sí aparece en las puntuaciones de evaluación frente a los propios prompts. La misma definición de tarea producía una salida más limpia, y las soluciones en la capa de prompts escritas contra instantáneas anteriores a menudo podían retirarse.

El modo JSON fue la otra corrección silenciosa. Las instantáneas 3.5 anteriores producían JSON que era mayormente válido pero ocasionalmente malformado en casos extremos específicos: comas finales en arrays, llaves de cierre faltantes bajo carga, escapado inconsistente de cadenas anidadas. La versión 0125 corrigió suficientes de esos para que los parsers posteriores pudieran eliminar una o dos capas de manejo defensivo.

El perfil de coste se mantuvo donde vivía el resto de la línea 3.5, lo cual era lo que hacía interesantes estas mejoras en ese momento. Mismo precio, mejor comportamiento.

Qué seguía roto

Profundidad de razonamiento. 0125 seguía siendo un modelo de clase 3.5. Los prompts de múltiples pasos que requerían un encadenamiento real de inferencias, la síntesis de código novedoso, los puzles de lógica densa: todo visiblemente más débil que lo que GPT-4 ya había lanzado. La corrección del seguimiento de instrucciones hizo al modelo más fiable; no lo hizo más inteligente en ningún sentido profundo.

Factualidad. Las alucinaciones no se abordaron de ninguna forma estructural. El modelo seguía inventando respuestas confiadas cuando el prompt no contenía la respuesta. La generación aumentada por recuperación o la revisión humana seguía siendo necesaria en cualquier ruta factual.

Calibración de rechazos. Ligeramente más consistente que las instantáneas anteriores, pero el patrón de rechazar prompts inocuos y cumplir con los de borde que los modelos frontier rechazarían persistió.

Por qué los equipos anclaron a 0125

Durante la mayor parte de 2024, cuando 3.5 era el valor predeterminado rentable, esta era la instantánea a la que los equipos anclaban. Tres razones.

Primera, "el 3.5 estable más reciente". Los despliegues de producción que necesitaban reproducibilidad querían el modelo con los menos quirks conocidos; 0125 era la opción más reciente y menos defectuosa.

Segunda, los pipelines posteriores ajustados contra el comportamiento de 0125. Una vez que un parser, una suite de pruebas de CI o un clasificador posterior ajustado a medida se habían construido contra esta instantánea, el coste de reajustar contra una instantánea más reciente era real. El anclaje protegía esa inversión.

Tercera, los flujos de trabajo regulados aprobados contra este identificador. Algunas revisiones de cumplimiento se completaron específicamente contra 0125 y no podían moverse a una instantánea diferente sin un nuevo ciclo de auditoría.

Las tres razones han envejecido mal ahora que la familia 3.5 está obsoleta. El objetivo de migración ya no es una instantánea 3.5 diferente.

Migración hoy

La instantánea 0125 es más reciente que la versión original de 3.5 y el cálculo de migración es ligeramente diferente al de migrar desde el Turbo original.

Si ancló a 0125 específicamente por las mejoras en el seguimiento de instrucciones, la migración de comportamiento más cercana es GPT-4o mini. La latencia es comparable, la superficie de la API es la misma, el seguimiento de instrucciones es notablemente más sólido.

Si su pipeline posterior depende del comportamiento específico del modo JSON de 0125, la característica de salidas estructuradas en las instantáneas GPT-4o desde agosto de 2024 en adelante y en toda la familia GPT-4.1 es un reemplazo más fiable. Es posible que necesite reajustar el parser posterior; el panorama más amplio es que el cumplimiento estricto del esquema elimina los modos de fallo contra los que los trucos de ingeniería de prompts estaban trabajando.

Si su carga de trabajo con forma de razonamiento ya estaba empujando a 0125 más allá de su techo, el salto a gpt-4.1-mini o al GPT-4.1 completo es el salto más grande pero es el que se ajusta a la carga de trabajo.

Qué hacer hoy

Si 0125 sigue en su stack:

Primero, audite la carga de trabajo. La familia 3.5 era suficientemente buena para una gran fracción del tráfico de producción de 2024; la pregunta es si su carga de trabajo específica sigue beneficiándose de este anclaje o si debería haberse movido hace un año.

Segundo, ejecute una evaluación real contra su candidato de migración. Los modelos más recientes a menudo necesitan prompts diferentes, y mantener la ingeniería de prompts de la era 0125 puede hacer que un sucesor parezca peor de lo que es.

Tercero, planifique la transición antes de que llegue el correo de obsolescencia. La familia 3.5 está en un calendario finito. El tráfico de producción en una instantánea 3.5 anclada es un riesgo conocido; un riesgo conocido es uno que puede mitigar en su propio calendario.

Para la comparación entre categorías, consulte /benchmarks/leaderboard.

Cuándo elegirlo

No elija esta instantánea para nuevas construcciones. La familia 3.5 está obsoleta y los identificadores anclados eventualmente serán discontinuados.

Para las integraciones existentes, planifique la migración. El sucesor de comportamiento más similar para las cargas de trabajo con forma de 0125 es GPT-4o mini; el movimiento prospectivo es la familia GPT-4.1. En cualquier caso, la transición debería ocurrir en su calendario de lanzamiento, no en el calendario de obsolescencia de OpenAI.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

26 jul 2026 · 05:31 UTC · Benchmark

Latencia P50

1486 ms

Latencia P95

—

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026