
GPT-3.5 Turbo: el modelo que construyó la economía de API⚠️ Modelo obsoleto. OpenAI ha retirado este modelo. Para nuevos proyectos, consulte GPT-4o mini para uso general rentable o GPT-4.1 para un razonamiento más sólido. Las integraciones existentes deben planificar la migración antes de que el endpoint de la API sea discontinuado.
GPT-3.5 Turbo es la versión con identificador flotante del modelo que convirtió la API de Chat Completions de OpenAI en el valor predeterminado para toda una generación de productos. Lanzado en marzo de 2023 y refinado a través de múltiples fechas de instantánea, impulsó desde chatbots de atención al cliente hasta pipelines de extracción de datos y la primera ola de productos SaaS respaldados por LLM que se lanzaron en 2023 y 2024.
Ahora está retirado. El endpoint sigue respondiendo en el identificador flotante, pero los nuevos proyectos no deberían apuntarlo.
Por qué importó este modelo
Tres cosas convirtieron GPT-3.5 Turbo en el punto de inflexión.
Coste. Cuando se lanzó, GPT-3.5 Turbo era un orden de magnitud más barato que el GPT-4 que llegó un mes después, y aproximadamente una décima parte de lo que costaba davinci de GPT-3 en términos de precio por token. Ese punto de precio fue lo que transformó las características respaldadas por LLM de "demostración interesante" a "línea de producto que se puede lanzar". Los márgenes funcionaban.
Velocidad. El perfil de latencia fue un cambio de nivel respecto a los modelos OpenAI anteriores. El chat interactivo se volvió genuinamente interactivo. El streaming funcionó suficientemente bien como para que los productos pudieran lanzar una UI de efecto máquina de escribir que no se sentía lenta.
La forma de la API. GPT-3.5 Turbo fue el modelo que OpenAI usó para lanzar la superficie de Chat Completions: el array de messages, el rol system, el patrón de prompting basado en roles que se convirtió en el estándar del sector. La siguiente generación de modelos heredó esa forma. El patrón que usa la mayoría del código LLM actual comenzó aquí.
Qué se construyó sobre él
Una gran cantidad de cosas. Chatbots de atención al cliente de primera generación en el sector minorista y de servicios financieros. La primera ola de asistentes de escritura. Servicios de generación de contenido. Frameworks de agentes tempranos que dependían de llamadas baratas al modelo por paso. Servicios de traducción y resumen que necesitaban que la economía unitaria funcionara. El modelo apareció en todo porque el triángulo precio-calidad-latencia fue el primero en estar suficientemente equilibrado como para lanzarse a escala.
El encuadre honesto es que muchos de esos productos no habrían sobrevivido la migración a GPT-4 si 4o y la familia GPT-4.1 no hubieran llegado después para acercar la capacidad de clase frontier hacia los precios de clase 3.5. La generación 3.5 creó el mercado; las generaciones posteriores lo consolidaron.
Dónde el modelo se quedaba corto
Profundidad de razonamiento. GPT-3.5 Turbo era funcional para tareas superficiales. El razonamiento de múltiples pasos, la síntesis de código novedoso, la lógica densa: todo visiblemente más débil que lo que GPT-4 aportó un mes después. La mayoría de los despliegues de producción lo sorteaban dividiendo las tareas en pasos más pequeños o enrutando los prompts difíciles a GPT-4 y reservando 3.5 para el tráfico masivo.
Factualidad. El modelo alucinaba libremente. Las respuestas incorrectas con confianza eran frecuentes y requerían o bien generación aumentada por recuperación o revisión humana en cualquier ruta de afirmación factual.
Calibración de rechazos. El estilo de rechazo de 3.5 era inconsistente: demasiado propenso a rechazar algunos prompts, demasiado dispuesto a cumplir con otros que los modelos frontier rechazarían. Los equipos de producción escribían guardarraíles en la capa de prompts para compensar.
Rutas de migración
Los sucesores recomendados por OpenAI son GPT-4o mini para uso general rentable y GPT-4.1 para razonamiento más sólido. La elección correcta depende de la carga de trabajo.
Para el tráfico con forma de chat que corría en 3.5 Turbo sin problemas, GPT-4o mini es la migración de comportamiento más cercana. La latencia es comparable, la superficie de la API es la misma, y el incremento de calidad es suficientemente grande como para que la mayoría de los equipos vean subir las puntuaciones de evaluación sin cambiar los prompts.
Para cargas de trabajo que empujaban 3.5 más allá de su techo de razonamiento —bucles de agentes, extracción de múltiples pasos, trabajo adyacente al código— tiene más sentido migrar a gpt-4.1-mini o al GPT-4.1 completo. La variante mini mantiene un perfil de coste que la mayoría de los despliegues de la era 3.5 pueden absorber; el modelo completo es para los prompts donde la calidad del razonamiento realmente importa.
Para trabajo de clasificación de alto volumen que corría en 3.5 para mantener los costes bajos, gpt-4.1-nano o un modelo de peso abierto de la familia Gemma 3 es el mejor destino. La ventaja de coste de 3.5 ya no aplica; existen opciones más baratas.
Qué hacer hoy
Si todavía ejecuta 3.5 Turbo en producción, los elementos de acción son concretos.
Primero, confirme su objetivo de migración con un ciclo de evaluación real en sus propios prompts. La aritmética del número de versión sugiere que el nuevo modelo es "obviamente mejor", pero las cargas de trabajo varían y se quieren diferencias medidas, no asumidas.
Segundo, vigile el calendario de obsolescencia. OpenAI ha anunciado fechas de discontinuación para la familia 3.5 y el identificador flotante eventualmente dejará de responder. Planifique la transición para una ventana de lanzamiento de su elección.
Tercero, si sus prompts contienen algo específico de los quirks de 3.5 —soluciones en la capa de prompts para patrones de rechazo conocidos, fraseología ajustada manualmente para obtener un estilo de salida específico— revise eso al migrar. Los modelos más recientes a menudo necesitan un prompting diferente, y mantener la ingeniería de prompts de la era 3.5 puede hacer que un sucesor parezca peor de lo que es.
Para la comparación de modelos entre categorías, consulte /benchmarks/leaderboard. Para la dirección más amplia de la línea OpenAI, consulte GPT-4.1.
Cuándo elegirlo
No elija este modelo para nuevas construcciones. Está obsoleto y el identificador flotante será discontinuado. Para las integraciones existentes, planifique la migración a GPT-4o mini, GPT-4.1 mini o GPT-4.1 según la forma de la carga de trabajo, y tenga lista la transición antes de que llegue la fecha de obsolescencia.
La generación GPT-3.5 construyó la base sobre la que corre la economía de API actual. No tiene que ser el modelo sobre el que se lance su próximo proyecto.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

