
gpt-3.5-turbo-instruct: el 3.5 de estilo completions⚠️ Modelo obsoleto. OpenAI ha retirado este modelo. Para nuevos proyectos, consulte GPT-4o mini para uso general rentable o GPT-4.1 para un razonamiento más sólido. Las integraciones existentes deben planificar la migración antes de que el endpoint de la API sea discontinuado.
gpt-3.5-turbo-instruct es la variante de GPT-3.5 Turbo que expuso el modelo a través de la API de Completions heredada en lugar de la interfaz de Chat Completions. Texto simple como entrada, texto como salida, sin array de messages, sin roles, sin formato de chat envuelto alrededor del prompt: solo el prompt en sí, y lo que el modelo continúa.
Está obsoleto ahora. El endpoint sigue respondiendo pero la propia superficie de la API de Completions ha ido desapareciendo gradualmente en toda la línea OpenAI, y este modelo es uno de los últimos bastiones significativos.
Por qué existía una variante separada
Cuando OpenAI lanzó GPT-3.5 Turbo en marzo de 2023, la API de Chat Completions era el nuevo patrón. El array de messages, el rol del sistema, el prompting basado en roles: todo eso era infraestructura nueva. Mucho código en el mundo estaba escrito contra la antigua API de Completions usada por GPT-3, donde se enviaba una cadena y el modelo la continuaba.
Migrar ese código a la interfaz de chat no era trivial. Los prompts tenían que reestructurarse, los límites de roles tenían que definirse, y los casos extremos donde el formato del chat cambiaba el comportamiento del modelo tenían que depurarse. Para los equipos que tenían pipelines de producción construidos contra la superficie de la API más antigua, OpenAI lanzó gpt-3.5-turbo-instruct como puente: los mismos pesos del modelo que el 3.5 Turbo regular, expuestos a través de la forma antigua de la API.
La variante era particularmente útil para tres formas de carga de trabajo. Pipelines de clasificación y etiquetado donde se quería un solo token o una etiqueta corta sin que el modelo envolviera la respuesta en una respuesta conversacional. Flujos de trabajo de estilo completado de código donde el prompt ya era una salida parcial y se quería continuación, no un turno de chat. Pipelines dependientes de logprobs donde la API de Completions exponía las probabilidades de tokens de forma más directa que la superficie de chat.
Para las tres, la interfaz de chat añadía sobrecarga: tokens extra para el formateo, comportamiento del modelo moldeado por estar entrenado en respuestas de estilo chat, estilo de salida ligeramente diferente. La variante instruct permitía que esas cargas de trabajo siguieran funcionando de la forma antigua.
Cómo se comportaba el modelo
El mismo comportamiento de la generación 3.5 que el resto de la familia. Profundidad de razonamiento al nivel de 3.5. Factualidad que necesitaba recuperación aumentada o revisión humana en las rutas factuales. Calibración de rechazos que era ocasionalmente demasiado proactiva y ocasionalmente demasiado complaciente.
Lo que no se comportaba como era un modelo de chat. La variante instruct no envolvía las respuestas en un marco conversacional, no producía texto estándar de "como asistente de IA", no añadía advertencias de las formas entrenadas en el chat. Para las cargas de trabajo que querían una continuación limpia era una mejor opción que el 3.5 Turbo regular, aunque la capacidad subyacente era la misma.
La ventana de contexto de 16 385 tokens fue heredada de la familia 3.5 más amplia.
Por qué los equipos anclaron a instruct
Dos razones además de la de código heredado mencionada arriba.
Primera, acceso a logprobs. La API de Completions exponía los logprobs a nivel de token de forma más directa que la interfaz de chat. Los equipos que hacían decodificación restringida, muestreo de salida estructurada, clasificación con puntuaciones de confianza, o cualquier trabajo posterior consciente de logprobs anclaron a la variante instruct por esa superficie. La interfaz de chat eventualmente creció capacidades similares pero la API de instruct era la forma más limpia para ese tipo de trabajo durante mucho tiempo.
Segunda, menos tokens de formateo. La interfaz de chat añade unos pocos tokens de formateo a cada solicitud, lo que se acumula a alto volumen. Para cargas de trabajo con prompts muy cortos y completaciones muy cortas, la sobrecarga de tokenización de la variante instruct era menor, lo que se traducía en costes por llamada ligeramente más baratos y latencia ligeramente más baja.
Ambas razones se han debilitado con el tiempo conforme la interfaz de chat maduró, pero los anclajes originales siguen en código de producción que no ha sido re-arquitectado.
Migración
La variante instruct dedicada no tiene un sucesor directo en la línea OpenAI. La API de Completions está suficientemente cerrada como para que ningún modelo actual se ofrezca a través de ella como superficie principal.
Para las cargas de trabajo que anclaron a instruct por razones de código heredado, la migración es a la interfaz de chat en un modelo actual. GPT-4o mini es la coincidencia de comportamiento más cercana para el tráfico con forma de chat. La re-arquitectura del prompt es la mayor parte del trabajo: una vez que una carga de trabajo está en la interfaz de chat, la actualización del modelo en sí es un cambio de etiqueta.
Para las cargas de trabajo dependientes de logprobs, la interfaz de chat en los modelos OpenAI actuales expone los datos relevantes, aunque los patrones de integración son diferentes. Los equipos que hacen decodificación restringida o muestreo estructurado pueden encontrar que la característica de salidas estructuradas estrictas en GPT-4o y GPT-4.1 encaja mejor que el muestreo consciente de logprobs contra un modelo instruct más antiguo.
Para la clasificación de alto volumen donde importa la sobrecarga de tokens de formateo, gpt-4.1-nano o un modelo de peso abierto de la familia Gemma 3 es una mejor opción que otra variante instruct de 3.5. El coste por llamada en los modelos de tier barato actuales está muy por debajo del precio de 3.5 Turbo.
Qué hacer hoy
Si gpt-3.5-turbo-instruct sigue en su stack, la migración es una de las más pesadas en la familia 3.5. La propia superficie de la API está cambiando, no solo el modelo. Re-arquitectar alrededor de la interfaz de chat es más trabajo que cambiar un identificador de modelo.
Planifíquelo deliberadamente. Audite cada sitio de llamada. Para cada uno, decida si la carga de trabajo sigue perteneciendo a un modelo pequeño en absoluto, o si el movimiento correcto es consolidarla en un pipeline más amplio que corra en un modelo frontier o de tier medio actual. La mayoría de los equipos que auditan honestamente encuentran que el despliegue instruct original estaba resolviendo un problema que ya no existe.
Para el contexto más amplio de 3.5, consulte GPT-3.5 Turbo. Para la dirección de la línea OpenAI actual, consulte GPT-4.1.
Cuándo elegirlo
No elija esta variante para nuevas construcciones. La API de Completions está siendo retirada en toda la línea OpenAI y la generación 3.5 está obsoleta.
Para las integraciones existentes, la migración es a la interfaz de chat en un modelo actual. Planifíquela antes de que llegue la fecha de obsolescencia.
Última revisión técnica: 2026-05-22 — Tokonomix.ai
