Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-3.5-turbo-instruct

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-3.5-turbo-instruct es un modelo de generación de texto desarrollado por OpenAI, basado en la arquitectura GPT-3.5. Opera como un modelo de completación, lo que significa que continúa el texto a partir de un prompt dado en lugar de seguir un formato conversacional de chat. Este modelo utiliza la metodología de entrenamiento InstructGPT, que incorpora aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para seguir mejor las instrucciones y producir resultados alineados con la intención del usuario. Está diseñado para tareas de completación de un solo turno donde los usuarios proporcionan un prompt y reciben una respuesta de texto generada. El modelo está optimizado para casos de uso tradicionales de generación de texto que incluyen escritura creativa, resumen, transformación de texto, generación de código y otras tareas que se benefician de una interfaz de estilo completación. A diferencia de los modelos optimizados para chat, gpt-3.5-turbo-instruct no mantiene contexto conversacional a través de múltiples intercambios y en su lugar se enfoca en producir respuestas de alta calidad a prompts individuales. Comparte las mejoras de arquitectura subyacentes de la serie GPT-3.5, incluyendo capacidades mejoradas de seguimiento de instrucciones en comparación con los modelos base GPT-3. En la línea de modelos de OpenAI, gpt-3.5-turbo-instruct ocupa una posición especializada como el modelo de completación principal en la familia GPT-3.5. Aunque la mayor parte del desarrollo reciente de OpenAI se ha enfocado en modelos optimizados para chat como gpt-3.5-turbo y GPT-4, este modelo sirve a usuarios que específicamente requieren interacciones de estilo completación. Reemplazó efectivamente modelos de completación GPT-3 anteriores como text-davinci-003, ofreciendo rendimiento mejorado con la metodología de ajuste por instrucciones mientras mantiene la interfaz de completación.

GPT-3.5-turbo-instruct representa la última generación de modelos de completado de OpenAI, combinando la arquitectura GPT-3.5 con entrenamiento InstructGPT para tareas que requieren respuestas directas en lugar de conversación.

Análisis técnico de Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-3.5-turbo-instruct
$1.50 por 1M de tokens de entrada
$2.00 por 1M de tokens de salida
≈ $0.0013 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$1.50
por 1M de tokens de salida$2.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.50

input / 1M

— no change

$2.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Seguimiento preciso de instrucciones vía RLHFExcelente para escritura creativa y narrativaFormato de completado ideal para transformacionesGeneración eficaz de código y scriptsResúmenes de alta calidad en un turnoRespuestas rápidas sin overhead conversacionalAPI simple para integraciones directasReemplazo mejorado de modelos GPT-3 base

Debilidades

Sin contexto conversacional multi-turnoFecha de corte de conocimiento limitadaMenor desarrollo activo vs modelos chatSolo procesamiento de texto, sin multimodalidad
Sección 03

Preguntas frecuentes

Usa gpt-3.5-turbo-instruct cuando necesites completado de texto tradicional (continuar desde un prompt) en lugar de formato conversacional. Es ideal para generación creativa, transformaciones de texto y tareas donde no necesitas mantener historial de chat.

Para equipos que necesitan un modelo de completado confiable con capacidades sólidas de seguimiento de instrucciones, gpt-3.5-turbo-instruct ofrece un equilibrio probado entre rendimiento y accesibilidad en el ecosistema OpenAI.

Evaluación comparativa de Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

Línea base establecida para el modelo de completado GPT-3.5-turbo-instruct.

Este benchmark inicial establece el perfil de rendimiento de referencia para GPT-3.5-turbo-instruct, la variante de GPT-3.5 optimizada para completado de OpenAI. Como primer veredicto, todas las métricas representan el punto de referencia inicial para comparaciones futuras. El modelo evidencia su posicionamiento como alternativa orientada al completado frente al GPT-3.5-turbo basado en chat, diseñada para tareas de seguimiento de instrucciones de un solo turno y generación de texto. Los usuarios deben tener en cuenta que esta variante utiliza el formato de API de completion en lugar del formato de API de chat, lo que la hace adecuada para casos de uso específicos como inserción de texto, escritura creativa y generación de salidas estructuradas. Los datos de referencia capturan las capacidades actuales del modelo en las dimensiones estándar de benchmarking. Los veredictos futuros rastrearán cómo evoluciona el rendimiento a lo largo del tiempo, identificando mejoras o regresiones en la calidad, consistencia y comportamiento de las respuestas. Dado que esta es la primera evaluación, todavía no se pueden establecer tendencias de rendimiento ni patrones de estabilidad. El comportamiento del modelo bajo distintas estrategias de prompting y tipos de tareas se irá clarificando a medida que se acumulen ventanas de benchmark adicionales, lo que permitirá un análisis longitudinal significativo de su trayectoria de desarrollo y sus características de fiabilidad.

Quality

Latency p50

Test runs

0

Línea base inicial establecida
Sección 06

Perfil completo del modelo

gpt-3.5-turbo-instruct — illustration 1

⚠️ Modelo obsoleto. OpenAI ha retirado este modelo. Para nuevos proyectos, consulte GPT-4o mini para uso general rentable o GPT-4.1 para un razonamiento más sólido. Las integraciones existentes deben planificar la migración antes de que el endpoint de la API sea discontinuado.

gpt-3.5-turbo-instruct: el 3.5 de estilo completions

gpt-3.5-turbo-instruct es la variante de GPT-3.5 Turbo que expuso el modelo a través de la API de Completions heredada en lugar de la interfaz de Chat Completions. Texto simple como entrada, texto como salida, sin array de messages, sin roles, sin formato de chat envuelto alrededor del prompt: solo el prompt en sí, y lo que el modelo continúa.

Está obsoleto ahora. El endpoint sigue respondiendo pero la propia superficie de la API de Completions ha ido desapareciendo gradualmente en toda la línea OpenAI, y este modelo es uno de los últimos bastiones significativos.

Por qué existía una variante separada

Cuando OpenAI lanzó GPT-3.5 Turbo en marzo de 2023, la API de Chat Completions era el nuevo patrón. El array de messages, el rol del sistema, el prompting basado en roles: todo eso era infraestructura nueva. Mucho código en el mundo estaba escrito contra la antigua API de Completions usada por GPT-3, donde se enviaba una cadena y el modelo la continuaba.

Migrar ese código a la interfaz de chat no era trivial. Los prompts tenían que reestructurarse, los límites de roles tenían que definirse, y los casos extremos donde el formato del chat cambiaba el comportamiento del modelo tenían que depurarse. Para los equipos que tenían pipelines de producción construidos contra la superficie de la API más antigua, OpenAI lanzó gpt-3.5-turbo-instruct como puente: los mismos pesos del modelo que el 3.5 Turbo regular, expuestos a través de la forma antigua de la API.

La variante era particularmente útil para tres formas de carga de trabajo. Pipelines de clasificación y etiquetado donde se quería un solo token o una etiqueta corta sin que el modelo envolviera la respuesta en una respuesta conversacional. Flujos de trabajo de estilo completado de código donde el prompt ya era una salida parcial y se quería continuación, no un turno de chat. Pipelines dependientes de logprobs donde la API de Completions exponía las probabilidades de tokens de forma más directa que la superficie de chat.

Para las tres, la interfaz de chat añadía sobrecarga: tokens extra para el formateo, comportamiento del modelo moldeado por estar entrenado en respuestas de estilo chat, estilo de salida ligeramente diferente. La variante instruct permitía que esas cargas de trabajo siguieran funcionando de la forma antigua.

Cómo se comportaba el modelo

El mismo comportamiento de la generación 3.5 que el resto de la familia. Profundidad de razonamiento al nivel de 3.5. Factualidad que necesitaba recuperación aumentada o revisión humana en las rutas factuales. Calibración de rechazos que era ocasionalmente demasiado proactiva y ocasionalmente demasiado complaciente.

Lo que no se comportaba como era un modelo de chat. La variante instruct no envolvía las respuestas en un marco conversacional, no producía texto estándar de "como asistente de IA", no añadía advertencias de las formas entrenadas en el chat. Para las cargas de trabajo que querían una continuación limpia era una mejor opción que el 3.5 Turbo regular, aunque la capacidad subyacente era la misma.

La ventana de contexto de 16 385 tokens fue heredada de la familia 3.5 más amplia.

Por qué los equipos anclaron a instruct

Dos razones además de la de código heredado mencionada arriba.

Primera, acceso a logprobs. La API de Completions exponía los logprobs a nivel de token de forma más directa que la interfaz de chat. Los equipos que hacían decodificación restringida, muestreo de salida estructurada, clasificación con puntuaciones de confianza, o cualquier trabajo posterior consciente de logprobs anclaron a la variante instruct por esa superficie. La interfaz de chat eventualmente creció capacidades similares pero la API de instruct era la forma más limpia para ese tipo de trabajo durante mucho tiempo.

Segunda, menos tokens de formateo. La interfaz de chat añade unos pocos tokens de formateo a cada solicitud, lo que se acumula a alto volumen. Para cargas de trabajo con prompts muy cortos y completaciones muy cortas, la sobrecarga de tokenización de la variante instruct era menor, lo que se traducía en costes por llamada ligeramente más baratos y latencia ligeramente más baja.

Ambas razones se han debilitado con el tiempo conforme la interfaz de chat maduró, pero los anclajes originales siguen en código de producción que no ha sido re-arquitectado.

Migración

La variante instruct dedicada no tiene un sucesor directo en la línea OpenAI. La API de Completions está suficientemente cerrada como para que ningún modelo actual se ofrezca a través de ella como superficie principal.

Para las cargas de trabajo que anclaron a instruct por razones de código heredado, la migración es a la interfaz de chat en un modelo actual. GPT-4o mini es la coincidencia de comportamiento más cercana para el tráfico con forma de chat. La re-arquitectura del prompt es la mayor parte del trabajo: una vez que una carga de trabajo está en la interfaz de chat, la actualización del modelo en sí es un cambio de etiqueta.

Para las cargas de trabajo dependientes de logprobs, la interfaz de chat en los modelos OpenAI actuales expone los datos relevantes, aunque los patrones de integración son diferentes. Los equipos que hacen decodificación restringida o muestreo estructurado pueden encontrar que la característica de salidas estructuradas estrictas en GPT-4o y GPT-4.1 encaja mejor que el muestreo consciente de logprobs contra un modelo instruct más antiguo.

Para la clasificación de alto volumen donde importa la sobrecarga de tokens de formateo, gpt-4.1-nano o un modelo de peso abierto de la familia Gemma 3 es una mejor opción que otra variante instruct de 3.5. El coste por llamada en los modelos de tier barato actuales está muy por debajo del precio de 3.5 Turbo.

Qué hacer hoy

Si gpt-3.5-turbo-instruct sigue en su stack, la migración es una de las más pesadas en la familia 3.5. La propia superficie de la API está cambiando, no solo el modelo. Re-arquitectar alrededor de la interfaz de chat es más trabajo que cambiar un identificador de modelo.

Planifíquelo deliberadamente. Audite cada sitio de llamada. Para cada uno, decida si la carga de trabajo sigue perteneciendo a un modelo pequeño en absoluto, o si el movimiento correcto es consolidarla en un pipeline más amplio que corra en un modelo frontier o de tier medio actual. La mayoría de los equipos que auditan honestamente encuentran que el despliegue instruct original estaba resolviendo un problema que ya no existe.

Para el contexto más amplio de 3.5, consulte GPT-3.5 Turbo. Para la dirección de la línea OpenAI actual, consulte GPT-4.1.

Cuándo elegirlo

No elija esta variante para nuevas construcciones. La API de Completions está siendo retirada en toda la línea OpenAI y la generación 3.5 está obsoleta.

Para las integraciones existentes, la migración es a la interfaz de chat en un modelo actual. Planifíquela antes de que llegue la fecha de obsolescencia.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-3.5-turbo-instruct — illustration 2
Última prueba automática
27 may 2026 · 21:57 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026