Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-3.5-turbo

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-3.5-turbo es un modelo de lenguaje grande desarrollado por OpenAI, basado en la arquitectura GPT-3.5. Representa una versión optimizada de la serie GPT-3.5 de OpenAI, específicamente diseñada para aplicaciones basadas en chat e interfaces conversacionales. El modelo utiliza una arquitectura de red neuronal basada en transformers y ha sido ajustado mediante aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para mejorar su capacidad de seguir instrucciones y generar respuestas contextualmente apropiadas. Este modelo está diseñado para una amplia gama de tareas de procesamiento de lenguaje natural, incluyendo IA conversacional, completado de texto, respuesta a preguntas, resumen y generación de texto de propósito general. Procesa la entrada como una serie de mensajes y genera respuestas coherentes y contextualmente relevantes. Aunque el tamaño exacto de la ventana de contexto no ha sido divulgado públicamente por OpenAI, el modelo mantiene el contexto conversacional a través de múltiples intercambios dentro de una sesión. GPT-3.5-turbo demuestra un rendimiento sólido en mantener el flujo de conversación, comprender instrucciones matizadas y adaptar su estilo de salida según las indicaciones del usuario. Dentro de la línea de modelos de OpenAI, GPT-3.5-turbo se sitúa por debajo de la serie GPT-4 más avanzada en términos de capacidades y poder de razonamiento, pero ofrece tiempos de respuesta más rápidos y mayor accesibilidad. Sirvió como el modelo principal de OpenAI para ChatGPT durante el lanzamiento público inicial del servicio y sigue siendo una opción ampliamente implementada para desarrolladores que construyen aplicaciones de chat, bots de servicio al cliente y asistentes de IA interactivos. El modelo representa un equilibrio entre capacidad y eficiencia para tareas estándar de conversación y generación de texto.

GPT-3.5-turbo marcó un punto de inflexión en la democratización de los modelos conversacionales, ofreciendo un equilibrio práctico entre velocidad y capacidad que lo convirtió en la columna vertebral de miles de aplicaciones de chat.

Análisis de adopción Tokonomix 2024
Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
97
Multilingüe
78
Razonamiento
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-3.5-turbo
$0.5000 por 1M de tokens de entrada
$1.50 por 1M de tokens de salida
≈ $0.0006 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.5000
por 1M de tokens de salida$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$1.50

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Tiempos de respuesta rápidosOptimizado para interfaces conversacionalesBuena comprensión de instruccionesMantiene contexto en conversacionesAmplio conocimiento generalAlta disponibilidad y estabilidadAPI bien documentada y maduraGran ecosistema de desarrolladores

Debilidades

Razonamiento limitado vs modelos superioresConocimiento con fecha de corteMenor precisión en tareas complejasSin capacidades multimodales nativas
Sección 04

Capacidades

toolssource: litellmprompt cachingmax output tokens: 4096
Sección 05

Preguntas frecuentes

GPT-3.5-turbo es ideal cuando necesitas respuestas rápidas para conversaciones estándar, atención al cliente básica o tareas de generación de texto donde la velocidad y el costo son prioritarios sobre el razonamiento avanzado. Para análisis complejos, código sofisticado o razonamiento profundo, GPT-4 es más apropiado.

Aunque ha sido superado por modelos más avanzados en razonamiento complejo, GPT-3.5-turbo sigue siendo una opción sólida para aplicaciones conversacionales donde la velocidad y la eficiencia importan más que la sofisticación extrema.

Resumen editorial Tokonomix
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-581/100 · 76 runs
48 correct15 partial13 wrong63% accuracy
2026-06-14

New tool calling and prompt caching capabilities added

GPT-3.5 Turbo has introduced two notable capabilities in this benchmark window: tool calling and prompt caching support. The addition of tool calling functionality enables the model to interact with external functions and APIs, expanding its utility for developers building agentic applications and structured workflows. Prompt caching support offers potential performance and efficiency improvements for applications with repeated context, though specific performance metrics are not yet available in the benchmark data. These additions represent meaningful enhancements to the model's feature set, bringing capabilities that were previously only available in more advanced models. However, without performance benchmarks in either the current or previous windows, we cannot assess the model's core capabilities in areas such as reasoning accuracy, response quality, latency, or reliability. Users should note that while these new features expand what's technically possible with GPT-3.5 Turbo, the absence of benchmark data means the model's fundamental performance characteristics remain unvalidated in this assessment period. These capability additions suggest continued investment in the model's ecosystem despite its position as a more economical option in OpenAI's model lineup.

Quality

Latency p50

Test runs

0

Tool calling support added Prompt caching now available
Sección 08

Perfil completo del modelo

gpt-3.5-turbo — illustration 1

⚠️ Modelo obsoleto. OpenAI ha retirado este modelo. Para nuevos proyectos, consulte GPT-4o mini para uso general rentable o GPT-4.1 para un razonamiento más sólido. Las integraciones existentes deben planificar la migración antes de que el endpoint de la API sea discontinuado.

GPT-3.5 Turbo: el modelo que construyó la economía de API

GPT-3.5 Turbo es la versión con identificador flotante del modelo que convirtió la API de Chat Completions de OpenAI en el valor predeterminado para toda una generación de productos. Lanzado en marzo de 2023 y refinado a través de múltiples fechas de instantánea, impulsó desde chatbots de atención al cliente hasta pipelines de extracción de datos y la primera ola de productos SaaS respaldados por LLM que se lanzaron en 2023 y 2024.

Ahora está retirado. El endpoint sigue respondiendo en el identificador flotante, pero los nuevos proyectos no deberían apuntarlo.

Por qué importó este modelo

Tres cosas convirtieron GPT-3.5 Turbo en el punto de inflexión.

Coste. Cuando se lanzó, GPT-3.5 Turbo era un orden de magnitud más barato que el GPT-4 que llegó un mes después, y aproximadamente una décima parte de lo que costaba davinci de GPT-3 en términos de precio por token. Ese punto de precio fue lo que transformó las características respaldadas por LLM de "demostración interesante" a "línea de producto que se puede lanzar". Los márgenes funcionaban.

Velocidad. El perfil de latencia fue un cambio de nivel respecto a los modelos OpenAI anteriores. El chat interactivo se volvió genuinamente interactivo. El streaming funcionó suficientemente bien como para que los productos pudieran lanzar una UI de efecto máquina de escribir que no se sentía lenta.

La forma de la API. GPT-3.5 Turbo fue el modelo que OpenAI usó para lanzar la superficie de Chat Completions: el array de messages, el rol system, el patrón de prompting basado en roles que se convirtió en el estándar del sector. La siguiente generación de modelos heredó esa forma. El patrón que usa la mayoría del código LLM actual comenzó aquí.

Qué se construyó sobre él

Una gran cantidad de cosas. Chatbots de atención al cliente de primera generación en el sector minorista y de servicios financieros. La primera ola de asistentes de escritura. Servicios de generación de contenido. Frameworks de agentes tempranos que dependían de llamadas baratas al modelo por paso. Servicios de traducción y resumen que necesitaban que la economía unitaria funcionara. El modelo apareció en todo porque el triángulo precio-calidad-latencia fue el primero en estar suficientemente equilibrado como para lanzarse a escala.

El encuadre honesto es que muchos de esos productos no habrían sobrevivido la migración a GPT-4 si 4o y la familia GPT-4.1 no hubieran llegado después para acercar la capacidad de clase frontier hacia los precios de clase 3.5. La generación 3.5 creó el mercado; las generaciones posteriores lo consolidaron.

Dónde el modelo se quedaba corto

Profundidad de razonamiento. GPT-3.5 Turbo era funcional para tareas superficiales. El razonamiento de múltiples pasos, la síntesis de código novedoso, la lógica densa: todo visiblemente más débil que lo que GPT-4 aportó un mes después. La mayoría de los despliegues de producción lo sorteaban dividiendo las tareas en pasos más pequeños o enrutando los prompts difíciles a GPT-4 y reservando 3.5 para el tráfico masivo.

Factualidad. El modelo alucinaba libremente. Las respuestas incorrectas con confianza eran frecuentes y requerían o bien generación aumentada por recuperación o revisión humana en cualquier ruta de afirmación factual.

Calibración de rechazos. El estilo de rechazo de 3.5 era inconsistente: demasiado propenso a rechazar algunos prompts, demasiado dispuesto a cumplir con otros que los modelos frontier rechazarían. Los equipos de producción escribían guardarraíles en la capa de prompts para compensar.

Rutas de migración

Los sucesores recomendados por OpenAI son GPT-4o mini para uso general rentable y GPT-4.1 para razonamiento más sólido. La elección correcta depende de la carga de trabajo.

Para el tráfico con forma de chat que corría en 3.5 Turbo sin problemas, GPT-4o mini es la migración de comportamiento más cercana. La latencia es comparable, la superficie de la API es la misma, y el incremento de calidad es suficientemente grande como para que la mayoría de los equipos vean subir las puntuaciones de evaluación sin cambiar los prompts.

Para cargas de trabajo que empujaban 3.5 más allá de su techo de razonamiento —bucles de agentes, extracción de múltiples pasos, trabajo adyacente al código— tiene más sentido migrar a gpt-4.1-mini o al GPT-4.1 completo. La variante mini mantiene un perfil de coste que la mayoría de los despliegues de la era 3.5 pueden absorber; el modelo completo es para los prompts donde la calidad del razonamiento realmente importa.

Para trabajo de clasificación de alto volumen que corría en 3.5 para mantener los costes bajos, gpt-4.1-nano o un modelo de peso abierto de la familia Gemma 3 es el mejor destino. La ventaja de coste de 3.5 ya no aplica; existen opciones más baratas.

Qué hacer hoy

Si todavía ejecuta 3.5 Turbo en producción, los elementos de acción son concretos.

Primero, confirme su objetivo de migración con un ciclo de evaluación real en sus propios prompts. La aritmética del número de versión sugiere que el nuevo modelo es "obviamente mejor", pero las cargas de trabajo varían y se quieren diferencias medidas, no asumidas.

Segundo, vigile el calendario de obsolescencia. OpenAI ha anunciado fechas de discontinuación para la familia 3.5 y el identificador flotante eventualmente dejará de responder. Planifique la transición para una ventana de lanzamiento de su elección.

Tercero, si sus prompts contienen algo específico de los quirks de 3.5 —soluciones en la capa de prompts para patrones de rechazo conocidos, fraseología ajustada manualmente para obtener un estilo de salida específico— revise eso al migrar. Los modelos más recientes a menudo necesitan un prompting diferente, y mantener la ingeniería de prompts de la era 3.5 puede hacer que un sucesor parezca peor de lo que es.

Para la comparación de modelos entre categorías, consulte /benchmarks/leaderboard. Para la dirección más amplia de la línea OpenAI, consulte GPT-4.1.

Cuándo elegirlo

No elija este modelo para nuevas construcciones. Está obsoleto y el identificador flotante será discontinuado. Para las integraciones existentes, planifique la migración a GPT-4o mini, GPT-4.1 mini o GPT-4.1 según la forma de la carga de trabajo, y tenga lista la transición antes de que llegue la fecha de obsolescencia.

La generación GPT-3.5 construyó la base sobre la que corre la economía de API actual. No tiene que ser el modelo sobre el que se lance su próximo proyecto.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-3.5-turbo — illustration 2gpt-3.5-turbo — illustration 3
Última prueba automática
14 jun 2026 · 04:59 UTC · Benchmark
Latencia P50
1995 ms
Latencia P95
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026