
GPT-3.5 Turbo : le modèle qui a bâti l'économie des API⚠️ Modèle déprécié. OpenAI a retiré ce modèle. Pour les nouveaux projets, consultez GPT-4o mini pour un usage généraliste économique ou GPT-4.1 pour un raisonnement plus solide. Les intégrations existantes doivent planifier leur migration avant l'extinction du point d'accès API.
GPT-3.5 Turbo est la version à tag flottant du modèle qui a fait de l'API Chat Completions d'OpenAI le standard par défaut pour toute une génération de produits. Lancé en mars 2023 et raffiné au fil de plusieurs dates de snapshot, il a alimenté tout, du chat de support client aux pipelines d'extraction de données, en passant par la première vague de produits SaaS adossés à des LLM qui ont vu le jour en 2023 et 2024.
Il est désormais retiré. Le point d'accès répond encore sur le tag flottant, mais aucun nouveau projet ne devrait le cibler.
Pourquoi ce modèle a compté
Trois éléments ont fait de GPT-3.5 Turbo le point d'inflexion.
Le coût. Au moment de son lancement, GPT-3.5 Turbo était d'un ordre de grandeur moins cher que le GPT-4 qui est arrivé un mois plus tard, et environ dix fois moins cher que le davinci de GPT-3 sur la base du tarif par token. Ce niveau de prix est ce qui a transformé les fonctionnalités adossées à un LLM de « démo intéressante » en « gamme de produits livrable ». Les marges fonctionnaient.
La vitesse. Le profil de latence représentait un saut qualitatif par rapport aux modèles OpenAI antérieurs. Le chat interactif est devenu réellement interactif. Le streaming fonctionnait suffisamment bien pour que les produits puissent livrer une interface à effet machine à écrire qui ne semblait pas saccadée.
La forme de l'API. GPT-3.5 Turbo est le modèle qu'OpenAI a utilisé pour déployer la surface Chat Completions — le tableau messages, le rôle system, le motif de prompting fondé sur les rôles qui est devenu le standard de l'industrie. La génération suivante de modèles a hérité de cette forme. Le motif qu'utilise la plupart du code LLM actuel a démarré ici.
Ce qui a été construit dessus
Beaucoup de choses. Les chatbots de support client de première génération dans la distribution et les services financiers. La première vague d'assistants à l'écriture. Les services de génération de contenu qui ont rempli les premiers panneaux publicitaires SaaS. Les premiers frameworks d'agents qui dépendaient d'appels de modèle bon marché à chaque étape. Les services de traduction et de résumé qui avaient besoin que les coûts unitaires tiennent. Le modèle est apparu partout parce que le triangle prix-qualité-latence a été le premier à être suffisamment équilibré pour être livré à grande échelle.
L'analyse honnête est qu'un grand nombre de ces produits n'auraient pas survécu au passage à GPT-4 si 4o et la famille GPT-4.1 n'étaient pas arrivés plus tard pour ramener la capacité de classe frontière vers une tarification de classe 3.5. La génération 3.5 a créé le marché ; les générations suivantes l'ont consolidé.
Là où le modèle a montré ses limites
La profondeur de raisonnement. GPT-3.5 Turbo était utilisable pour des tâches de surface. Le raisonnement multi-étapes, la synthèse de code inédit, la logique dense — tous visiblement plus faibles que ce que GPT-4 a apporté un mois plus tard. La plupart des déploiements en production contournaient ce problème en découpant les tâches en étapes plus petites ou en aiguillant les prompts difficiles vers GPT-4 tout en réservant 3.5 au gros du trafic.
La factualité. Le modèle hallucinait sans retenue. Les réponses fausses énoncées avec assurance étaient fréquentes et exigeaient soit de la génération augmentée par récupération, soit une revue humaine sur tout chemin comportant une affirmation factuelle.
Le calibrage des refus. Le style de refus de 3.5 était incohérent — trop empressé à décliner certains prompts, trop disposé à se conformer à d'autres que les modèles de frontière repousseraient. Les équipes en production ont écrit des garde-fous au niveau du prompt pour compenser.
Chemins de migration
Les successeurs recommandés par OpenAI sont GPT-4o mini pour un usage généraliste économique et GPT-4.1 pour un raisonnement plus solide. Le bon choix dépend de la charge de travail.
Pour un trafic de type chat qui tournait sur 3.5 Turbo sans poser de problème, GPT-4o mini est la migration comportementale la plus proche. La latence est comparable, la surface API est identique, et le saut de qualité est suffisamment large pour que la plupart des équipes voient leurs scores d'évaluation augmenter sans modification des prompts.
Pour les charges de travail qui poussaient 3.5 au-delà de son plafond de raisonnement — boucles d'agent, extraction multi-étapes, travail proche du code — passer à gpt-4.1-mini ou à GPT-4.1 complet a plus de sens. La variante mini conserve un profil de coût que la plupart des déploiements de l'ère 3.5 peuvent absorber ; le modèle complet est réservé aux prompts où la qualité du raisonnement compte réellement.
Pour le travail de classification à fort volume qui tournait sur 3.5 pour maîtriser les coûts, gpt-4.1-nano ou un modèle à poids ouverts de la famille Gemma 3 est la meilleure destination. L'avantage de coût de 3.5 ne s'applique plus ; des options moins chères existent.
Que faire aujourd'hui
Si vous faites encore tourner 3.5 Turbo en production, les actions à mener sont concrètes.
Premièrement, confirmez votre cible de migration par un véritable cycle d'évaluation sur vos propres prompts. L'arithmétique des numéros de version suggère que le nouveau modèle est « manifestement meilleur », mais les charges de travail varient et vous voulez des écarts mesurés, pas supposés.
Deuxièmement, surveillez le calendrier de dépréciation. OpenAI a annoncé des dates d'extinction pour la famille 3.5 et le tag flottant finira par cesser de répondre. Planifiez le basculement pour une fenêtre de mise en production de votre choix.
Troisièmement, si vos prompts contiennent quoi que ce soit de spécifique aux particularités de 3.5 — contournements au niveau du prompt pour des motifs de refus connus, formulations ajustées à la main pour obtenir un style de sortie particulier — réauditez ces éléments lors de la migration. Les modèles plus récents nécessitent souvent un prompting différent, et reporter telle quelle l'ingénierie de prompt de l'ère 3.5 peut faire paraître un successeur moins bon qu'il ne l'est.
Pour la comparaison de modèles inter-catégories, voir /benchmarks/leaderboard. Pour l'orientation plus large de la gamme OpenAI, voir GPT-4.1.
Le choisir
Ne choisissez pas ce modèle pour de nouvelles réalisations. Il est déprécié et le tag flottant sera éteint. Pour les intégrations existantes, planifiez la migration vers GPT-4o mini, GPT-4.1 mini ou GPT-4.1 selon la forme de la charge de travail, et préparez le basculement avant que la date de dépréciation n'arrive.
La génération GPT-3.5 a bâti les fondations sur lesquelles repose l'économie actuelle des API. Elle n'a pas vocation à être le modèle sur lequel votre prochain projet sera livré.
Dernière revue technique : 2026-05-22 — Tokonomix.ai

