Aller au contenu
Tier C — Spécialiste
Fonctionne en :USCréé en :United States
OpenAI

gpt-3.5-turbo

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-3.5-turbo est un grand modèle de langage développé par OpenAI, basé sur l'architecture GPT-3.5. Il représente une version optimisée de la série GPT-3.5 d'OpenAI, spécifiquement conçue pour les applications de chat et les interfaces conversationnelles. Le modèle utilise une architecture de réseau de neurones basée sur des transformeurs et a été affiné par apprentissage par renforcement à partir de retours humains (RLHF) pour améliorer sa capacité à suivre des instructions et à générer des réponses contextuellement appropriées. Ce modèle est conçu pour un large éventail de tâches de traitement du langage naturel, notamment l'IA conversationnelle, la complétion de texte, les réponses aux questions, la synthèse et la génération de texte polyvalente. Il traite les entrées sous forme de séries de messages et génère des réponses cohérentes et contextuellement pertinentes. Bien que la taille exacte de la fenêtre de contexte n'ait pas été divulguée publiquement par OpenAI, le modèle maintient le contexte conversationnel sur plusieurs échanges au sein d'une session. GPT-3.5-turbo démontre de solides performances dans le maintien du flux conversationnel, la compréhension d'instructions nuancées et l'adaptation de son style de sortie en fonction des requêtes utilisateur. Au sein de la gamme de modèles d'OpenAI, GPT-3.5-turbo se situe en dessous de la série GPT-4 plus avancée en termes de capacités et de puissance de raisonnement, mais offre des temps de réponse plus rapides et une accessibilité plus large. Il a servi de modèle principal d'OpenAI pour ChatGPT lors du lancement public initial du service et demeure une option largement déployée pour les développeurs qui créent des applications de chat, des robots de service client et des assistants IA interactifs. Le modèle représente un équilibre entre capacité et efficacité pour les tâches conversationnelles et de génération de texte standard.

GPT-3.5-turbo a défini le standard pour l'IA conversationnelle grand public, offrant un équilibre remarquable entre performance et accessibilité qui en a fait le moteur de millions d'applications dans le monde.

Analyse Tokonomix des modèles conversationnels 2024
Section 01

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
97
Multilingue
78
Raisonnement
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-3.5-turbo
$0.5000 par 1M de tokens d'entrée
$1.50 par 1M de tokens de sortie
≈ $0.0006 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.5000
par 1M de tokens de sortie$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$1.50

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 03

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Temps de réponse très rapidesOptimisé pour les interfaces conversationnellesExcellente compréhension des instructionsDisponibilité mondiale stableVaste écosystème de documentationIntégration simple via API OpenAIÉprouvé en production à grande échelleGestion fluide du contexte conversationnel

Faiblesses

Raisonnement complexe limité versus GPT-4Date de coupure des connaissancesPas de traitement d'imagesFenêtre de contexte non divulguée
Section 04

Capacités

toolssource: litellmprompt cachingmax output tokens: 4096
Section 05

Questions fréquentes

GPT-3.5-turbo convient parfaitement aux chatbots, assistants clients et applications conversationnelles où la vitesse est prioritaire et où les tâches de raisonnement restent simples. Pour des analyses complexes, du code avancé ou du raisonnement multi-étapes, GPT-4 sera plus approprié.

Pour les équipes recherchant un modèle éprouvé, rapide et fiable pour des tâches conversationnelles classiques, GPT-3.5-turbo reste un choix solide malgré l'arrivée de modèles plus récents.

Évaluation éditoriale Tokonomix
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-581/100 · 76 runs
48 correct15 partial13 wrong63% accuracy
2026-06-14

New tool calling and prompt caching capabilities added

GPT-3.5 Turbo has introduced two notable capabilities in this benchmark window: tool calling and prompt caching support. The addition of tool calling functionality enables the model to interact with external functions and APIs, expanding its utility for developers building agentic applications and structured workflows. Prompt caching support offers potential performance and efficiency improvements for applications with repeated context, though specific performance metrics are not yet available in the benchmark data. These additions represent meaningful enhancements to the model's feature set, bringing capabilities that were previously only available in more advanced models. However, without performance benchmarks in either the current or previous windows, we cannot assess the model's core capabilities in areas such as reasoning accuracy, response quality, latency, or reliability. Users should note that while these new features expand what's technically possible with GPT-3.5 Turbo, the absence of benchmark data means the model's fundamental performance characteristics remain unvalidated in this assessment period. These capability additions suggest continued investment in the model's ecosystem despite its position as a more economical option in OpenAI's model lineup.

Quality

Latency p50

Test runs

0

Tool calling support added Prompt caching now available
Section 08

Profil complet du modèle

gpt-3.5-turbo — illustration 1

⚠️ Modèle déprécié. OpenAI a retiré ce modèle. Pour les nouveaux projets, consultez GPT-4o mini pour un usage généraliste économique ou GPT-4.1 pour un raisonnement plus solide. Les intégrations existantes doivent planifier leur migration avant l'extinction du point d'accès API.

GPT-3.5 Turbo : le modèle qui a bâti l'économie des API

GPT-3.5 Turbo est la version à tag flottant du modèle qui a fait de l'API Chat Completions d'OpenAI le standard par défaut pour toute une génération de produits. Lancé en mars 2023 et raffiné au fil de plusieurs dates de snapshot, il a alimenté tout, du chat de support client aux pipelines d'extraction de données, en passant par la première vague de produits SaaS adossés à des LLM qui ont vu le jour en 2023 et 2024.

Il est désormais retiré. Le point d'accès répond encore sur le tag flottant, mais aucun nouveau projet ne devrait le cibler.

Pourquoi ce modèle a compté

Trois éléments ont fait de GPT-3.5 Turbo le point d'inflexion.

Le coût. Au moment de son lancement, GPT-3.5 Turbo était d'un ordre de grandeur moins cher que le GPT-4 qui est arrivé un mois plus tard, et environ dix fois moins cher que le davinci de GPT-3 sur la base du tarif par token. Ce niveau de prix est ce qui a transformé les fonctionnalités adossées à un LLM de « démo intéressante » en « gamme de produits livrable ». Les marges fonctionnaient.

La vitesse. Le profil de latence représentait un saut qualitatif par rapport aux modèles OpenAI antérieurs. Le chat interactif est devenu réellement interactif. Le streaming fonctionnait suffisamment bien pour que les produits puissent livrer une interface à effet machine à écrire qui ne semblait pas saccadée.

La forme de l'API. GPT-3.5 Turbo est le modèle qu'OpenAI a utilisé pour déployer la surface Chat Completions — le tableau messages, le rôle system, le motif de prompting fondé sur les rôles qui est devenu le standard de l'industrie. La génération suivante de modèles a hérité de cette forme. Le motif qu'utilise la plupart du code LLM actuel a démarré ici.

Ce qui a été construit dessus

Beaucoup de choses. Les chatbots de support client de première génération dans la distribution et les services financiers. La première vague d'assistants à l'écriture. Les services de génération de contenu qui ont rempli les premiers panneaux publicitaires SaaS. Les premiers frameworks d'agents qui dépendaient d'appels de modèle bon marché à chaque étape. Les services de traduction et de résumé qui avaient besoin que les coûts unitaires tiennent. Le modèle est apparu partout parce que le triangle prix-qualité-latence a été le premier à être suffisamment équilibré pour être livré à grande échelle.

L'analyse honnête est qu'un grand nombre de ces produits n'auraient pas survécu au passage à GPT-4 si 4o et la famille GPT-4.1 n'étaient pas arrivés plus tard pour ramener la capacité de classe frontière vers une tarification de classe 3.5. La génération 3.5 a créé le marché ; les générations suivantes l'ont consolidé.

Là où le modèle a montré ses limites

La profondeur de raisonnement. GPT-3.5 Turbo était utilisable pour des tâches de surface. Le raisonnement multi-étapes, la synthèse de code inédit, la logique dense — tous visiblement plus faibles que ce que GPT-4 a apporté un mois plus tard. La plupart des déploiements en production contournaient ce problème en découpant les tâches en étapes plus petites ou en aiguillant les prompts difficiles vers GPT-4 tout en réservant 3.5 au gros du trafic.

La factualité. Le modèle hallucinait sans retenue. Les réponses fausses énoncées avec assurance étaient fréquentes et exigeaient soit de la génération augmentée par récupération, soit une revue humaine sur tout chemin comportant une affirmation factuelle.

Le calibrage des refus. Le style de refus de 3.5 était incohérent — trop empressé à décliner certains prompts, trop disposé à se conformer à d'autres que les modèles de frontière repousseraient. Les équipes en production ont écrit des garde-fous au niveau du prompt pour compenser.

Chemins de migration

Les successeurs recommandés par OpenAI sont GPT-4o mini pour un usage généraliste économique et GPT-4.1 pour un raisonnement plus solide. Le bon choix dépend de la charge de travail.

Pour un trafic de type chat qui tournait sur 3.5 Turbo sans poser de problème, GPT-4o mini est la migration comportementale la plus proche. La latence est comparable, la surface API est identique, et le saut de qualité est suffisamment large pour que la plupart des équipes voient leurs scores d'évaluation augmenter sans modification des prompts.

Pour les charges de travail qui poussaient 3.5 au-delà de son plafond de raisonnement — boucles d'agent, extraction multi-étapes, travail proche du code — passer à gpt-4.1-mini ou à GPT-4.1 complet a plus de sens. La variante mini conserve un profil de coût que la plupart des déploiements de l'ère 3.5 peuvent absorber ; le modèle complet est réservé aux prompts où la qualité du raisonnement compte réellement.

Pour le travail de classification à fort volume qui tournait sur 3.5 pour maîtriser les coûts, gpt-4.1-nano ou un modèle à poids ouverts de la famille Gemma 3 est la meilleure destination. L'avantage de coût de 3.5 ne s'applique plus ; des options moins chères existent.

Que faire aujourd'hui

Si vous faites encore tourner 3.5 Turbo en production, les actions à mener sont concrètes.

Premièrement, confirmez votre cible de migration par un véritable cycle d'évaluation sur vos propres prompts. L'arithmétique des numéros de version suggère que le nouveau modèle est « manifestement meilleur », mais les charges de travail varient et vous voulez des écarts mesurés, pas supposés.

Deuxièmement, surveillez le calendrier de dépréciation. OpenAI a annoncé des dates d'extinction pour la famille 3.5 et le tag flottant finira par cesser de répondre. Planifiez le basculement pour une fenêtre de mise en production de votre choix.

Troisièmement, si vos prompts contiennent quoi que ce soit de spécifique aux particularités de 3.5 — contournements au niveau du prompt pour des motifs de refus connus, formulations ajustées à la main pour obtenir un style de sortie particulier — réauditez ces éléments lors de la migration. Les modèles plus récents nécessitent souvent un prompting différent, et reporter telle quelle l'ingénierie de prompt de l'ère 3.5 peut faire paraître un successeur moins bon qu'il ne l'est.

Pour la comparaison de modèles inter-catégories, voir /benchmarks/leaderboard. Pour l'orientation plus large de la gamme OpenAI, voir GPT-4.1.

Le choisir

Ne choisissez pas ce modèle pour de nouvelles réalisations. Il est déprécié et le tag flottant sera éteint. Pour les intégrations existantes, planifiez la migration vers GPT-4o mini, GPT-4.1 mini ou GPT-4.1 selon la forme de la charge de travail, et préparez le basculement avant que la date de dépréciation n'arrive.

La génération GPT-3.5 a bâti les fondations sur lesquelles repose l'économie actuelle des API. Elle n'a pas vocation à être le modèle sur lequel votre prochain projet sera livré.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-3.5-turbo — illustration 2gpt-3.5-turbo — illustration 3
Dernier test automatisé
14 juin 2026 · 04:59 UTC · Benchmark
Latence P50
1995 ms
Latence P95
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026