
gpt-3.5-turbo-16k : la variante 3.5 à contexte long d'avant l'époque où 16k était la norme⚠️ Modèle obsolète. OpenAI a retiré ce modèle. Pour les nouveaux projets, consultez GPT-4o mini pour une utilisation générale économique ou GPT-4.1 pour un raisonnement plus robuste. Les intégrations existantes doivent planifier la migration avant la fermeture du point de terminaison API.
gpt-3.5-turbo-16k est un vestige de l'histoire des API. Il s'agissait de la variante GPT-3.5 Turbo dotée d'une fenêtre de contexte de 16 385 tokens, livrée à une époque où le modèle de base plafonnait à 4 096 tokens et où « contexte long » signifiait 16k. Au moment où la fenêtre de 16k est devenue la norme sur l'étiquette flottante, cette variante avait déjà été intégrée à la famille et l'identifiant dédié a été conservé pour assurer la rétrocompatibilité.
Il est désormais obsolète. L'identifiant épinglé est toujours résolu mais le point de terminaison sera fermé, et la variante dédiée 16k n'a plus été nécessaire depuis longtemps.
Pourquoi cette variante a existé
Lorsque GPT-3.5 Turbo a été lancé pour la première fois en mars 2023, la fenêtre de contexte était de 4 096 tokens. C'était déjà une amélioration par rapport à la génération GPT-3, mais ce n'était pas suffisant pour toute charge de travail impliquant plus de quelques échanges de conversation ou une seule page de texte documentaire.
La réponse d'OpenAI a été de proposer une variante parallèle avec le même comportement de modèle mais une fenêtre plus longue. L'identifiant -16k vous donnait quatre fois plus de contexte pour un coût par token légèrement plus élevé. Les équipes qui effectuaient de la synthèse, des conversations longues et des pipelines d'extraction de documents ciblaient explicitement la variante 16k, tandis que les équipes qui tenaient confortablement dans 4k restaient sur l'identifiant de base.
Dans la pratique, la division était gênante. Les développeurs devaient savoir à l'avance quelle charge de travail nécessitait la fenêtre longue et soit choisir le bon identifiant par requête, soit utiliser 16k par défaut et payer la petite prime de coût sur toute la ligne. Certains pipelines faisaient les deux — utilisant 4k pour la décision de routage et 16k pour le travail lourd.
Le nettoyage est venu plus tard. Au moment où la version de novembre 2023 a été déployée, l'étiquette flottante gpt-3.5-turbo servait effectivement la fenêtre de contexte de 16k par défaut. L'identifiant dédié -16k est devenu redondant. OpenAI l'a conservé épinglé pour la rétrocompatibilité, mais le nouveau code a cessé d'en avoir besoin.
Ce que la fenêtre 16k a rendu possible à l'époque
Une quantité surprenante de la première vague de fonctionnalités de produits basées sur les LLM dépendait de cette variante. Le chat de support client qui devait conserver plus de quelques tours en mémoire. La synthèse de fils d'e-mails. La première génération de fonctionnalités « dialoguez avec votre document » qui précédait les modèles de génération augmentée par récupération et qui se contentait d'insérer directement le document dans le prompt. Les premières boucles d'agents qui avaient besoin d'espace pour les historiques d'appels d'outils.
Le cadrage honnête est que 16k semble petit maintenant et était déjà étroit à l'époque. Même avec la fenêtre plus longue, les flux de travail documentaires réels atteignaient constamment la limite, et le passage à la génération augmentée par récupération en production a été motivé en partie par le fait que 3.5-16k n'était pas assez long pour ce que les équipes voulaient faire.
Ce qui est resté défaillant
Tout ce qui était défaillant sur le modèle 3.5 de base. La profondeur de raisonnement, la factualité, le calibrage des refus — tout pareil. La variante 16k avait plus d'espace pour se tromper, pas moins de raisons de se tromper.
Le modèle se dégradait également sur la qualité de l'attention à l'extrémité longue de la fenêtre. Poser à la variante 16k une question sur du contenu proche du début d'un prompt presque plein produisait des réponses mesurément pires que de poser une question sur du contenu proche de la fin. C'était le modèle « perdu au milieu » que le domaine a finalement documenté en détail ; la variante 3.5-16k était l'un des exemples classiques.
Pourquoi certains pourraient encore l'utiliser
Trois raisons apparaissent dans les audits de production.
Premièrement, du code de prompt qui a explicitement codé en dur l'identifiant -16k depuis 2023 et n'a jamais été mis à jour. L'étiquette flottante a adopté la fenêtre plus longue plus tard, mais le code original n'a jamais su qu'il pouvait passer à l'identifiant de base.
Deuxièmement, des conditions de facturation ou de contrat qui faisaient référence à la variante par son nom. Certains accords d'entreprise nommaient l'identifiant spécifique et l'équipe opérationnelle a conservé l'épinglage pour éviter de rouvrir le contrat.
Troisièmement, la reproductibilité comportementale pour une charge de travail qui dépendait de la variante 16k spécifique. Moins courant, mais réel pour un petit nombre d'équipes.
Migration
La variante dédiée à contexte long n'est plus la bonne forme de solution. Les cibles de migration varient selon la charge de travail.
Pour le trafic en forme de chat qui restait sous 16k, GPT-4o mini a le même profil de comportement général à un coût comparable, avec une fenêtre de 128k qui supprime entièrement la contrainte de contexte long.
Pour les charges de travail d'extraction de documents qui dépendaient de l'insertion de documents entiers dans le prompt, la famille GPT-4.1 avec sa fenêtre d'un million de tokens est la cible évidente. La plupart des solutions de contournement de l'ère 16k — découpage, synthèse à fenêtre glissante, compression au niveau du prompt — peuvent être retirées avec 4.1.
Pour les charges de travail qui sont depuis passées à la génération augmentée par récupération, le choix du modèle est découplé de la fenêtre de contexte. Choisissez un modèle actuel en fonction de la qualité et du coût sur les prompts réels que la couche de récupération produit.
Que faire aujourd'hui
Si gpt-3.5-turbo-16k est toujours dans votre code, la migration est généralement l'une des plus faciles de la famille 3.5. L'identifiant dédié est redondant depuis longtemps et la plupart des charges de travail qui l'utilisaient sont déjà passées soit à l'étiquette flottante, soit à un modèle successeur.
Trouvez la référence de chaîne explicite. Confirmez que la charge de travail a toujours besoin de plus que la fenêtre de base de 4k — la plupart d'entre elles n'en ont pas besoin, et même celles qui en ont besoin sont généralement mieux servies par un modèle actuel avec contexte long natif. Planifiez la bascule.
Pour la comparaison de modèles inter-catégories, consultez /benchmarks/leaderboard. Pour le contexte plus large de la 3.5, consultez GPT-3.5 Turbo.
Le choisir
Ne choisissez pas cette variante pour de nouvelles constructions. La 3.5 dédiée à contexte long est un artefact historique. Les cibles de migration sont GPT-4o mini pour le trafic en forme de chat et GPT-4.1 pour les charges de travail lourdes en documents.
Dernière analyse technique : 2026-05-22 — Tokonomix.ai

