Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-3.5-turbo-instruct

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-3.5-turbo-instruct est un modèle de génération de texte développé par OpenAI, basé sur l'architecture GPT-3.5. Il fonctionne comme un modèle de complétion, ce qui signifie qu'il poursuit le texte à partir d'une invite donnée plutôt que de suivre un format de discussion conversationnelle. Ce modèle utilise la méthodologie d'entraînement InstructGPT, qui intègre l'apprentissage par renforcement à partir de retours humains (RLHF) pour mieux suivre les instructions et produire des résultats alignés avec l'intention de l'utilisateur. Il est conçu pour des tâches de complétion en un seul tour où les utilisateurs fournissent une invite et reçoivent une réponse textuelle générée. Le modèle est optimisé pour des cas d'usage traditionnels de génération de texte, notamment l'écriture créative, la synthèse, la transformation de texte, la génération de code et d'autres tâches qui bénéficient d'une interface de type complétion. Contrairement aux modèles optimisés pour la discussion, gpt-3.5-turbo-instruct ne maintient pas le contexte conversationnel sur plusieurs échanges et se concentre plutôt sur la production de réponses de haute qualité à des invites individuelles. Il partage les améliorations architecturales de la série GPT-3.5, notamment des capacités renforcées de suivi d'instructions par rapport aux modèles GPT-3 de base. Dans la gamme de modèles d'OpenAI, gpt-3.5-turbo-instruct occupe une position spécialisée en tant que principal modèle de complétion de la famille GPT-3.5. Bien que la majeure partie du développement récent d'OpenAI se soit concentrée sur des modèles optimisés pour la discussion comme gpt-3.5-turbo et GPT-4, ce modèle sert les utilisateurs qui nécessitent spécifiquement des interactions de type complétion. Il a effectivement remplacé les modèles de complétion GPT-3 antérieurs tels que text-davinci-003, offrant des performances améliorées grâce à la méthodologie d'ajustement par instructions tout en conservant l'interface de complétion.

GPT-3.5-turbo-instruct représente le dernier modèle de complétion de texte d'OpenAI, comblant le fossé entre les modèles GPT-3 classiques et l'ère moderne orientée chat.

Analyse Tokonomix des modèles de complétion
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-3.5-turbo-instruct
$1.50 par 1M de tokens d'entrée
$2.00 par 1M de tokens de sortie
≈ $0.0013 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$1.50
par 1M de tokens de sortie$2.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.50

input / 1M

— no change

$2.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Complétion de texte à tour uniqueSuivi d'instructions optimisé par RLHFGénération de code efficaceÉcriture créative et transformation de texteRésumés structurés de qualitéInterface de complétion simple et directeCompatible avec les workflows GPT-3 existantsContrôle fin sur le format de sortie

Faiblesses

Pas de contexte conversationnel multi-toursDate de coupure des connaissances limitéeRemplacé progressivement par les modèles chatPerformances multilingues inférieures aux modèles récents
Section 03

Questions fréquentes

GPT-3.5-turbo-instruct utilise une interface de complétion traditionnelle où le modèle continue directement le texte fourni, tandis que gpt-3.5-turbo est optimisé pour les conversations structurées avec des rôles système/utilisateur/assistant. Choisissez instruct pour des tâches de génération directe, et turbo pour des dialogues interactifs.

Pour les équipes nécessitant un contrôle précis sur la génération de texte sans le cadre conversationnel, ce modèle reste un outil fiable et performant.

Évaluation Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

Référence établie pour le modèle de complétion GPT-3.5-turbo-instruct

Ce benchmark initial établit le profil de performance de référence pour GPT-3.5-turbo-instruct, la variante d'OpenAI optimisée pour la complétion de GPT-3.5. En tant que premier verdict, l'ensemble des métriques constitue le point de référence pour les comparaisons futures. Le modèle se positionne comme une alternative axée sur la complétion face au GPT-3.5-turbo conversationnel, conçue pour le suivi d'instructions en un seul tour et la génération de texte. Les utilisateurs doivent noter que cette variante utilise le format d'API de complétion plutôt que celui du chat, ce qui la rend adaptée à des cas d'usage spécifiques comme l'insertion de texte, l'écriture créative et la génération de sorties structurées. Les données de référence capturent les capacités actuelles du modèle sur les dimensions standard d'évaluation. Les verdicts futurs suivront l'évolution des performances dans le temps, identifiant les progrès ou régressions en matière de qualité, de cohérence et de comportement des réponses. S'agissant de la première évaluation, aucune tendance de performance ni schéma de stabilité ne peut encore être établi. Le comportement du modèle face à diverses stratégies de prompts et types de tâches se précisera à mesure que s'accumuleront les fenêtres de benchmark, permettant une analyse longitudinale pertinente de sa trajectoire de développement et de ses caractéristiques de fiabilité.

Quality

Latency p50

Test runs

0

Référence initiale établie
Section 06

Profil complet du modèle

gpt-3.5-turbo-instruct — illustration 1

⚠️ Modèle déprécié. OpenAI a retiré ce modèle. Pour les nouveaux projets, consultez GPT-4o mini pour un usage général économique ou GPT-4.1 pour un raisonnement plus robuste. Les intégrations existantes doivent planifier la migration avant la fermeture du point de terminaison API.

gpt-3.5-turbo-instruct : la variante 3.5 en mode completions

gpt-3.5-turbo-instruct est la variante GPT-3.5 Turbo qui exposait le modèle via l'API Completions historique plutôt que l'interface Chat Completions. Texte en entrée, texte en sortie, pas de tableau messages, pas de rôles, pas de formatage conversationnel autour du prompt — juste le prompt lui-même, et ce que le modèle continue.

Il est désormais déprécié. Le point de terminaison répond encore mais la surface API Completions elle-même a été progressivement abandonnée dans toute la gamme OpenAI, et ce modèle est l'un des derniers vestiges significatifs.

Pourquoi une variante séparée a existé

Quand OpenAI a livré GPT-3.5 Turbo en mars 2023, l'API Chat Completions était le nouveau paradigme. Le tableau messages, le rôle système, le prompting basé sur les rôles — tout cela constituait une nouvelle infrastructure. Beaucoup de code en production était écrit contre l'ancienne API Completions utilisée par GPT-3, où vous envoyiez une chaîne de caractères et le modèle la continuait.

Migrer ce code vers l'interface conversationnelle n'était pas trivial. Les prompts devaient être restructurés, les frontières de rôles devaient être définies, et les cas limites où le formatage conversationnel changeait le comportement du modèle devaient être débogués. Pour les équipes qui avaient des pipelines de production construits contre l'ancienne surface API, OpenAI a livré gpt-3.5-turbo-instruct comme passerelle — mêmes poids de modèle que le 3.5 Turbo standard, exposés via l'ancienne forme d'API.

La variante était particulièrement utile pour trois formes de charge de travail. Les pipelines de classification et d'étiquetage où vous vouliez un seul token ou une courte étiquette en sortie sans que le modèle n'enveloppe une réponse conversationnelle autour. Les flux de travail de style complétion de code où le prompt était déjà une sortie partielle et vous vouliez une continuation, pas un tour de conversation. Les pipelines dépendants des logprobs où l'API Completions exposait les probabilités de tokens de manière plus directe que la surface conversationnelle ne le faisait.

Pour ces trois cas, l'interface conversationnelle ajoutait de la surcharge — tokens supplémentaires pour le formatage, comportement du modèle façonné par l'entraînement sur des réponses de style conversationnel, style de sortie légèrement différent. La variante instruct permettait à ces charges de travail de continuer à fonctionner à l'ancienne.

Comment le modèle se comportait

Le même comportement de génération 3.5 que le reste de la famille. Profondeur de raisonnement au niveau 3.5. Factualité qui nécessitait une augmentation par récupération ou une révision humaine sur les chemins factuels. Calibration du refus qui était parfois trop empressée et parfois trop complaisante.

Ce à quoi il ne ressemblait pas, c'était un modèle conversationnel. La variante instruct n'enveloppait pas les réponses dans un cadrage conversationnel, ne produisait pas de formules toutes faites du type "en tant qu'assistant IA", ne s'entourait pas de précautions de la manière dont sont entraînés les modèles conversationnels. Pour les charges de travail qui voulaient une continuation propre, c'était un meilleur choix que le 3.5 Turbo standard, même si la capacité sous-jacente était la même.

La fenêtre de contexte de 16 385 tokens était héritée de la famille 3.5 au sens large.

Pourquoi les équipes sont restées sur instruct

Deux raisons au-delà de celle du code hérité mentionnée ci-dessus.

Premièrement, l'accès aux logprobs. L'API Completions exposait les logprobs au niveau des tokens de manière plus directe que l'interface conversationnelle ne le faisait. Les équipes faisant du décodage contraint, de l'échantillonnage de sortie structurée, de la classification avec scores de confiance, ou tout travail en aval conscient des logprobs se sont fixées sur la variante instruct pour cette surface. L'interface conversationnelle a fini par développer des capacités similaires mais l'API instruct était la forme la plus propre pour ce type de travail pendant longtemps.

Deuxièmement, moins de tokens de formatage. L'interface conversationnelle ajoute quelques tokens de formatage à chaque requête, ce qui s'accumule à haut volume. Pour les charges de travail avec des prompts très courts et des complétions très courtes, la surcharge de tokenisation de la variante instruct était moindre, ce qui se traduisait par des coûts par appel légèrement moins élevés et une latence légèrement plus faible.

Ces deux raisons se sont affaiblies au fil du temps à mesure que l'interface conversationnelle a mûri, mais les ancrage originaux sont toujours présents dans du code de production qui n'a pas été réarchitecturé.

Migration

La variante instruct dédiée n'a pas de successeur direct dans la gamme OpenAI. L'API Completions est suffisamment abandonnée pour qu'aucun modèle actuel ne soit offert à travers elle comme surface primaire.

Pour les charges de travail qui se sont fixées sur instruct pour des raisons de code hérité, la migration se fait vers l'interface conversationnelle sur un modèle actuel. GPT-4o mini est la correspondance comportementale la plus proche pour le trafic au format conversationnel. La réarchitecture du prompt constitue l'essentiel du travail — une fois qu'une charge de travail est sur l'interface conversationnelle, la mise à niveau du modèle elle-même est un simple changement de balise.

Pour les charges de travail dépendantes des logprobs, l'interface conversationnelle sur les modèles OpenAI actuels expose les données pertinentes, bien que les modèles d'intégration soient différents. Les équipes faisant du décodage contraint ou de l'échantillonnage structuré peuvent trouver que la fonctionnalité de sorties structurées strictes sur GPT-4o et GPT-4.1 est plus adaptée que l'échantillonnage conscient des logprobs contre un ancien modèle instruct.

Pour la classification à haut volume où la surcharge des tokens de formatage compte, gpt-4.1-nano ou un modèle à poids ouverts de la famille Gemma 3 est plus adapté qu'une autre variante instruct 3.5. Le coût par appel sur les modèles actuels à bas prix est bien en dessous du point de prix 3.5 Turbo.

Que faire aujourd'hui

Si gpt-3.5-turbo-instruct est encore dans votre pile technologique, la migration est l'une des plus lourdes de la famille 3.5. C'est la surface API elle-même qui change, pas seulement le modèle. Réarchitecturer autour de l'interface conversationnelle représente plus de travail que d'échanger un identifiant de modèle.

Planifiez-le délibérément. Auditez chaque site d'appel. Pour chacun, décidez si la charge de travail appartient encore du tout à un petit modèle, ou si le bon mouvement est de la consolider dans un pipeline plus large s'exécutant sur un modèle actuel de frontière ou de niveau intermédiaire. La plupart des équipes qui auditent honnêtement découvrent que le déploiement instruct original résolvait un problème qui n'existe plus.

Pour le contexte plus large du 3.5, consultez GPT-3.5 Turbo. Pour la direction actuelle de la gamme OpenAI, consultez GPT-4.1.

Le choisir

Ne choisissez pas cette variante pour de nouvelles constructions. L'API Completions est en voie d'abandon dans toute la gamme OpenAI et la génération 3.5 est dépréciée.

Pour les intégrations existantes, la migration se fait vers l'interface conversationnelle sur un modèle actuel. Planifiez-la avant l'arrivée de la date de dépréciation.

Dernière révision technique : 2026-05-22 — Tokonomix.ai

gpt-3.5-turbo-instruct — illustration 2
Dernier test automatisé
27 mai 2026 · 21:57 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026