Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-3.5-turbo-0125

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-3.5-turbo-0125 est un grand modèle de langage développé par OpenAI, lancé en janvier 2024 comme une mise à jour incrémentale de la série GPT-3.5-turbo. Ce modèle représente une version instantanée de l'architecture GPT-3.5-turbo, qui repose sur la technologie Generative Pre-trained Transformer d'OpenAI. Il est conçu pour des tâches de génération de texte polyvalentes incluant la conversation, la création de contenu, la synthèse, l'analyse et l'assistance au codage. Le modèle traite des entrées textuelles et génère des réponses naturelles basées sur des schémas appris lors de l'entraînement sur des données textuelles variées provenant d'internet. Le modèle prend en charge les capacités standard de génération de texte avec une précision améliorée et des taux d'hallucination réduits par rapport aux itérations antérieures de GPT-3.5. Bien que la taille exacte de la fenêtre de contexte n'ait pas été spécifiée publiquement par OpenAI, les modèles GPT-3.5-turbo gèrent généralement plusieurs milliers de tokens de contexte. La désignation 0125 indique qu'il s'agit d'une version instantanée stable, ce qui signifie que son comportement reste cohérent dans le temps plutôt que d'être soumis à des mises à jour continues comme l'endpoint évolutif GPT-3.5-turbo. Au sein de la gamme de modèles d'OpenAI, GPT-3.5-turbo-0125 se positionne comme une option de milieu de gamme entre les modèles GPT-3 historiques et la série plus avancée GPT-4. Il offre un équilibre entre capacité et efficacité, le rendant adapté aux applications nécessitant des performances fiables sur des tâches standard de traitement du langage naturel sans la charge computationnelle des modèles plus volumineux. Le modèle est accessible via l'API d'OpenAI et constitue un choix pratique pour les développeurs construisant des applications d'IA conversationnelle et des systèmes de traitement automatisé de texte.

GPT-3.5-turbo-0125 représente le point d'équilibre optimal entre performance et accessibilité dans la gamme OpenAI, offrant une version stable et prévisible pour les applications de production.

Analyse comparative Tokonomix
Section 01

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
96
Multilingue
100
Raisonnement
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-3.5-turbo-0125
$0.5000 par 1M de tokens d'entrée
$1.50 par 1M de tokens de sortie
≈ $0.0006 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.5000
par 1M de tokens de sortie$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$1.50

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 03

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Version figée pour comportement stableExcellente qualité conversationnelleLatence réduite pour applications temps réelGénération de contenu polyvalenteAssistance au code fonctionnelleTaux d'hallucination amélioréAPI mature et bien documentéeRapport performance-coût avantageux

Faiblesses

Raisonnement complexe limité vs GPT-4Date de coupure des connaissancesAbsence de traitement multimodalFenêtre contextuelle moins étendue
Section 04

Capacités

toolssource: litellmparallel toolsprompt cachingmax output tokens: 4096
Section 05

Questions fréquentes

La version 0125 est une snapshot figée dont le comportement reste constant, tandis que gpt-3.5-turbo est un endpoint mobile qui peut évoluer. Cette stabilité garantit que vos applications produiront des résultats reproductibles.

Pour les équipes cherchant une solution fiable sans nécessiter les capacités avancées de GPT-4, ce modèle reste un choix solide et éprouvé en 2024.

Tokonomix - Évaluation éditoriale
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-582/100 · 77 runs
50 correct15 partial12 wrong65% accuracy
2026-06-14

New tool capabilities added, but no performance data available

The gpt-3.5-turbo-0125 model has been updated with significant new capabilities including tools, parallel tools, and prompt caching support. These additions represent meaningful feature expansion for the model, potentially enabling more complex workflows through function calling and improved efficiency via caching mechanisms. However, benchmark performance data remains unavailable for both the current and previous windows, making it impossible to assess how these new features impact the model's actual task performance across standard evaluation metrics. Without concrete benchmark results, users cannot determine whether the model maintains competitive accuracy, reasoning ability, or output quality compared to alternatives. The addition of parallel tool calling could theoretically improve efficiency for multi-step tasks, while prompt caching may reduce latency and costs for repetitive queries. Users considering this model should conduct their own testing to validate performance for their specific use cases, as the absence of standardized benchmark data prevents objective comparison. The feature additions are promising from a capabilities standpoint, but empirical performance validation is needed to fully assess the model's effectiveness.

Quality

Latency p50

Test runs

0

Tool support added Parallel tools enabled Prompt caching available No benchmark data
Section 08

Profil complet du modèle

gpt-3.5-turbo-0125 — illustration 1

⚠️ Modèle obsolète. OpenAI a retiré ce modèle. Pour les nouveaux projets, consultez GPT-4o mini pour une utilisation générale économique ou GPT-4.1 pour un raisonnement plus robuste. Les intégrations existantes doivent planifier la migration avant la fermeture du point de terminaison API.

gpt-3.5-turbo-0125 : la mise à jour de janvier 2024

gpt-3.5-turbo-0125 est l'instantané daté de GPT-3.5 Turbo publié le 25 janvier 2024. Il s'agissait de la dernière mise à jour significative des capacités de la ligne 3.5 — suivi des instructions plus précis, correction des anomalies du mode JSON, et améliorations du tokeniseur qui ont rendu le modèle plus prévisible dans les cas limites.

Il est désormais retiré. L'identifiant épinglé se résout encore aujourd'hui mais l'horizon de dépréciation est fini, et les nouveaux projets ne devraient pas le cibler.

Ce qui a changé dans cette version

Le titre principal dans les notes d'OpenAI de janvier 2024 concernait le suivi des instructions. Les instantanés 3.5 antérieurs avaient l'habitude de paraphraser les instructions au lieu de les exécuter — le modèle reconnaissait une demande puis dérivait vers une réponse différente de celle réellement demandée par le prompt. La version 0125 a considérablement resserré ce comportement.

Pour les équipes utilisant la 3.5 en production, l'amélioration du suivi des instructions était le type de mise à niveau qui n'apparaît pas dans les scores de benchmark mais qui apparaît dans les scores d'évaluation par rapport à vos propres prompts. La même définition de tâche produisait une sortie plus propre, et les solutions de contournement au niveau des prompts écrites contre les instantanés antérieurs pouvaient souvent être abandonnées.

Le mode JSON était l'autre correction discrète. Les instantanés 3.5 antérieurs produisaient du JSON généralement valide mais occasionnellement mal formé dans des cas particuliers spécifiques — virgules traînantes dans les tableaux, accolades fermantes manquantes sous charge, échappement incohérent des chaînes imbriquées. La version 0125 en a corrigé suffisamment pour que les analyseurs en aval puissent abandonner une ou deux couches de traitement défensif.

Le profil de coût est resté au niveau où se situait le reste de la ligne 3.5, ce qui a rendu ces améliorations intéressantes à l'époque. Même prix, meilleur comportement.

Ce qui est resté défaillant

La profondeur de raisonnement. La 0125 restait un modèle de classe 3.5. Les prompts à plusieurs étapes nécessitant un véritable enchaînement d'inférences, la synthèse de code nouveau, les puzzles logiques denses — tous visiblement plus faibles que ce que GPT-4 fournissait déjà. La correction du suivi des instructions a rendu le modèle plus fiable ; elle n'a pas rendu le modèle plus intelligent dans un sens profond.

La factualité. Les hallucinations n'ont pas été traitées de manière structurelle. Le modèle inventait toujours des réponses confiantes lorsque le prompt ne contenait pas la réponse. La génération augmentée par récupération ou la révision humaine restait nécessaire sur tout parcours factuel.

Le calibrage des refus. Légèrement plus cohérent que les instantanés antérieurs, mais le schéma consistant à décliner des prompts inoffensifs et à se conformer à des cas limites auxquels les modèles de frontière résisteraient a persisté.

Pourquoi les équipes ont épinglé la 0125

Pendant la majeure partie de 2024, lorsque la 3.5 était l'option économique par défaut, c'était l'instantané sur lequel les équipes se fixaient. Trois raisons.

Premièrement, « la 3.5 stable la plus récente ». Les déploiements en production nécessitant la reproductibilité voulaient le modèle avec le moins d'anomalies connues ; la 0125 était l'option la plus récente et la moins défaillante.

Deuxièmement, les pipelines en aval réglés sur le comportement de la 0125. Une fois qu'un analyseur, une suite de tests CI ou un classificateur en aval affiné avait été construit contre cet instantané, le coût du réajustement contre un instantané plus récent était réel. L'épinglage protégeait cet investissement.

Troisièmement, les flux de travail réglementés approuvés pour cet identifiant. Certaines révisions de conformité ont été réalisées spécifiquement contre la 0125 et ne pouvaient pas passer à un instantané différent sans un nouveau cycle d'audit.

Ces trois raisons ont mal vieilli maintenant que la famille 3.5 est dépréciée. La cible de migration n'est plus un instantané 3.5 différent.

Migration aujourd'hui

L'instantané 0125 est plus récent que la version 3.5 originale et le calcul de migration est légèrement différent de la migration depuis le Turbo original.

Si vous avez épinglé la 0125 spécifiquement pour les améliorations du suivi des instructions, la migration comportementale la plus proche est GPT-4o mini. La latence est comparable, la surface API est identique, le suivi des instructions est nettement plus fort.

Si votre pipeline en aval dépend du comportement spécifique du mode JSON de la 0125, la fonctionnalité de sorties structurées dans les instantanés GPT-4o à partir d'août 2024 et dans toute la famille GPT-4.1 est un remplacement plus fiable. Vous devrez peut-être réajuster l'analyseur en aval ; l'essentiel est que l'application stricte du schéma élimine les modes de défaillance que les astuces d'ingénierie des prompts contournaient.

Si votre charge de travail orientée raisonnement poussait déjà la 0125 au-delà de son plafond, le passage à gpt-4.1-mini ou à la version complète GPT-4.1 représente le saut le plus important mais c'est celui qui correspond à la charge de travail.

Que faire aujourd'hui

Si la 0125 est encore dans votre stack :

Premièrement, auditez la charge de travail. La famille 3.5 était suffisamment performante pour une grande partie du trafic de production de l'ère 2024 ; la question est de savoir si votre charge de travail spécifique bénéficie toujours de cet épinglage ou si elle aurait dû être mise à niveau il y a un an.

Deuxièmement, effectuez une véritable évaluation par rapport à votre cible de migration candidate. Les modèles plus récents nécessitent souvent des prompts différents, et perpétuer l'ingénierie des prompts de l'ère 0125 peut faire paraître un successeur pire qu'il ne l'est.

Troisièmement, planifiez la transition avant que l'e-mail de dépréciation n'arrive. La famille 3.5 suit un calendrier fini. Le trafic de production sur un instantané 3.5 épinglé est un risque connu ; un risque connu est un risque que vous pouvez atténuer selon votre propre calendrier.

Pour la comparaison entre catégories, consultez /benchmarks/leaderboard.

Le choisir

Ne choisissez pas cet instantané pour de nouvelles constructions. La famille 3.5 est dépréciée et les identifiants épinglés finiront par être retirés.

Pour les intégrations existantes, planifiez la migration. Le successeur comportementalement le plus similaire pour les charges de travail de type 0125 est GPT-4o mini ; le mouvement tourné vers l'avenir est la famille GPT-4.1. Dans tous les cas, la transition devrait se produire selon votre calendrier de publication, pas selon le calendrier de dépréciation d'OpenAI.

Dernière révision technique : 2026-05-22 — Tokonomix.ai

gpt-3.5-turbo-0125 — illustration 2gpt-3.5-turbo-0125 — illustration 3
Dernier test automatisé
14 juin 2026 · 04:58 UTC · Benchmark
Latence P50
2331 ms
Latence P95
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026