
GPT-5 Nano est le modèle du plus petit palier issu du lancement initial de GPT-5. Il a alimenté d'innombrables pipelines de classification à fort volume, des étages de pré-filtrage, des chemins d'autocomplétion et des workflows d'extraction simple depuis sa sortie. Le slug est flottant, ce qui signifie que toute personne qui le consomme aujourd'hui obtient les poids qu'OpenAI considère actuellement comme le gpt-5-nano recommandé — discrètement différent de ce que pointait ce même slug il y a un an.
Le problème combiné du slug flottant et du vieillissement
Un slug flottant sur le plus petit palier est, sur le plan opérationnel, le pire des cas de figure. Nano transporte le trafic le plus volumineux dans la plupart des stacks, ce qui signifie que toute dérive de comportement affecte le plus grand nombre de sorties. Le problème de vieillissement s'applique aussi ici — les améliorations apportées à nano entre les générations ont été substantielles, si bien que le modèle qui tourne aujourd'hui sous gpt-5-nano présente un profil de capacités significativement différent de celui qui alimentait le slug au lancement.
Les deux effets se cumulent. Les équipes qui n'ont pas activement surveillé ce slug peuvent faire tourner des poids qui ont dérivé plusieurs fois au cours de la vie du slug flottant, sur une intégration d'origine calibrée pour le comportement du lancement, avec des pipelines en aval qui ont silencieusement absorbé des changements de format et de qualité à travers une accumulation de contournements.
Le remède n'est pas compliqué : épingler un snapshot daté en production, surveiller la dérive avec une suite canari, planifier les migrations de manière explicite plutôt que de les subir au travers de la rotation du slug flottant. Le remède est rarement appliqué au palier nano parce que les charges semblent à faibles enjeux individuellement et que le volume masque le coût cumulé.
Ce que ce slug fait encore
Pour la classification routinière sur un petit ensemble de catégories, l'extraction simple de champs à structure prévisible et la complétion de format court, le modèle continue de produire un travail utile. Le coût par appel est faible. Le profil de latence est le plus bas de la famille.
Pour les pipelines de pré-filtrage qui escaladent vers des paliers supérieurs en fonction de la sortie de classification, le modèle s'inscrit naturellement comme première étape, même aujourd'hui. Le schéma d'escalade absorbe une grande partie de l'écart de qualité parce que les paliers supérieurs prennent en charge les cas difficiles.
Sous le capot
GPT-5 Nano est un décodeur transformeur à une échelle de paramètres sensiblement plus petite que mini, multimodal sur le texte et la vision mais avec une capacité visuelle nettement plus faible que les paliers supérieurs. OpenAI n'a pas publié le nombre de paramètres.
La tokenisation utilise le vocabulaire BPE standard de GPT-5. Les entrées image sont encodées par tuiles, avec un coût fixe en tokens par tuile. La fenêtre de contexte est plus courte que celle des paliers supérieurs en valeur absolue, et la cohérence chute bien avant la limite nominale.
Le modèle est nettement moins cher par token que mini, plus rapide par requête, et l'écart avec mini est plus important que celui entre mini et la version de base. La date de coupure d'entraînement se situe à la mi-2025 pour les poids de lancement ; si le slug flottant pointe actuellement vers un snapshot rafraîchi, la coupure effective peut différer.
Où il se situe aujourd'hui
Face aux offres actuelles du plus petit palier, le modèle — quel que soit le snapshot vers lequel le slug flottant résout aujourd'hui — se situe en dessous des nouveaux nanos GPT-5 sur la plupart des dimensions de benchmark. Le classement intelligence suit la position comparative.
Pour l'extraction de données sur les cas simples et les workflows de contenu en format court, le modèle produit encore des sorties utilisables. Pour tout ce qui est plus exigeant, les nanos plus récents sont clairement meilleurs.
Où se situent les limites
Le raisonnement est superficiel. Tout ce qui exige une inférence allant au-delà du pattern matching est mauvais pour nano.
La cohérence sur contexte long est médiocre. Gardez les prompts compacts.
La sortie structurée fonctionne sur des schémas simples et casse sur les schémas complexes.
L'hallucination sur des sujets de niche est plus élevée que sur les paliers supérieurs. La plus faible capacité se manifeste ici.
La qualité visuelle baisse nettement par rapport aux paliers supérieurs. La lecture standard de graphiques et l'OCR fonctionnent ; les diagrammes complexes et les mises en page adversariales souvent non.
Les performances en langues autres que l'anglais sont plus faibles, surtout sur les langues à faibles ressources.
La connaissance des évolutions récentes s'arrête à la coupure du snapshot actuel du slug flottant — qui peut ou non correspondre à celui sur lequel vous avez testé.
Quand ce slug est le bon choix
Les cas étroits :
Vous exécutez des pipelines de pré-filtrage où la qualité de classification est suffisante pour la première étape et où les escalades prennent en charge les cas difficiles.
Vous faites de l'autocomplétion à chaque frappe de touche où la latence est la contrainte principale et où le seuil de qualité est « mieux que pas de suggestion du tout ».
Vous exploitez des outils internes où la dérive de comportement est réellement tolérable.
Quand migrer vers un pin daté ou une nouvelle génération
Vous exécutez du trafic de production avec des exigences de stabilité et vous n'avez pas épinglé. Épinglez le snapshot nano daté de cette génération, ou migrez vers le nano daté d'une génération plus récente.
Vos pipelines en aval dépendent de formats de sortie spécifiques et vous avez absorbé la dérive de format à travers des contournements silencieux.
Votre harnais d'évaluation doit produire des résultats comparables dans le temps, ce que le slug flottant rend impossible.
Vous êtes dans un contexte réglementé où les pistes d'audit doivent identifier le modèle qui a produit une sortie donnée.
Vous avez mesuré le coût cumulé de la dérive ou de l'écart de capacité sur votre charge de travail et il dépasse le coût de migration.
Les deux voies
Voie une : épingler le snapshot daté de cette génération (gpt-5-nano-2025-08-07). Cela stabilise le comportement sans changer la capacité. Sensé pour les charges où la qualité actuelle est adéquate.
Voie deux : migrer vers le nano daté d'une génération plus récente (5.2 Nano, 5.4 Nano, 5.5 Nano). Cela apporte les améliorations de capacités tout en y ajoutant la discipline d'épinglage. Sensé pour les charges où la qualité actuelle est devenue marginale.
L'une et l'autre voie impliquent de faire tourner une évaluation pré-mise en production face à la cible, de valider les pipelines en aval et de basculer le trafic de production. Ne rien faire revient à continuer d'absorber la dérive du slug flottant sur un palier où l'effet cumulé est important.
Alternatives
Pour les charges qui ont besoin d'un comportement épinglé sur le plus petit palier chez un autre fournisseur, les snapshots équivalents nano comparables d'Anthropic et de Google sont livrés avec le même schéma d'épinglage.
Pour une optimisation maximale des coûts, de petits classifieurs open-weights tournant sur votre propre infrastructure peuvent égaler le nano de cette génération sur des tâches étroites à un coût marginal quasi nul au-delà de la dépense GPU.
Dernière revue technique : 2026-05-22 — Tokonomix.ai
