Tier C — Spécialiste

Fonctionne en :USCréé en :United States

$0.4000

sortie · par 1M de tokens (coût de base)

Coût

915 ms

Vitesse de réponse

Pas encore testé

Intelligence

Verdict — résuméLIVE

● LIVE

maintenant · 2026-07-26

gpt-5-nano shows quality gains but reasoning collapses to zero

✓ Quality improved 12.4 points✓ Multilingual support now excellent✗ Reasoning capability dropped to zero✗ Factual accuracy remains weak

The latest benchmark window reveals a mixed picture for gpt-5-nano. Overall quality improved by 12.4 points to reach 41.3 out of 100, suggesting meaningful progress in model capabilities. However, this improvement masks serious category-level concerns that warrant attention. The most striking finding is the complete failure in reasoning tasks, which scored zero in the current window. This represents a critical regression in logical capabilities. Factual performance also remains weak at just 22 points, indicating the model struggles with knowledge accuracy and retrieval tasks. On the positive side, multilingual support has transformed dramatically from zero to 98 points, establishing gpt-5-nano as highly capable for cross-language applications. Creative tasks maintained stability at 45 points across both windows, showing consistency in generative capabilities. Latency showed modest improvement, dropping from 5084ms to 4833ms at the median, though response times remain relatively slow compared to industry standards. The model appears to have undergone significant architectural changes between windows, evidenced by the shift in tested categories from coding-focused to reasoning and factual assessments. Users should consider gpt-5-nano primarily for multilingual applications while avoiding reasoning-intensive workloads until this critical gap is addressed.

Quality

41.3

Latency p50

4,833 ms

Test runs

1 sur 11

Image et explicationLIVE

OpenAI

gpt-5-nano

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

GPT-5-nano est un modèle de langage compact d'OpenAI, positionné comme une option efficace au sein de la famille GPT-5. Ce modèle est conçu pour les applications nécessitant des capacités de génération de texte de base, où l'efficacité computationnelle et la faible consommation de ressources sont prioritaires. Il vise des cas d'usage tels que la création de contenu simple, les interfaces conversationnelles basiques, les tâches de résumé et d'autres applications standard de traitement du langage naturel ne requérant pas les capacités de raisonnement les plus avancées. Dans le cadre de la stratégie de gamme étagée d'OpenAI, GPT-5-nano représente l'offre d'entrée de gamme de la série GPT-5. Bien que les spécifications de sa fenêtre de contexte n'aient pas été divulguées publiquement, le modèle conserve les capacités de génération de texte standard typiques des modèles de langage modernes. La désignation « nano » indique un nombre de paramètres réduit par rapport à ses homologues de la gamme GPT-5, ce qui se traduit généralement par des vitesses d'inférence accrues et des exigences computationnelles moindres, au prix d'une certaine performance sur les tâches de raisonnement complexes. GPT-5-nano se situe en dessous des variantes GPT-5 standard et GPT-5-turbo dans la hiérarchie des produits d'OpenAI. Il convient aux développeurs et aux organisations cherchant à intégrer la génération de texte par IA dans des applications où la rapidité de réponse et l'efficacité opérationnelle pèsent davantage que le traitement de tâches linguistiques très complexes ou nuancées. Le modèle constitue un point d'entrée accessible pour les besoins standard en traitement du langage, tout en maintenant la compatibilité avec l'infrastructure API d'OpenAI.

GPT-5-nano incarne la voie économique de la famille GPT-5 : un modèle compact pensé pour la vitesse et le volume plutôt que pour le raisonnement profond.
— Synthèse éditoriale Tokonomix

Capacités

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5 Nano : le plus petit palier d'origine, dans de nombreux pipelines à fort volume

GPT-5 Nano est le modèle du plus petit palier issu du lancement initial de GPT-5. Il a alimenté d'innombrables pipelines de classification à fort volume, des étages de pré-filtrage, des chemins d'autocomplétion et des workflows d'extraction simple depuis sa sortie. Le slug est flottant, ce qui signifie que toute personne qui le consomme aujourd'hui obtient les poids qu'OpenAI considère actuellement comme le gpt-5-nano recommandé — discrètement différent de ce que pointait ce même slug il y a un an.

Le problème combiné du slug flottant et du vieillissement

Un slug flottant sur le plus petit palier est, sur le plan opérationnel, le pire des cas de figure. Nano transporte le trafic le plus volumineux dans la plupart des stacks, ce qui signifie que toute dérive de comportement affecte le plus grand nombre de sorties. Le problème de vieillissement s'applique aussi ici — les améliorations apportées à nano entre les générations ont été substantielles, si bien que le modèle qui tourne aujourd'hui sous gpt-5-nano présente un profil de capacités significativement différent de celui qui alimentait le slug au lancement.

Les deux effets se cumulent. Les équipes qui n'ont pas activement surveillé ce slug peuvent faire tourner des poids qui ont dérivé plusieurs fois au cours de la vie du slug flottant, sur une intégration d'origine calibrée pour le comportement du lancement, avec des pipelines en aval qui ont silencieusement absorbé des changements de format et de qualité à travers une accumulation de contournements.

Le remède n'est pas compliqué : épingler un snapshot daté en production, surveiller la dérive avec une suite canari, planifier les migrations de manière explicite plutôt que de les subir au travers de la rotation du slug flottant. Le remède est rarement appliqué au palier nano parce que les charges semblent à faibles enjeux individuellement et que le volume masque le coût cumulé.

Ce que ce slug fait encore

Pour la classification routinière sur un petit ensemble de catégories, l'extraction simple de champs à structure prévisible et la complétion de format court, le modèle continue de produire un travail utile. Le coût par appel est faible. Le profil de latence est le plus bas de la famille.

Pour les pipelines de pré-filtrage qui escaladent vers des paliers supérieurs en fonction de la sortie de classification, le modèle s'inscrit naturellement comme première étape, même aujourd'hui. Le schéma d'escalade absorbe une grande partie de l'écart de qualité parce que les paliers supérieurs prennent en charge les cas difficiles.

Sous le capot

GPT-5 Nano est un décodeur transformeur à une échelle de paramètres sensiblement plus petite que mini, multimodal sur le texte et la vision mais avec une capacité visuelle nettement plus faible que les paliers supérieurs. OpenAI n'a pas publié le nombre de paramètres.

La tokenisation utilise le vocabulaire BPE standard de GPT-5. Les entrées image sont encodées par tuiles, avec un coût fixe en tokens par tuile. La fenêtre de contexte est plus courte que celle des paliers supérieurs en valeur absolue, et la cohérence chute bien avant la limite nominale.

Le modèle est nettement moins cher par token que mini, plus rapide par requête, et l'écart avec mini est plus important que celui entre mini et la version de base. La date de coupure d'entraînement se situe à la mi-2025 pour les poids de lancement ; si le slug flottant pointe actuellement vers un snapshot rafraîchi, la coupure effective peut différer.

Où il se situe aujourd'hui

Face aux offres actuelles du plus petit palier, le modèle — quel que soit le snapshot vers lequel le slug flottant résout aujourd'hui — se situe en dessous des nouveaux nanos GPT-5 sur la plupart des dimensions de benchmark. Le classement intelligence suit la position comparative.

Pour l'extraction de données sur les cas simples et les workflows de contenu en format court, le modèle produit encore des sorties utilisables. Pour tout ce qui est plus exigeant, les nanos plus récents sont clairement meilleurs.

Où se situent les limites

Le raisonnement est superficiel. Tout ce qui exige une inférence allant au-delà du pattern matching est mauvais pour nano.

La cohérence sur contexte long est médiocre. Gardez les prompts compacts.

La sortie structurée fonctionne sur des schémas simples et casse sur les schémas complexes.

L'hallucination sur des sujets de niche est plus élevée que sur les paliers supérieurs. La plus faible capacité se manifeste ici.

La qualité visuelle baisse nettement par rapport aux paliers supérieurs. La lecture standard de graphiques et l'OCR fonctionnent ; les diagrammes complexes et les mises en page adversariales souvent non.

Les performances en langues autres que l'anglais sont plus faibles, surtout sur les langues à faibles ressources.

La connaissance des évolutions récentes s'arrête à la coupure du snapshot actuel du slug flottant — qui peut ou non correspondre à celui sur lequel vous avez testé.

Quand ce slug est le bon choix

Les cas étroits :

Vous exécutez des pipelines de pré-filtrage où la qualité de classification est suffisante pour la première étape et où les escalades prennent en charge les cas difficiles.

Vous faites de l'autocomplétion à chaque frappe de touche où la latence est la contrainte principale et où le seuil de qualité est « mieux que pas de suggestion du tout ».

Vous exploitez des outils internes où la dérive de comportement est réellement tolérable.

Quand migrer vers un pin daté ou une nouvelle génération

Vous exécutez du trafic de production avec des exigences de stabilité et vous n'avez pas épinglé. Épinglez le snapshot nano daté de cette génération, ou migrez vers le nano daté d'une génération plus récente.

Vos pipelines en aval dépendent de formats de sortie spécifiques et vous avez absorbé la dérive de format à travers des contournements silencieux.

Votre harnais d'évaluation doit produire des résultats comparables dans le temps, ce que le slug flottant rend impossible.

Vous êtes dans un contexte réglementé où les pistes d'audit doivent identifier le modèle qui a produit une sortie donnée.

Vous avez mesuré le coût cumulé de la dérive ou de l'écart de capacité sur votre charge de travail et il dépasse le coût de migration.

Les deux voies

Voie une : épingler le snapshot daté de cette génération (gpt-5-nano-2025-08-07). Cela stabilise le comportement sans changer la capacité. Sensé pour les charges où la qualité actuelle est adéquate.

Voie deux : migrer vers le nano daté d'une génération plus récente (5.2 Nano, 5.4 Nano, 5.5 Nano). Cela apporte les améliorations de capacités tout en y ajoutant la discipline d'épinglage. Sensé pour les charges où la qualité actuelle est devenue marginale.

L'une et l'autre voie impliquent de faire tourner une évaluation pré-mise en production face à la cible, de valider les pipelines en aval et de basculer le trafic de production. Ne rien faire revient à continuer d'absorber la dérive du slug flottant sur un palier où l'effet cumulé est important.

Alternatives

Pour les charges qui ont besoin d'un comportement épinglé sur le plus petit palier chez un autre fournisseur, les snapshots équivalents nano comparables d'Anthropic et de Google sont livrés avec le même schéma d'épinglage.

Pour une optimisation maximale des coûts, de petits classifieurs open-weights tournant sur votre propre infrastructure peuvent égaler le nano de cette génération sur des tâches étroites à un coût marginal quasi nul au-delà de la dépense GPU.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Comparaison des fournisseursLIVE

Comparaison des fournisseurs

Comparez chaque fournisseur de ce modèle — coût de base, qualité, latence et disponibilité.

Azure OpenAI (EU - Sweden)UE

Coût d’entrée✓ meilleur$0.0500

Coût de sortie$0.4000

QualitéPas encore testé

Latence (p50)Pas encore testé

DisponibilitéPas encore testé

Coûts affichés par 1M de tokens (coût de base)

OpenAIUSCette offre

Coût d’entrée$0.0500

Coût de sortie$0.4000

QualitéPas encore testé

Latence (p50)✓ meilleur915 ms

DisponibilitéPas encore testé

Coûts affichés par 1M de tokens (coût de base)

Intelligence de consensus

MODÈLE ENTIERDORMANT

Les signaux de consensus sont à l’échelle du modèle — pas encore par fournisseur.

Le scoring de consensus collecte encore des données pour ce modèle — aucun signal pour l’instant.

Votes de la communautéLIVE

Votes de la communauté

Ce que pensent les vrais visiteurs — par fournisseur.

Azure OpenAI (EU - Sweden)UE

Pas encore de votes de la communauté.

OpenAIUS

Pas encore de votes de la communauté.

Plus de résultats — par fournisseur

Qualité par catégorie

Grille de jeu

Pas encore de données.

Verdict du juge

■ OK 24%■ Partiel 0%■ Faux 76%

Jeux & arène

Pas encore de données.

Vitesse & santé

915 ms

Latence (p50)

—

Disponibilité

Qualité par catégorie

Grille de jeu

Pas encore de données.

Verdict du juge

■ OK 24%■ Partiel 0%■ Faux 76%

Jeux & arène

Pas encore de données.

Vitesse & santé

915 ms

Latence (p50)

—

Disponibilité

Question & réponse — parcourirLIVE

1 sur 80

🧠 intelligenceOpenAImultilingual · 2026-07-26score: 98

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

120 TL. İndirim tutarı: 150 × 0.20 = 30 TL. Bölgenin indirimi sonrası fiyat: 150 − 30 = 120 TL.

Historique des tests — tous fournisseursLIVE

Score de qualité dans le tempsdernier 42

Vitesse — latence p50 dans le tempsdernier 883 ms

📝Verdict — résuméLIVE

gpt-5-nano shows quality gains but reasoning collapses to zero

🖼️Image et explicationLIVE

gpt-5-nano

Capacités

Le problème combiné du slug flottant et du vieillissement

Ce que ce slug fait encore

Sous le capot

Où il se situe aujourd'hui

Où se situent les limites

Quand ce slug est le bon choix

Quand migrer vers un pin daté ou une nouvelle génération

Les deux voies

Alternatives

📊Comparaison des fournisseursLIVE

🧠Intelligence de consensus

👥Votes de la communautéLIVE

🔬Plus de résultats — par fournisseur

💬Question & réponse — parcourirLIVE

🗂️Historique des tests — tous fournisseursLIVE

Verdict — résuméLIVE

Image et explicationLIVE

Comparaison des fournisseursLIVE

Intelligence de consensus

Votes de la communautéLIVE

Plus de résultats — par fournisseur

Question & réponse — parcourirLIVE

Historique des tests — tous fournisseursLIVE