
GPT-5 Nano ist das Modell der kleinsten Stufe aus dem ursprünglichen GPT-5-Launch. Es hat seit dem Release zahllose hochvolumige Klassifikations-Pipelines, Vorfilterstufen, Autocomplete-Pfade und einfache Extraktions-Workflows betrieben. Der Slug ist floating — wer ihn heute referenziert, bekommt also genau die Gewichte, die OpenAI aktuell als das empfohlene gpt-5-nano betrachtet — still und leise anders als das, worauf der Slug vor einem Jahr noch zeigte.
Das kombinierte Problem aus Floating und Aging
Ein floating Slug auf der kleinsten Stufe ist operativ der ungünstigste Fall. Nano trägt in den meisten Stacks das höchste Verkehrsvolumen, was bedeutet, dass jegliche Verhaltensdrift die meisten Outputs betrifft. Das Aging-Problem gilt hier ebenfalls — die Nano-Verbesserungen zwischen Generationen waren erheblich, sodass das Modell, das heute auf gpt-5-nano läuft, sich im Fähigkeitsprofil substanziell von dem unterscheidet, was den Slug zum Launch-Zeitpunkt befeuerte.
Beide Effekte verstärken sich gegenseitig. Teams, die diesen Slug nicht aktiv überwachen, laufen möglicherweise auf Gewichten, die über die Lebensdauer des floating Slugs mehrfach gedriftet sind, gegen eine ursprüngliche Integration, die auf das Launch-Verhalten kalibriert war, mit nachgelagerten Pipelines, die Format- und Qualitätsänderungen durch akkumulierte Workarounds still absorbiert haben.
Die Behebung ist nicht kompliziert: in der Produktion einen datierten Snapshot pinnen, Drift mit einer Canary-Suite überwachen, Migrationen explizit planen statt sie durch Floating-Slug-Rotation absorbieren zu lassen. Auf der Nano-Stufe wird diese Behebung selten angewendet, weil die Workloads einzeln betrachtet wenig kritisch wirken und das Volumen die kumulierten Kosten verbirgt.
Was dieser Slug heute noch leistet
Für routinemäßige Klassifikation über einen kleinen Satz von Kategorien, einfache Feldextraktion mit vorhersagbarer Struktur und Kurz-Completions leistet das Modell weiterhin nützliche Arbeit. Die Kosten pro Aufruf sind niedrig. Das Latenzprofil ist das niedrigste der Familie.
Für Vorfilter-Pipelines, die basierend auf der Klassifikationsausgabe an größere Stufen eskalieren, passt das Modell auch heute noch natürlich als erste Stufe. Das Eskalationsmuster absorbiert einen Großteil der Qualitätslücke, weil die größeren Stufen die harten Fälle abdecken.
Unter der Haube
GPT-5 Nano ist ein Transformer-Decoder mit deutlich kleinerer Parameterskala als Mini, multimodal über Text und Vision, wobei die Vision-Fähigkeit erkennbar schwächer ausfällt als bei den größeren Stufen. OpenAI hat keine Parameteranzahl veröffentlicht.
Die Tokenisierung nutzt das Standard-GPT-5-BPE-Vokabular. Bildinputs werden tile-encoded mit festen Tokenkosten pro Tile. Das Kontextfenster ist in absoluten Zahlen kürzer als bei den größeren Stufen, und die Kohärenz fällt deutlich vor dem nominalen Limit ab.
Das Modell ist pro Token signifikant günstiger als Mini, schneller pro Request, und die Lücke zu Mini ist größer als die Lücke von Mini zur Basisstufe. Der Trainings-Cutoff liegt für die Launch-Gewichte Mitte 2025; falls der floating Slug aktuell auf einen aufgefrischten Snapshot zeigt, kann der effektive Cutoff abweichen.
Wo es heute steht
Gegenüber den aktuellen Angeboten der kleinsten Stufe rangiert das Modell — egal welcher Snapshot vom floating Slug derzeit aufgelöst wird — auf den meisten Benchmark-Dimensionen unterhalb der neueren GPT-5-Nanos. Das Intelligence-Leaderboard verfolgt die vergleichende Position.
Für Datenextraktion am einfachen Ende und Content-Workflows am Kurzform-Ende produziert das Modell weiterhin brauchbare Ergebnisse. Für alles Anspruchsvollere sind die neueren Nanos klar überlegen.
Wo die Grenzen liegen
Reasoning ist flach. Alles, was Inferenz jenseits von Pattern-Matching erfordert, ist für Nano der falsche Ansatz.
Long-Context-Kohärenz ist schlecht. Prompts kompakt halten.
Strukturierte Ausgabe funktioniert bei einfachen Schemas und scheitert bei komplexen.
Halluzinationen bei Nischenthemen liegen höher als bei den größeren Stufen. Die kleinere Kapazität schlägt hier durch.
Die Vision-Qualität fällt gegenüber den größeren Stufen merklich ab. Standardmäßiges Diagramm-Lesen und OCR funktionieren; komplexe Diagramme und adversariale Layouts oft nicht.
Die Performance außerhalb des Englischen ist schwächer, insbesondere bei Sprachen mit geringen Ressourcen.
Das Wissen über aktuelle Entwicklungen endet bei dem, worauf der aktuelle Floating-Slug-Snapshot abgeschnitten ist — was mit dem, gegen das Sie getestet haben, übereinstimmen mag oder nicht.
Wann dieser Slug die richtige Wahl ist
Die engen Fälle:
Sie betreiben Vorfilter-Pipelines, in denen die Klassifikationsqualität für die erste Stufe ausreichend ist und Eskalationen die schwierigen Fälle übernehmen.
Sie betreiben Autocomplete pro Tastenanschlag, bei dem Latenz die primäre Einschränkung ist und die Qualitätsanforderung lautet „besser als gar kein Vorschlag“.
Sie betreiben interne Tools, bei denen Verhaltensdrift tatsächlich tolerierbar ist.
Wann Sie auf einen datierten Pin oder eine neuere Generation migrieren sollten
Sie führen Produktionsverkehr mit Stabilitätsanforderungen aus und haben nicht gepinnt. Pinnen Sie den datierten Nano-Snapshot dieser Generation oder migrieren Sie auf einen datierten Nano einer neueren Generation.
Ihre nachgelagerten Pipelines hängen von bestimmten Ausgabeformaten ab, und Sie haben Formatdrift durch stille Workarounds absorbiert.
Ihr Evaluations-Harness muss über die Zeit vergleichbare Ergebnisse liefern, was der floating Slug unmöglich macht.
Sie befinden sich in einem regulierten Kontext, in dem Audit-Trails das Modell identifizieren müssen, das eine bestimmte Ausgabe erzeugt hat.
Sie haben die kumulierten Kosten von Drift oder Fähigkeitslücke auf Ihrem Workload gemessen, und sie übersteigen die Migrationskosten.
Die zwei Pfade
Pfad eins: den datierten Snapshot dieser Generation pinnen (gpt-5-nano-2025-08-07). Das stabilisiert das Verhalten, ohne die Fähigkeit zu ändern. Sinnvoll bei Workloads, in denen die aktuelle Qualität angemessen ist.
Pfad zwei: auf einen datierten Nano einer neueren Generation migrieren (5.2 Nano, 5.4 Nano, 5.5 Nano). Das bringt Fähigkeitsverbesserungen zusammen mit der Pinning-Disziplin. Sinnvoll bei Workloads, in denen die aktuelle Qualität grenzwertig geworden ist.
Beide Pfade umfassen das Ausführen einer Pre-Release-Evaluation gegen das Ziel, das Validieren nachgelagerter Pipelines und das Umschalten des Produktionsverkehrs. Nichts zu tun bedeutet, Floating-Slug-Drift auf einer Stufe weiter zu absorbieren, auf der der kumulative Effekt groß ist.
Alternativen
Für Workloads, die gepinntes Verhalten der kleinsten Stufe bei einem anderen Anbieter benötigen, werden die vergleichbaren Nano-äquivalenten Snapshots von Anthropic und Google mit demselben Pinning-Muster ausgeliefert.
Für maximale Kostenoptimierung können kleine Open-Weights-Klassifikatoren, die auf eigener Infrastruktur laufen, die Nanos dieser Generation bei eng umrissenen Aufgaben zu nahezu null Grenzkosten jenseits der GPU-Ausgaben erreichen.
Letzter technischer Review: 2026-05-22 — Tokonomix.ai
