Tier C — Spezialist

Läuft in:USErstellt in:United States

$0.4000

Ausgabe · pro 1M Tokens (Kostenbasis)

Kosten

840 ms

Antwortgeschwindigkeit

Noch nicht getestet

Intelligenz

Verdict — ZusammenfassungLIVE

● LIVE

jetzt · 2026-07-26

gpt-5-nano shows quality gains but reasoning collapses to zero

✓ Quality improved 12.4 points✓ Multilingual support now excellent✗ Reasoning capability dropped to zero✗ Factual accuracy remains weak

The latest benchmark window reveals a mixed picture for gpt-5-nano. Overall quality improved by 12.4 points to reach 41.3 out of 100, suggesting meaningful progress in model capabilities. However, this improvement masks serious category-level concerns that warrant attention. The most striking finding is the complete failure in reasoning tasks, which scored zero in the current window. This represents a critical regression in logical capabilities. Factual performance also remains weak at just 22 points, indicating the model struggles with knowledge accuracy and retrieval tasks. On the positive side, multilingual support has transformed dramatically from zero to 98 points, establishing gpt-5-nano as highly capable for cross-language applications. Creative tasks maintained stability at 45 points across both windows, showing consistency in generative capabilities. Latency showed modest improvement, dropping from 5084ms to 4833ms at the median, though response times remain relatively slow compared to industry standards. The model appears to have undergone significant architectural changes between windows, evidenced by the shift in tested categories from coding-focused to reasoning and factual assessments. Users should consider gpt-5-nano primarily for multilingual applications while avoiding reasoning-intensive workloads until this critical gap is addressed.

Quality

41.3

Latency p50

4,833 ms

Test runs

1 von 11

Bild & ErklärungLIVE

OpenAI

gpt-5-nano

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-5-nano ist ein kompaktes Sprachmodell von OpenAI, das als effiziente Option innerhalb der GPT-5-Familie positioniert ist. Das Modell ist für Anwendungen konzipiert, die grundlegende Textgenerierungsfähigkeiten erfordern und bei denen Recheneffizienz sowie geringerer Ressourcenverbrauch im Vordergrund stehen. Es richtet sich an Anwendungsfälle wie einfache Inhaltserstellung, grundlegende Konversationsschnittstellen, Zusammenfassungsaufgaben und andere standardmäßige Verarbeitungen natürlicher Sprache, die keine fortgeschrittensten Reasoning-Fähigkeiten erfordern. Als Teil der gestaffelten Modellstrategie von OpenAI stellt GPT-5-nano das Einstiegsangebot innerhalb der GPT-5-Reihe dar. Während die Spezifikationen des Kontextfensters nicht öffentlich bekannt sind, bietet das Modell die für moderne Sprachmodelle typischen Textgenerierungsfunktionen. Die Bezeichnung „nano" deutet auf eine geringere Parameterzahl im Vergleich zu den anderen Varianten der GPT-5-Reihe hin, was üblicherweise mit schnelleren Inferenzgeschwindigkeiten und geringeren Rechenanforderungen einhergeht – auf Kosten gewisser Leistungseinbußen bei komplexen Reasoning-Aufgaben. GPT-5-nano ist in der Produkthierarchie von OpenAI unterhalb der Standardvarianten GPT-5 und GPT-5-turbo angesiedelt. Es eignet sich für Entwickler und Organisationen, die KI-Textgenerierung in Anwendungen integrieren möchten, bei denen Reaktionsgeschwindigkeit und operative Effizienz stärker gewichtet werden als die Bewältigung hochkomplexer oder nuancierter Sprachaufgaben. Das Modell dient als zugänglicher Einstiegspunkt für standardmäßige Sprachverarbeitungsanforderungen und bleibt dabei mit der API-Infrastruktur von OpenAI kompatibel.

GPT-5-nano: die kompakteste Variante der GPT-5-Familie – für schnelle, kosteneffiziente Textaufgaben.
— Tokonomix-Benchmark-Zusammenfassung

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5 Nano: die ursprüngliche kleinste Stufe, in vielen hochvolumigen Pipelines

GPT-5 Nano ist das Modell der kleinsten Stufe aus dem ursprünglichen GPT-5-Launch. Es hat seit dem Release zahllose hochvolumige Klassifikations-Pipelines, Vorfilterstufen, Autocomplete-Pfade und einfache Extraktions-Workflows betrieben. Der Slug ist floating — wer ihn heute referenziert, bekommt also genau die Gewichte, die OpenAI aktuell als das empfohlene gpt-5-nano betrachtet — still und leise anders als das, worauf der Slug vor einem Jahr noch zeigte.

Das kombinierte Problem aus Floating und Aging

Ein floating Slug auf der kleinsten Stufe ist operativ der ungünstigste Fall. Nano trägt in den meisten Stacks das höchste Verkehrsvolumen, was bedeutet, dass jegliche Verhaltensdrift die meisten Outputs betrifft. Das Aging-Problem gilt hier ebenfalls — die Nano-Verbesserungen zwischen Generationen waren erheblich, sodass das Modell, das heute auf gpt-5-nano läuft, sich im Fähigkeitsprofil substanziell von dem unterscheidet, was den Slug zum Launch-Zeitpunkt befeuerte.

Beide Effekte verstärken sich gegenseitig. Teams, die diesen Slug nicht aktiv überwachen, laufen möglicherweise auf Gewichten, die über die Lebensdauer des floating Slugs mehrfach gedriftet sind, gegen eine ursprüngliche Integration, die auf das Launch-Verhalten kalibriert war, mit nachgelagerten Pipelines, die Format- und Qualitätsänderungen durch akkumulierte Workarounds still absorbiert haben.

Die Behebung ist nicht kompliziert: in der Produktion einen datierten Snapshot pinnen, Drift mit einer Canary-Suite überwachen, Migrationen explizit planen statt sie durch Floating-Slug-Rotation absorbieren zu lassen. Auf der Nano-Stufe wird diese Behebung selten angewendet, weil die Workloads einzeln betrachtet wenig kritisch wirken und das Volumen die kumulierten Kosten verbirgt.

Was dieser Slug heute noch leistet

Für routinemäßige Klassifikation über einen kleinen Satz von Kategorien, einfache Feldextraktion mit vorhersagbarer Struktur und Kurz-Completions leistet das Modell weiterhin nützliche Arbeit. Die Kosten pro Aufruf sind niedrig. Das Latenzprofil ist das niedrigste der Familie.

Für Vorfilter-Pipelines, die basierend auf der Klassifikationsausgabe an größere Stufen eskalieren, passt das Modell auch heute noch natürlich als erste Stufe. Das Eskalationsmuster absorbiert einen Großteil der Qualitätslücke, weil die größeren Stufen die harten Fälle abdecken.

Unter der Haube

GPT-5 Nano ist ein Transformer-Decoder mit deutlich kleinerer Parameterskala als Mini, multimodal über Text und Vision, wobei die Vision-Fähigkeit erkennbar schwächer ausfällt als bei den größeren Stufen. OpenAI hat keine Parameteranzahl veröffentlicht.

Die Tokenisierung nutzt das Standard-GPT-5-BPE-Vokabular. Bildinputs werden tile-encoded mit festen Tokenkosten pro Tile. Das Kontextfenster ist in absoluten Zahlen kürzer als bei den größeren Stufen, und die Kohärenz fällt deutlich vor dem nominalen Limit ab.

Das Modell ist pro Token signifikant günstiger als Mini, schneller pro Request, und die Lücke zu Mini ist größer als die Lücke von Mini zur Basisstufe. Der Trainings-Cutoff liegt für die Launch-Gewichte Mitte 2025; falls der floating Slug aktuell auf einen aufgefrischten Snapshot zeigt, kann der effektive Cutoff abweichen.

Wo es heute steht

Gegenüber den aktuellen Angeboten der kleinsten Stufe rangiert das Modell — egal welcher Snapshot vom floating Slug derzeit aufgelöst wird — auf den meisten Benchmark-Dimensionen unterhalb der neueren GPT-5-Nanos. Das Intelligence-Leaderboard verfolgt die vergleichende Position.

Für Datenextraktion am einfachen Ende und Content-Workflows am Kurzform-Ende produziert das Modell weiterhin brauchbare Ergebnisse. Für alles Anspruchsvollere sind die neueren Nanos klar überlegen.

Wo die Grenzen liegen

Reasoning ist flach. Alles, was Inferenz jenseits von Pattern-Matching erfordert, ist für Nano der falsche Ansatz.

Long-Context-Kohärenz ist schlecht. Prompts kompakt halten.

Strukturierte Ausgabe funktioniert bei einfachen Schemas und scheitert bei komplexen.

Halluzinationen bei Nischenthemen liegen höher als bei den größeren Stufen. Die kleinere Kapazität schlägt hier durch.

Die Vision-Qualität fällt gegenüber den größeren Stufen merklich ab. Standardmäßiges Diagramm-Lesen und OCR funktionieren; komplexe Diagramme und adversariale Layouts oft nicht.

Die Performance außerhalb des Englischen ist schwächer, insbesondere bei Sprachen mit geringen Ressourcen.

Das Wissen über aktuelle Entwicklungen endet bei dem, worauf der aktuelle Floating-Slug-Snapshot abgeschnitten ist — was mit dem, gegen das Sie getestet haben, übereinstimmen mag oder nicht.

Wann dieser Slug die richtige Wahl ist

Die engen Fälle:

Sie betreiben Vorfilter-Pipelines, in denen die Klassifikationsqualität für die erste Stufe ausreichend ist und Eskalationen die schwierigen Fälle übernehmen.

Sie betreiben Autocomplete pro Tastenanschlag, bei dem Latenz die primäre Einschränkung ist und die Qualitätsanforderung lautet „besser als gar kein Vorschlag“.

Sie betreiben interne Tools, bei denen Verhaltensdrift tatsächlich tolerierbar ist.

Wann Sie auf einen datierten Pin oder eine neuere Generation migrieren sollten

Sie führen Produktionsverkehr mit Stabilitätsanforderungen aus und haben nicht gepinnt. Pinnen Sie den datierten Nano-Snapshot dieser Generation oder migrieren Sie auf einen datierten Nano einer neueren Generation.

Ihre nachgelagerten Pipelines hängen von bestimmten Ausgabeformaten ab, und Sie haben Formatdrift durch stille Workarounds absorbiert.

Ihr Evaluations-Harness muss über die Zeit vergleichbare Ergebnisse liefern, was der floating Slug unmöglich macht.

Sie befinden sich in einem regulierten Kontext, in dem Audit-Trails das Modell identifizieren müssen, das eine bestimmte Ausgabe erzeugt hat.

Sie haben die kumulierten Kosten von Drift oder Fähigkeitslücke auf Ihrem Workload gemessen, und sie übersteigen die Migrationskosten.

Die zwei Pfade

Pfad eins: den datierten Snapshot dieser Generation pinnen (gpt-5-nano-2025-08-07). Das stabilisiert das Verhalten, ohne die Fähigkeit zu ändern. Sinnvoll bei Workloads, in denen die aktuelle Qualität angemessen ist.

Pfad zwei: auf einen datierten Nano einer neueren Generation migrieren (5.2 Nano, 5.4 Nano, 5.5 Nano). Das bringt Fähigkeitsverbesserungen zusammen mit der Pinning-Disziplin. Sinnvoll bei Workloads, in denen die aktuelle Qualität grenzwertig geworden ist.

Beide Pfade umfassen das Ausführen einer Pre-Release-Evaluation gegen das Ziel, das Validieren nachgelagerter Pipelines und das Umschalten des Produktionsverkehrs. Nichts zu tun bedeutet, Floating-Slug-Drift auf einer Stufe weiter zu absorbieren, auf der der kumulative Effekt groß ist.

Alternativen

Für Workloads, die gepinntes Verhalten der kleinsten Stufe bei einem anderen Anbieter benötigen, werden die vergleichbaren Nano-äquivalenten Snapshots von Anthropic und Google mit demselben Pinning-Muster ausgeliefert.

Für maximale Kostenoptimierung können kleine Open-Weights-Klassifikatoren, die auf eigener Infrastruktur laufen, die Nanos dieser Generation bei eng umrissenen Aufgaben zu nahezu null Grenzkosten jenseits der GPU-Ausgaben erreichen.

Letzter technischer Review: 2026-05-22 — Tokonomix.ai

Anbieter-VergleichLIVE

Anbieter-Vergleich

Vergleiche jeden Anbieter dieses Modells — Kostenbasis, Qualität, Latenz und Uptime.

Azure OpenAI (EU - Sweden)EU

Eingabekosten✓ beste$0.0500

Ausgabekosten$0.4000

QualitätNoch nicht getestet

Latenz (p50)Noch nicht getestet

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

OpenAIUSDieses Angebot

Eingabekosten$0.0500

Ausgabekosten$0.4000

QualitätNoch nicht getestet

Latenz (p50)✓ beste840 ms

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

Konsens-Intelligenz

MODELLWEITDORMANT

Konsens-Signale sind modellweit — noch nicht pro Anbieter getrennt.

Konsens-Scoring sammelt noch Daten für dieses Modell — noch keine Signale.

Community-StimmenLIVE

Community-Stimmen

Was echte Besucher denken — pro Anbieter.

Azure OpenAI (EU - Sweden)EU

Noch keine Community-Stimmen.

OpenAIUS

Noch keine Community-Stimmen.

Mehr Ergebnisse — pro Anbieter

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 24%■ Teilweise 0%■ Falsch 76%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

840 ms

Latenz (p50)

—

Uptime

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 24%■ Teilweise 0%■ Falsch 76%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

840 ms

Latenz (p50)

—

Uptime

Frage & Antwort — durchblätternLIVE

1 von 80

🧠 IntelligenzOpenAImultilingual · 2026-07-26Score: 98

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

120 TL. İndirim tutarı: 150 × 0.20 = 30 TL. Bölgenin indirimi sonrası fiyat: 150 − 30 = 120 TL.

Test-Historie — alle AnbieterLIVE

Qualitätsscore im Zeitverlaufneueste 42

Geschwindigkeit — p50-Latenz im Zeitverlaufneueste 867 ms

📝Verdict — ZusammenfassungLIVE

gpt-5-nano shows quality gains but reasoning collapses to zero

🖼️Bild & ErklärungLIVE

gpt-5-nano

Fähigkeiten

Das kombinierte Problem aus Floating und Aging

Was dieser Slug heute noch leistet

Unter der Haube

Wo es heute steht

Wo die Grenzen liegen

Wann dieser Slug die richtige Wahl ist

Wann Sie auf einen datierten Pin oder eine neuere Generation migrieren sollten

Die zwei Pfade

Alternativen

📊Anbieter-VergleichLIVE

🧠Konsens-Intelligenz

👥Community-StimmenLIVE

🔬Mehr Ergebnisse — pro Anbieter

💬Frage & Antwort — durchblätternLIVE

🗂️Test-Historie — alle AnbieterLIVE

Verdict — ZusammenfassungLIVE

Bild & ErklärungLIVE

Anbieter-VergleichLIVE

Konsens-Intelligenz

Community-StimmenLIVE

Mehr Ergebnisse — pro Anbieter

Frage & Antwort — durchblätternLIVE

Test-Historie — alle AnbieterLIVE