Tier B — Produktion

Läuft in:USErstellt in:United States

$10.00

Ausgabe · pro 1M Tokens (Kostenbasis)

Kosten

4,774 ms

Antwortgeschwindigkeit

100 / 100

Intelligenz

Verdict — ZusammenfassungLIVE

● LIVE

jetzt · 2026-07-26

GPT-5 shows significant quality decline with category instability

✗ Quality score dropped 8%✗ Factual accuracy critically low✗ Latency increased 19%✓ Multilingual capability at 100

The latest benchmark window reveals concerning performance degradation for GPT-5. The overall quality score dropped from 37.2 to 34.3, representing an 8% decline. More alarming is the categorical instability: coding capabilities have disappeared entirely from measurements, while reasoning shows a zero score. Factual accuracy has collapsed to just 2 out of 100, down from unmeasured in the previous window. Creative performance also declined from 45 to 35. The only bright spot is multilingual capability, which jumped from 0 to a perfect 100, suggesting either a focused improvement or measurement inconsistency between windows. Latency has also worsened, with p50 response times increasing 19% from 8765ms to 10430ms, making the model notably slower. The shifting category measurements across windows raise questions about result consistency. Users should exercise caution with factual queries and reasoning tasks, where the model currently shows critical weaknesses. The multilingual improvement may benefit international users, but overall trajectory suggests instability in the model's capabilities. These results warrant careful monitoring in subsequent benchmark windows to determine whether this represents temporary variance or a sustained decline in performance.

Quality

34.3

Latency p50

10,430 ms

Test runs

1 von 11

Bild & ErklärungLIVE

OpenAI

gpt-5-2025-08-07

Tier B — Produktion

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-5-2025-08-07 ist OpenAIs neuestes Sprachmodell der nächsten Generation, veröffentlicht im August 2025. Dieses Modell stellt einen bedeutenden architektonischen Fortschritt gegenüber der GPT-4-Serie dar und integriert verbesserte Reasoning-Fähigkeiten, erhöhte faktische Genauigkeit und robustere Leistung über verschiedene Natural Language Processing-Aufgaben hinweg. Es ist konzipiert für allgemeine Textgenerierung, einschließlich komplexer Analysen, kreativem Schreiben, technischer Dokumentation, Code-Generierung und mehrstufiger Problemlösung. Das Modell verfügt über standardmäßige Textgenerierungsfunktionen mit nicht offengelegter Kontextfenstergröße. GPT-5 zeigt bemerkenswerte Verbesserungen bei logischer Konsistenz, reduzierten Halluzinationsraten und besserem Instruction Following im Vergleich zu seinen Vorgängern. Es wurde mit einem aktuelleren Knowledge Cutoff als frühere Versionen trainiert, wobei OpenAI weder die spezifische Zusammensetzung der Trainingsdaten noch Parameteranzahlen offengelegt hat. Das Modell zeigt besondere Stärken beim Aufrechterhalten von Kohärenz über längere Konversationen hinweg und beim Umgang mit nuancierten Anweisungen, die das Interpretieren impliziter Nutzerabsichten erfordern. Innerhalb von OpenAIs Modell-Lineup positioniert sich GPT-5-2025-08-07 in der obersten Leistungsklasse als das leistungsfähigste allgemein verfügbare Modell. Es folgt auf die GPT-4-Familie, die Varianten wie GPT-4 Turbo und GPT-4o umfasste. Dieses Modell ist als OpenAIs Flaggschiff-Angebot für Nutzer positioniert, die fortschrittlichste Sprachverständnis- und Generierungsfähigkeiten benötigen. Die datumsbezogene Versionskennung bezeichnet diesen spezifischen Snapshot vom August 2025 und folgt OpenAIs Konvention, versionierte Releases für Konsistenz und Reproduzierbarkeit in Produktionsanwendungen bereitzustellen.

GPT-5-2025-08-07 markiert OpenAIs nächsten Generationssprung mit deutlich verbesserter Reasoning-Leistung und reduzierter Halluzinationsrate gegenüber der gesamten GPT-4-Familie.
— Tokonomix Modellanalyse, August 2025

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5 (Snapshot 2025-08-07): das eingefrorene Original

Hierbei handelt es sich um den datierten Snapshot des ursprünglichen GPT-5-Basismodells, veröffentlicht am 7. August 2025 und zu diesem Zeitpunkt eingefroren. Während der gleitende gpt-5-Slug bei Teams, die ihn referenziert haben, weiterhin verändert wurde, erfasst diese datierte Version genau einen bestimmten Satz von Gewichten, ein spezifisches Verhaltensprofil und ein reproduzierbares Artefakt. Das macht ihn nützlich für eine eng umrissene, aber wichtige Gruppe von Aufgaben: Vergleichsbasislinien, regulierte Workflows und alle Produkte, die in sechs Monaten auf dasselbe Modell zeigen und dieselbe Antwort erhalten müssen.

Warum datierte Snapshots existieren

OpenAI veröffentlicht jede Generation in zwei Varianten. Der gleitende Name (gpt-5) verweist stets auf den jeweils aktuell empfohlenen Snapshot. Der datierte Name (gpt-5-2025-08-07) fixiert eine spezifische Version der Gewichte. Der gleitende Slug profitiert von stillen Verbesserungen; der datierte Slug profitiert davon, niemals zu überraschen.

Für Evaluationsvergleiche über die Zeit ist der datierte Slug die einzige ehrliche Wahl. Wenn Ihr Benchmark-Report vom Dezember besagt „GPT-5 erreichte X in unserer Suite“, und jemand führt ihn im Mai gegen den gleitenden Slug erneut aus, dann werden nicht dieselben Modelle verglichen. Der datierte Snapshot behebt das. Das Verhalten vom 7. August 2025 ist genau jenes Verhalten, das Sie bei jedem Zugriff auf diesen Endpunkt erhalten, bis OpenAI ihn irgendwann abschaltet.

Was dieser Snapshot ist

GPT-5 war das erste Modell der GPT-5-Familie, veröffentlicht als multimodales Frontier-Modell für Text und Bild. Der Snapshot vom 2025-08-07 spiegelt das Verhalten zum Launch-Zeitpunkt wider: Trainingsdaten bis zu dem von OpenAI Mitte 2025 verwendeten Stichtag, der ursprüngliche Safety-Trainingsdurchlauf, die ursprüngliche Kalibrierung des Vision-Encoders, die ursprünglichen Verhaltensweisen bei der Tool-Nutzung.

Spätere Updates des gleitenden Slugs haben diese Eigenschaften verschoben. Dokumentierte Änderungen über die breitere 5.x-Linie hinweg umfassten verfeinertes Instruction-Following bei Grenzfällen, angepasstes Ablehnungsverhalten bei bestimmten Inhaltskategorien sowie inkrementelle Verbesserungen bei der Vision-OCR. Keine dieser Änderungen berührt diesen Snapshot. Was Sie im August 2025 erhalten haben, ist das, was Sie auch heute bekommen.

Unter der Haube

Das Modell ist ein Transformer-Decoder, der verschachtelte Text- und Bildeingaben akzeptiert und ausschließlich Textausgaben erzeugt. Parameteranzahl, Details zum Expert-Routing und die exakten architektonischen Entscheidungen sind nicht öffentlich. Die Tokenisierung verwendet das GPT-5-BPE-Vokabular. Bildeingaben werden in Kacheln zu festen Token-Kosten pro Kachel kodiert, was sich bei mehrseitigen Dokumenten-Workloads schnell summiert.

Der Trainings-Cutoff für diesen Snapshot liegt in der Mitte des Jahres 2025. Das Modell kennt die zu jenem Zeitpunkt gängigen Sprachstandards und Framework-Versionen und wird zu allem Neueren munter halluzinieren. Für Workflows, die aktuelle Ereignisse oder neue Bibliotheks-APIs betreffen, ist das relevant — fixieren Sie den Snapshot, akzeptieren Sie, dass Wissen altert, und leiten Sie Anfragen zu aktuellen Ereignissen über Retrieval oder Websuche, statt sich auf das parametrische Wissen des Modells zu verlassen.

Wo es heute steht

Im Vergleich zur breiteren Frontier-Modelllandschaft liegt der August-2025-Snapshot von GPT-5 im oberen Bereich bei allgemeinen Aufgaben und im oberen Mittelfeld bei vision-lastigen Arbeiten. Die neueren Snapshots 5.1, 5.2 und spätere Versionen haben ihn in den meisten Metriken überholt. Das Intelligenz-Leaderboard verfolgt die vergleichende Rangordnung.

Für einen im August 2025 fixierten Snapshot ist das das erwartete Muster. Es geht nicht darum, im Mai 2026 das absolut beste verfügbare Modell zu sein; es geht darum, im Mai 2026 dasselbe Modell wie im August 2025 zu sein, damit Vergleiche und Audits gültig bleiben.

Wann auf diesen Snapshot fixieren

Greifen Sie zu gpt-5-2025-08-07, wenn Reproduzierbarkeit wertvoller ist als Spitzenqualität. Die klaren Anwendungsfälle:

Evaluationsvergleiche über die Zeit. Wenn Ihre Benchmark-Suite zum Erscheinungszeitpunkt gegen diesen Snapshot lief, führen Sie sie erneut gegen denselben Snapshot aus statt gegen den gleitenden Slug. Andernfalls messen Sie die Modellentwicklung statt Ihrer eigenen Veränderungen.

Regulierte Entscheidungen, bei denen Audit-Trails das exakte Modell identifizieren müssen, das eine bestimmte Ausgabe erzeugt hat. „Wir haben gpt-5 verwendet“ ist eine unzureichende Antwort, wenn ein Prüfer nach der Version fragt. „Wir haben gpt-5-2025-08-07 verwendet“ ist hinreichend.

Kundenseitige Funktionen mit Qualitäts-SLAs, die gegen ein spezifisches Modellverhalten kalibriert wurden. Wenn Ihre Prompts und Few-Shot-Beispiele auf diesen Snapshot abgestimmt sind, riskiert ein Wechsel zu einem neueren ohne erneutes Tuning subtile Regressionen.

Langlaufende A/B-Experimente, bei denen die Kontrollgruppe für die Dauer des Tests wirklich konstant bleiben muss.

Wann nicht auf diesen Snapshot fixieren

Vermeiden Sie ihn bei der Entwicklung neuer Funktionen. Verwenden Sie stattdessen den gleitenden Slug oder den jüngsten datierten Snapshot; während Sie etwas bauen, wollen Sie das leistungsfähigste verfügbare Modell, nicht das älteste, das noch funktioniert.

Vermeiden Sie ihn bei allgemeinen Chat- und Content-Workflows, in denen die Verbesserungen neuerer Snapshots real sind und die Kosten einer Verhaltensdrift gering ausfallen. Die Snapshots 5.1, 5.2 und spätere sind in denselben Workloads besser. Fixieren Sie nur dann auf die Vergangenheit, wenn die Vergangenheit zählt.

Vermeiden Sie ihn, wenn Sie einen Prompt einsetzen, der sich auf Wissen über Ereignisse nach Mitte 2025 stützt. Das Modell kennt sie nicht. Es wird raten. Die Vermutungen werden manchmal richtig klingen und manchmal völlig falsch sein.

Betriebliche Hinweise

OpenAI veröffentlicht Deprecation-Zeitpläne für datierte Snapshots. Ältere Snapshots werden irgendwann abgeschaltet. Wenn das mit diesem geschieht, beginnt Ihr Code, der auf diesen Slug fixiert ist, Fehler zurückzugeben. Planen Sie vorausschauend: Abonnieren Sie die Deprecation-Ankündigungen und pflegen Sie einen Migrationspfad zu dem Snapshot, auf den Sie als Nächstes fixieren werden.

Für Datenextraktions-Workflows, bei denen die Vision-Fähigkeit tragend ist, ist der August-2025-Snapshot kompetent, wurde aber durch spätere Verfeinerungen des Vision-Encoders übertroffen. Wenn der Arbeitskontext es zulässt, verarbeiten Sie dieselben Dokumente einige Wochen lang parallel durch diesen Snapshot und einen neueren, bevor Sie über eine Migration der Fixierung entscheiden.

Alternativen

Für Workflows, die dieselbe Art von fixierter Reproduzierbarkeit benötigen, aber ein anderes Modell bevorzugen, liefert mittlerweile jeder Frontier-Anbieter datierte Snapshots neben den gleitenden Slugs. Das Muster ist Industriestandard. Wählen Sie das Modell, das Ihren Qualitäts- und Modalitätsanforderungen entspricht, und fixieren Sie dann die datierte Version statt der gleitenden.

Für reine Kostenoptimierung bei Routine-Workloads decken die kleineren Mitglieder der 5.x-Familie (die Mini- und Nano-Tiers) das meiste ab, was allgemeiner Chat tatsächlich benötigt, zu einem Bruchteil der Kosten. Fixieren Sie auch diese Snapshots, wenn Ihnen Reproduzierbarkeit dort wichtig ist.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Anbieter-VergleichLIVE

Anbieter-Vergleich

Vergleiche jeden Anbieter dieses Modells — Kostenbasis, Qualität, Latenz und Uptime.

Azure OpenAI (EU - Sweden)EU

Eingabekosten✓ beste$1.25

Ausgabekosten$10.00

QualitätNoch nicht getestet

Latenz (p50)Noch nicht getestet

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

OpenAIUSDieses Angebot

Eingabekosten$1.25

Ausgabekosten$10.00

Qualität✓ beste100.0

Latenz (p50)✓ beste4,774 ms

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

Konsens-Intelligenz

MODELLWEIT

Konsens-Signale sind modellweit — noch nicht pro Anbieter getrennt.

8.0

Agent-Nutzen (1–10)

—

Präzisions-Score

Einzigartige Treffer

Validierte Anfragen

Community-StimmenLIVE

Community-Stimmen

Was echte Besucher denken — pro Anbieter.

Azure OpenAI (EU - Sweden)EU

Noch keine Community-Stimmen.

OpenAIUS

Noch keine Community-Stimmen.

Mehr Ergebnisse — pro Anbieter

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 38%■ Teilweise 0%■ Falsch 62%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

4,774 ms

Latenz (p50)

—

Uptime

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 38%■ Teilweise 0%■ Falsch 62%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

4,774 ms

Latenz (p50)

—

Uptime

Frage & Antwort — durchblätternLIVE

1 von 80

🧠 IntelligenzOpenAImultilingual · 2026-07-26Score: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

%20 indirim, 150 TL’nin %20’si olan 30 TL’yi düşmek demektir. 150 − 30 = 120 TL Ya da 150 × 0,8 = 120 TL.

Test-Historie — alle AnbieterLIVE

Qualitätsscore im Zeitverlaufneueste 34

Geschwindigkeit — p50-Latenz im Zeitverlauf

Ein Trend erscheint, sobald dieses Modell an mehreren Tagen getestet wurde.

📝Verdict — ZusammenfassungLIVE

GPT-5 shows significant quality decline with category instability

🖼️Bild & ErklärungLIVE

gpt-5-2025-08-07

Fähigkeiten

Warum datierte Snapshots existieren

Was dieser Snapshot ist

Unter der Haube

Wo es heute steht

Wann auf diesen Snapshot fixieren

Wann nicht auf diesen Snapshot fixieren

Betriebliche Hinweise

Alternativen

📊Anbieter-VergleichLIVE

🧠Konsens-Intelligenz

👥Community-StimmenLIVE

🔬Mehr Ergebnisse — pro Anbieter

💬Frage & Antwort — durchblätternLIVE

🗂️Test-Historie — alle AnbieterLIVE

Verdict — ZusammenfassungLIVE

Bild & ErklärungLIVE

Anbieter-VergleichLIVE

Konsens-Intelligenz

Community-StimmenLIVE

Mehr Ergebnisse — pro Anbieter

Frage & Antwort — durchblätternLIVE

Test-Historie — alle AnbieterLIVE