Tier B — Produktion

Läuft in:USErstellt in:United States

$2.00

Ausgabe · pro 1M Tokens (Kostenbasis)

Kosten

2,427 ms

Antwortgeschwindigkeit

100 / 100

Intelligenz

Verdict — ZusammenfassungLIVE

● LIVE

jetzt · 2026-07-26

Quality drops 45 points with factual and reasoning scores falling to zero

✗ Quality dropped 45 points✗ Factual and reasoning scores zero✓ Multilingual performance remains excellent✗ Latency increased 3 percent

This benchmark window shows a significant degradation in gpt-5-mini-2025-08-07 performance, with the overall quality score plummeting from 81.3 to 36.3 out of 100. The most alarming change is the complete failure in factual and reasoning categories, both scoring zero compared to their absence from previous measurements where coding achieved perfect scores. This suggests either a regression in the model's core capabilities or fundamental issues with these newly-tested aspects. Multilingual performance remains the model's strongest area, maintaining near-perfect scores at 100 in the current window versus 99 previously. Creative tasks held steady at 45 across both windows, indicating some consistency in generation capabilities. Latency increased slightly from 6548ms to 6742ms at the median, representing a modest 3% slowdown that is unlikely to impact most use cases significantly. The previous window highlighted eight major capabilities including reasoning and vision support, but the current results suggest these additions may not be functioning as intended. Users should exercise caution when deploying this model for factual retrieval or logical reasoning tasks until these critical issues are addressed. The model appears most reliable for multilingual applications at present.

Quality

36.3

Latency p50

6,742 ms

Test runs

1 von 11

Bild & ErklärungLIVE

OpenAI

gpt-5-mini-2025-08-07

Tier B — Produktion

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-5-mini-2025-08-07 ist ein Textgenerierungsmodell von OpenAI, das 2025 als Teil der GPT-5-Familie veröffentlicht wurde. Wie die Bezeichnung „mini" andeutet, stellt dieses Modell eine kleinere, effizientere Variante innerhalb der Produktreihe dar, die darauf ausgelegt ist, Leistungsfähigkeit und Recheneffizienz auszubalancieren. Es verarbeitet und erzeugt menschenähnliche Texte basierend auf Eingabeprompts und eignet sich für Anwendungen wie Content-Generierung, Konversationsagenten, Textanalyse und allgemeine Sprachaufgaben. Das Modell verfügt über standardmäßige Textgenerierungsfähigkeiten ohne spezialisierte multimodale Funktionen und konzentriert sich auf grundlegendes Sprachverständnis und -produktion. Die Größe des Kontextfensters wurde nicht öffentlich bekanntgegeben, wobei es die fundamentalen Architekturmerkmale der GPT-5-Serie beibehält, einschließlich verbesserter Reasoning-Fähigkeiten und präziserer Faktenwiedergabe im Vergleich zu früheren Generationen. Das Veröffentlichungsdatum im August 2025 legt nahe, dass es Trainingsdaten und architektonische Verfeinerungen einbezieht, die bis zu diesem Zeitpunkt verfügbar waren. Innerhalb des OpenAI-Modellangebots nimmt GPT-5-mini eine Position als zugängliche Option für Entwickler und Organisationen ein, die leistungsfähige Sprachverarbeitung ohne den Rechenaufwand vollwertiger GPT-5-Modelle benötigen. Es bedient Anwendungsfälle, bei denen Antwortgeschwindigkeit und Ressourceneffizienz neben Qualität priorisiert werden, wodurch es sich für Hochdurchsatzanwendungen, eingebettete Systeme oder Szenarien mit Infrastrukturbeschränkungen eignet. Das Modell bleibt kompatibel mit OpenAIs Standard-API-Infrastruktur und Tooling-Ökosystem.

GPT-5-mini-2025-08-07 positioniert sich als ressourcenschonende Variante der GPT-5-Familie und richtet sich an Entwickler, die effiziente Sprachverarbeitung ohne den Overhead vollständiger Flagship-Modelle benötigen.
— Tokonomix Modellanalyse

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5 Mini (Snapshot 2025-08-07): der älteste datierte Mini-Pin

Dies ist der datierte Snapshot des ursprünglichen GPT-5 Mini, eingefroren zum Launch am 7. August 2025. Es ist der am stärksten gealterte datierte Snapshot innerhalb der GPT-5-Mini-Familie — gepinnt von Teams, die Mini zum GPT-5-Launch eingeführt und seither nicht migriert haben. Die entscheidende operative Frage für diesen Pin lautet nicht mehr „soll ich ihn pinnen", sondern „wann plane ich die Migration weg davon, und worauf wechsle ich".

Das Argument der Deprecation-Laufzeit

OpenAI veröffentlicht Deprecation-Zeitpläne für datierte Snapshots. Das Muster über die Modellgenerationen hinweg war konsistent: Snapshots werden irgendwann abgekündigt, mit mindestens einigen Monaten Vorlaufzeit. Das genaue Datum wird zum Zeitpunkt der Ankündigung bekanntgegeben und ist nicht im Voraus planbar.

Für einen Snapshot, der seit dem GPT-5-Launch existiert, lautet die Frage nicht, ob die Deprecation kommt. Sie lautet, ob Sie einen Migrationsplan bereit haben, wenn OpenAI den Zeitplan veröffentlicht. Teams, die am längsten gegen diesen Pin betrieben haben, tragen die größte angesammelte technische Investition — Prompts, die auf das spezifische Verhalten des Modells kalibriert sind, nachgelagertes Parsing, das von Output-Eigenheiten abhängt, Evaluations-Harnesses, die diesen Snapshot als Baseline referenzieren. All das muss verschoben werden, wenn dieser Snapshot abgekündigt wird.

Die Gegenmaßnahme ist Vorausplanung. Identifizieren Sie, auf welchen neueren Mini Sie migrieren wollen. Führen Sie regelmäßige Evaluationen gegen dieses Ziel durch. Bauen Sie die Migrations-Prompt-Engineering-Arbeit als bekanntes Projekt auf und nicht als Krisenreaktion. Die Kosten sind gering, wenn geplant. Sie sind erheblich höher, wenn unter Termindruck gearbeitet wird, sobald das Deprecation-Datum erreicht ist.

Was dieser Snapshot festhält

Den August-2025-Launch von GPT-5 Mini: Launch-Gewichte, Launch-Verhalten bei Klassifikation und Extraktion, Launch-Latenzprofil, Launch-Vision-Encoder-Konfiguration für diese Größenklasse. Das Modell hat sich seitdem nicht verändert.

Die Verbesserungen, die die breitere GPT-5-Linie in den nachfolgenden Generationen angesammelt hat — bessere Klassifikationsgenauigkeit, präziserer strukturierter Output, verbesserte Vision-Fähigkeit, Wissen über Entwicklungen nach Mitte 2025 — nichts davon ist hier vorhanden.

Unter der Haube

Architektonisch handelt es sich um den GPT-5-Mini-Transformer-Decoder auf einer kleineren Parameterskala als 5.0 Base. Das Modell akzeptiert verschachtelte Text- und Bildeingaben und gibt ausschließlich Text aus. OpenAI hat keine Parameterzahlen veröffentlicht.

Die Tokenisierung nutzt das Standard-GPT-5-BPE-Vokabular. Bildeingaben werden mit fester Token-Kosten pro Kachel kachelkodiert. Der Trainings-Cutoff liegt in der Mitte des Jahres 2025. Das Modell kennt die zu diesem Zeitpunkt gängigen Mainline-Sprachstandards und Framework-Versionen.

Die Profile für Kosten pro Token und Latenz pro Anfrage sind auf den Launch-Werten festgeschrieben.

Wo es heute steht

Gegenüber den aktuellen Angeboten der Small-Tier-Klasse rangiert der August-2025-Snapshot von GPT-5 Mini in den meisten Benchmark-Dimensionen deutlich unter den neueren GPT-5 Minis. Das Intelligence-Leaderboard verfolgt die vergleichende Position; der Abstand zu aktuellen Snapshots vergrößert sich mit jedem Erscheinen neuer Generationen.

Für Routine-Workloads — einfache Klassifikation, einfache Extraktion, kurzer strukturierter Output, Customer-Service-Automatisierung auf etablierten Mustern — leistet der Snapshot weiterhin nützliche Arbeit. Für alles, was Wissen nach Mitte 2025, aktuelle Vision-Fähigkeiten oder die Qualitätsverbesserungen neuerer Minis erfordert, ist das Modell zunehmend die falsche Wahl.

Für Content-Workflows am sehr routinemäßigen Ende und Datenextraktion bei Standarddokumenten ist der Snapshot weiterhin funktional. Für anspruchsvollere Workloads ist die Lücke zu neueren Pins sichtbar.

Wann dieser Pin beibehalten werden sollte

Die Argumente, bei diesem Snapshot zu bleiben, sind eng gefasst und schrumpfen:

Sie haben nachgelagerte Werkzeuge eng auf die spezifischen Output-Muster dieses Modells kalibriert, und die Migrationskosten bleiben höher als die kumulierten Kosten des Verbleibens.

Sie befinden sich in einem regulierten Kontext, in dem dieser spezifische Pin Teil eines aktiven Audit-Zyklus ist und ein Modellwechsel eine Rezertifizierung erfordert, die bislang nicht ausgelöst wurde.

Ihr Workload ist tatsächlich routinemäßig, und die Qualitätslücke zu neueren Minis wirkt sich in keiner messbaren Weise auf die Ergebnisse aus.

Sie betreiben langlaufende A/B-Experimente, bei denen der Kontrollarm für die Dauer des Tests wirklich fix bleiben muss, und der Test ist noch nicht abgeschlossen.

Wann jetzt migriert werden sollte

Die klaren Auslöser:

OpenAI hat den Deprecation-Zeitplan für diesen Snapshot veröffentlicht, und das Datum liegt nahe genug, um aktive Migrationsplanung zu erfordern.

Ihr Workload ist gewachsen und benötigt Fähigkeiten, die diese Generation nicht besitzt — Wissen nach dem Cutoff, Vision-Qualität, Zuverlässigkeit strukturierter Outputs, die neuere Minis bieten.

Ihr Evaluations-Harness zeigt, dass die kumulative Qualitätslücke spürbare Ergebnisse kostet — mehr Support-Tickets, mehr Nacharbeit, mehr für Kunden sichtbare Probleme.

Sie befinden sich an einem natürlichen Umbaupunkt in Ihrer Pipeline, an dem die Migrationskosten geringer als üblich sind.

Auswahl des Migrationsziels

Die natürlichen Ziele sind die datierten Snapshots neuerer Mini-Generationen: 5.2 Mini, 5.4 Mini, 5.5 Mini oder das jeweils Aktuelle, wenn Sie migrieren. Die Wahl hängt von denselben Überlegungen ab wie jede andere Mini-Wahl: Fähigkeitsanforderungen, Kostensensitivität, Bereitschaft, später erneut zu migrieren, gegenüber dem Pinnen des aktuell verfügbaren Modells.

Die meisten Teams, die von diesem Snapshot wegmigrieren, landen auf dem neuesten stabilen datierten Mini, der lange genug im Markt war, damit die frühen Patches eingelaufen sind. Das gibt Ihnen die Qualitätsgewinne der neueren Generation kombiniert mit der operativen Stabilität eines ausgereiften Pins.

Das Migrationsmuster

Pinnen Sie den Ziel-Snapshot im Pre-Release. Lassen Sie Ihre bestehenden Prompts hindurchlaufen. Erwarten Sie gewisse Anpassungen, da sich Output-Muster zwischen Generationen leicht unterscheiden. Validieren Sie gegen Ihre Evaluations-Suite. Aktualisieren Sie das nachgelagerte Parsing, falls sich Format-Eigenheiten verändert haben. Schalten Sie den Produktions-Traffic um. Stellen Sie den alten Pin außer Betrieb.

Das gesamte Projekt nimmt für einen Workload moderater Komplexität in der Regel einige Ingenieur-Wochen in Anspruch. Vor der Deprecation durchgeführt, ist es ein geplantes Projekt. Unter Termindruck durchgeführt, ist es eine Feueralarmübung.

Alternativen

Für Workloads, die gepinntes Mini-Tier-Verhalten bei einem anderen Anbieter benötigen, bieten die vergleichbaren datierten Snapshots von Anthropic und Google dasselbe Pinning-Muster zu potenziell anderen Kosten-Qualitäts-Verhältnissen.

Für kostenoptimierte Workloads, bei denen das OpenAI-Ökosystem nicht tragend ist, liefern kleine Open-Weights-Klassifikatoren auf eigener Infrastruktur die Residency-Story und die operative Vorhersagbarkeit, die fließende Slugs nicht bieten können.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

Anbieter-VergleichLIVE

Anbieter-Vergleich

Vergleiche jeden Anbieter dieses Modells — Kostenbasis, Qualität, Latenz und Uptime.

Azure OpenAI (EU - Sweden)EU

Eingabekosten✓ beste$0.2500

Ausgabekosten$2.00

QualitätNoch nicht getestet

Latenz (p50)Noch nicht getestet

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

OpenAIUSDieses Angebot

Eingabekosten$0.2500

Ausgabekosten$2.00

Qualität✓ beste100.0

Latenz (p50)✓ beste2,427 ms

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

Konsens-Intelligenz

MODELLWEIT

Konsens-Signale sind modellweit — noch nicht pro Anbieter getrennt.

—

Agent-Nutzen (1–10)

—

Präzisions-Score

Einzigartige Treffer

Validierte Anfragen

Community-StimmenLIVE

Community-Stimmen

Was echte Besucher denken — pro Anbieter.

Azure OpenAI (EU - Sweden)EU

Noch keine Community-Stimmen.

OpenAIUS

Noch keine Community-Stimmen.

Mehr Ergebnisse — pro Anbieter

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 57%■ Teilweise 0%■ Falsch 43%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

2,427 ms

Latenz (p50)

—

Uptime

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 57%■ Teilweise 0%■ Falsch 43%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

2,427 ms

Latenz (p50)

—

Uptime

Frage & Antwort — durchblätternLIVE

1 von 80

🧠 IntelligenzOpenAImultilingual · 2026-07-26Score: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

%20 indirim demek fiyatın %80'ine düşmesi demektir. 150 × 0,80 = 120 Cevap: 120 TL.

Test-Historie — alle AnbieterLIVE

Qualitätsscore im Zeitverlaufneueste 38

Geschwindigkeit — p50-Latenz im Zeitverlauf

Ein Trend erscheint, sobald dieses Modell an mehreren Tagen getestet wurde.

📝Verdict — ZusammenfassungLIVE

Quality drops 45 points with factual and reasoning scores falling to zero

🖼️Bild & ErklärungLIVE

gpt-5-mini-2025-08-07

Fähigkeiten

Das Argument der Deprecation-Laufzeit

Was dieser Snapshot festhält

Unter der Haube

Wo es heute steht

Wann dieser Pin beibehalten werden sollte

Wann jetzt migriert werden sollte

Auswahl des Migrationsziels

Das Migrationsmuster

Alternativen

📊Anbieter-VergleichLIVE

🧠Konsens-Intelligenz

👥Community-StimmenLIVE

🔬Mehr Ergebnisse — pro Anbieter

💬Frage & Antwort — durchblätternLIVE

🗂️Test-Historie — alle AnbieterLIVE

Verdict — ZusammenfassungLIVE

Bild & ErklärungLIVE

Anbieter-VergleichLIVE

Konsens-Intelligenz

Community-StimmenLIVE

Mehr Ergebnisse — pro Anbieter

Frage & Antwort — durchblätternLIVE

Test-Historie — alle AnbieterLIVE