Tier B — Produktion

Läuft in:USErstellt in:United States

$10.00

Ausgabe · pro 1M Tokens (Kostenbasis)

Kosten

1,317 ms

Antwortgeschwindigkeit

100 / 100

Intelligenz

Verdict — ZusammenfassungLIVE

● LIVE

jetzt · 2026-07-26

Quality decline and significant latency regression observed

✗ Latency increased 162%✗ Overall quality dropped 2.8 points✗ Factual accuracy declined to 91✓ Perfect reasoning and multilingual scores

This benchmark window reveals a notable performance regression for GPT-5.1. The overall quality score decreased from 99.7 to 96.9, representing a 2.8-point drop that suggests meaningful capability changes. Most concerning is the latency increase of 162 percent, with median response time rising from 1359ms to 3555ms. This substantially impacts user experience across all use cases. Category performance shows a mixed picture. Reasoning and multilingual capabilities achieved perfect scores of 100, demonstrating strong performance in these domains. The multilingual score maintained its previous perfect rating. However, factual accuracy dropped to 91, a concerning regression in a critical capability area. Creative writing remained strong at 97, though this represents a slight decrease from the previous 99. The coding category, which scored perfectly in the prior window, was not measured in the current evaluation period. Users should expect noticeably slower response times compared to the previous version, which may affect real-time applications and conversational flows. The quality decline, while not catastrophic, suggests this version may be less reliable for fact-intensive tasks. The maintained excellence in reasoning and multilingual tasks provides some reassurance for those specific workloads.

Quality

96.9

Latency p50

3,555 ms

Test runs

1 von 11

Bild & ErklärungLIVE

OpenAI

gpt-5.1-2025-11-13

Tier B — Produktion

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-5.1-2025-11-13 ist ein großes Sprachmodell, das von OpenAI entwickelt wurde und im November 2025 als Teil der GPT-5-Serie veröffentlicht wurde. Dieses Modell stellt eine iterative Aktualisierung von OpenAIs führender Sprachmodell-Reihe dar und integriert architektonische Verbesserungen sowie Training auf aktuelleren Daten im Vergleich zu seinen Vorgängern. Es ist für allgemeine Textgenerierungsaufgaben konzipiert, einschließlich Verarbeitung natürlicher Sprache, Content-Erstellung, Fragebeantwortung, Code-Generierung und Konversationsanwendungen. Das Modell verfügt über standardmäßige Textgenerierungsfähigkeiten mit Unterstützung für komplexes Schlussfolgern, mehrstufigen Dialog und Befolgung von Anweisungen. Obwohl die exakte Größe des Kontextfensters nicht öffentlich bekannt gegeben wurde, wird erwartet, dass es erhebliche Eingabelängen verarbeitet, die mit modernen großen Sprachmodellen konsistent sind. GPT-5.1 baut auf dem Fundament der GPT-5-Serie auf und bietet verbesserte Leistung bei Reasoning-Benchmarks sowie erhöhte faktische Genauigkeit durch Aktualisierungen des Trainingsdaten-Cutoffs. Innerhalb von OpenAIs Modell-Lineup ist GPT-5.1-2025-11-13 ein Angebot der aktuellen Generation in der GPT-5-Familie. Die datumsbezogene Versionskennung zeigt an, dass dies ein spezifischer Snapshot ist, der im November 2025 veröffentlicht wurde und OpenAIs Praxis widerspiegelt, versionierte Releases für Konsistenz und Reproduzierbarkeit bereitzustellen. Dieses Modell dient Nutzern, die zuverlässige, allgemeine Sprachmodellfähigkeiten für Produktionsanwendungen, Forschung und Entwicklung in verschiedenen Bereichen benötigen.

GPT-5.1 markiert OpenAIs jüngsten Iterationsschritt in der GPT-5-Reihe und bringt verbesserte Reasoning-Fähigkeiten sowie aktuelle Trainingsdaten in ein ausgereiftes Sprachmodell.
— Tokonomix Modellanalyse

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

gpt-5.1-2025-11-13: der GPT-5.1-Freeze vom November 2025

gpt-5.1-2025-11-13 ist der datierte Snapshot der GPT-5.1-Linie von OpenAI aus November 2025. Der Freeze des rollierenden Alias gpt-5.1 in dem Zustand, in dem er am Release-Tag von 5.1 stand, festgeschrieben für Produktiv-Deployments, die sich an ein konkretes Verhalten binden.

Für Teams, die das 5.1-Evaluation-Suite durchlaufen haben, ihre produktiven Workloads gegen das Launch-Day-Verhalten validiert haben und genau dieses Verhalten unverändert beibehalten wollen, während OpenAI über den rollierenden Alias weiter Feinjustierungen ausliefert — das ist der Snapshot, an den man sich pinnen sollte.

Was dieser Snapshot repräsentiert

Das Release vom November 2025 ist der initiale GPT-5.1-Freeze. Zu diesem Release verfügte das Modell über:

Das vollständige Set an 5.1-Verfeinerungen gegenüber 5.0 — verbesserte Einhaltung von JSON-Schemata, präziseres Tool-Use-Verhalten, geringere Varianz bei Edge-Case-Prompts, überarbeitete Refusal-Haltung.
Das Context-Window und das Attention-Profil der 5.1-Linie im Launch-Zustand.
Vision-Input-Verhalten, das auf die Standards der 5.1-Linie abgestimmt wurde.

Was er nicht enthält, relativ zu dem, was sich seither im rollierenden gpt-5.1-Alias angesammelt hat:

Jegliche Within-Version-Verfeinerungen, die OpenAI seit dem Launch ausgeliefert hat — kleine Genauigkeitsverbesserungen, zusätzliche Refusal-Justierungen, Latenzoptimierungen.
Kompatibilität mit neueren API-Features, die möglicherweise nach dem Snapshot-Datum hinzugefügt wurden.

Für ein Produktiv-Deployment, das gegen das Launch-Verhalten vom November 2025 validiert wurde, sind genau diese Within-Version-Updates die Änderungen, vor denen der Pin schützt. Sie sind im Durchschnitt Verbesserungen; bei den spezifischen Edge Cases, auf die Ihre Evaluation abgestimmt ist, können sie Regressionen sein.

Warum ein datierter 5.1-Pin Sinn ergibt

Das Argument, den datierten GPT-5.1-Snapshot zu pinnen statt auf dem rollierenden Alias zu fahren, ist das klassische Produktiv-Stabilitäts-Argument:

Verhaltensänderungen zwischen Within-Version-Updates können Prompt-Templates brechen, die auf spezifische Eigenheiten abgestimmt waren.
Verschiebungen in der Schema-Einhaltung können Downstream-Parsing-Ergebnisse verändern, selbst wenn das Hauptverhalten unverändert bleibt.
Verschiebungen in der Refusal-Haltung können Ablehnungen in Szenarien produzieren, die vorher funktionierten — und umgekehrt.
Compliance-Audits verlangen häufig explizite Snapshot-Pins statt der Nutzung rollierender Aliase.

Der Preis ist der Verzicht auf Within-Version-Verbesserungen. Der Nutzen ist vorhersagbares Produktiv-Verhalten. Für ausgelieferte Produkte mit etablierter Nutzerschaft ist dieser Tausch in der Regel lohnenswert.

Die Migrationsfrage

Bei datierten Snapshots reifer Modell-Linien teilt sich die Migrationsfrage in zwei Richtungen: vorwärts innerhalb der Version (auf das, was der rollierende Alias inzwischen akkumuliert hat) und vorwärts über Versionen hinweg (auf GPT-5.2 oder das, was OpenAI als Nächstes veröffentlicht hat).

Within-Version-Migration ist meist der risikoärmere Pfad. Dieselbe Modell-Linie, dasselbe allgemeine Verhalten, mit den akkumulierten Within-Version-Verfeinerungen. Lassen Sie Ihre Evaluation-Suite erneut durchlaufen und migrieren Sie, wenn die Within-Version-Updates nachweislich gewinnen.

Cross-Version-Migration ist die größere Veränderung. GPT-5.2 hat sein eigenes charakteristisches Verhalten, das in einer Weise von 5.1 abweicht, die über den Within-Version-Drift hinausgeht. Die Revalidierung ist aufwendiger, und das Migrationsziel ist ein bewegliches, bis die 5.2-Linie selbst datierte Snapshots zum Pinnen anbietet.

Wo es schwächelt

Dieselben Einschränkungen wie für den Rest der GPT-5-Linie.

Kostentier. Die Mini- und Nano-Geschwister sind die richtige Wahl für Workloads, bei denen ein Frontier-Sizing überdimensioniert ist.

Latenz. Die Latenz auf Frontier-Niveau ist höher als bei kleineren Geschwistern.

Kein Audio, kein Realtime-Voice, kein Video. Nutzen Sie die spezialisierten Endpoints.

Self-Hosted-Deployment nicht verfügbar.

Code-generation-lastige Workloads, bei denen die Codex-Varianten die bessere Wahl sind.

Wann genau dieser Snapshot zu pinnen ist

Wählen Sie gpt-5.1-2025-11-13, wenn:

Sie ein Produktivprodukt auf dem GPT-5.1-Launch-Verhalten vom November 2025 ausgeliefert haben und es stabil halten müssen.
Eine Compliance-Anforderung die Modellversion auf Snapshot-Ebene festschreibt.
Sie mitten in einer Evaluation von Within-Version-Updates oder von GPT-5.2 stecken und während dieser Evaluation eine stabile Produktiv-Baseline benötigen.

Lassen Sie ihn weg, wenn:

Sie neu starten — der rollierende gpt-5.1-Alias oder gpt-5.1-chat-latest ist der praktischere Default für aktive Entwicklung.
Within-Version-Updates in Ihrer Evaluation nachweislich gewonnen haben.
Das 5.2-Release in der Evaluation gegen 5.1 in den für Ihr Produkt relevanten Dimensionen gewonnen hat.
Ein anderes Modell im Katalog besser zum Workload passt — Mini/Nano für die Kostenklasse, Codex für Code, Audio-Geschwister für Voice.

Vergleichswerte Alternativen

Der rollierende gpt-5.1-Alias, wenn Sie Within-Version-Updates ohne Migrationsverwaltung wollen. gpt-5.1-chat-latest für konversationelle Use Cases, die gegen den rollierenden Tag optimiert sind. gpt-5.2, wenn die Evaluation der neueren Version gewonnen hat. Mini- und Nano-Geschwister für kostensensible Workloads. Die Codex-Varianten für code-lastige Arbeit.

Deployment-Hinweise

Standard Chat Completions API. Der Snapshot-Pin ist rein eine Modellnamen-Entscheidung; die API-Oberfläche, das Vision-Input-Verhalten, das Handling strukturierter Outputs und die Ergonomie der Tool-Nutzung sind unverändert gegenüber dem Tag, an dem 5.1 gelauncht wurde.

Token-Abrechnung zu den GPT-5-Frontier-Tier-Sätzen. Der Snapshot-Pin verändert die Kostenstruktur gegenüber dem rollierenden Alias nicht.

Die pragmatische Einschätzung. Das ist der GPT-5.1-Freeze vom November 2025. Pinnen Sie ihn, wenn Ihr Produktivprodukt gegen das Launch-Verhalten validiert wurde und Stabilität auf Snapshot-Ebene zählt. Migrieren Sie innerhalb der Version oder über Versionen hinweg, wenn Ihre eigene Evaluation sagt, dass der nächste Schritt der richtige ist. Vergleichen Sie ihn vor dem Commitment unter /live-test gegen die Alternativen.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

Anbieter-VergleichLIVE

Anbieter-Vergleich

Vergleiche jeden Anbieter dieses Modells — Kostenbasis, Qualität, Latenz und Uptime.

Azure OpenAI (EU - Sweden)EU

Eingabekosten✓ beste$1.25

Ausgabekosten$10.00

QualitätNoch nicht getestet

Latenz (p50)Noch nicht getestet

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

OpenAIUSDieses Angebot

Eingabekosten$1.25

Ausgabekosten$10.00

Qualität✓ beste100.0

Latenz (p50)✓ beste1,317 ms

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

Konsens-Intelligenz

MODELLWEITDORMANT

Konsens-Signale sind modellweit — noch nicht pro Anbieter getrennt.

Konsens-Scoring sammelt noch Daten für dieses Modell — noch keine Signale.

Community-StimmenLIVE

Community-Stimmen

Was echte Besucher denken — pro Anbieter.

Azure OpenAI (EU - Sweden)EU

Noch keine Community-Stimmen.

OpenAIUS

Noch keine Community-Stimmen.

Mehr Ergebnisse — pro Anbieter

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 100%■ Teilweise 0%■ Falsch 0%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

1,317 ms

Latenz (p50)

—

Uptime

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 100%■ Teilweise 0%■ Falsch 0%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

1,317 ms

Latenz (p50)

—

Uptime

Frage & Antwort — durchblätternLIVE

1 von 80

🧠 IntelligenzOpenAImultilingual · 2026-07-26Score: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

150 TL’lik ürüne %20 indirim: %20’si = 150 × 0,20 = 30 TL İndirimli fiyat = 150 − 30 = **120 TL**

Test-Historie — alle AnbieterLIVE

Qualitätsscore im Zeitverlaufneueste 97

Geschwindigkeit — p50-Latenz im Zeitverlauf

Ein Trend erscheint, sobald dieses Modell an mehreren Tagen getestet wurde.

📝Verdict — ZusammenfassungLIVE

Quality decline and significant latency regression observed

🖼️Bild & ErklärungLIVE

gpt-5.1-2025-11-13

Fähigkeiten

Was dieser Snapshot repräsentiert

Warum ein datierter 5.1-Pin Sinn ergibt

Die Migrationsfrage

Wo es schwächelt

Wann genau dieser Snapshot zu pinnen ist

Vergleichswerte Alternativen

Deployment-Hinweise

📊Anbieter-VergleichLIVE

🧠Konsens-Intelligenz

👥Community-StimmenLIVE

🔬Mehr Ergebnisse — pro Anbieter

💬Frage & Antwort — durchblätternLIVE

🗂️Test-Historie — alle AnbieterLIVE

Verdict — ZusammenfassungLIVE

Bild & ErklärungLIVE

Anbieter-VergleichLIVE

Konsens-Intelligenz

Community-StimmenLIVE

Mehr Ergebnisse — pro Anbieter

Frage & Antwort — durchblätternLIVE

Test-Historie — alle AnbieterLIVE