Tier C — Spezialist

Läuft in:USErstellt in:United States

$10.00

Ausgabe · pro 1M Tokens (Kostenbasis)

Kosten

771 ms

Antwortgeschwindigkeit

Noch nicht getestet

Intelligenz

Verdict — ZusammenfassungLIVE

● LIVE

jetzt · 2026-07-26

GPT-5 shows reasoning failure and 54% latency increase in latest window

✗ Reasoning capability dropped to zero✗ Latency increased 54%✓ Multilingual score reached 100✓ Creative performance stable at 45

GPT-5's latest benchmark window reveals significant performance concerns alongside some stability. The model's overall quality score remains unchanged at 48.3 out of 100, but the composition of capabilities has shifted notably. Most concerning is the complete failure in reasoning tasks, dropping to zero from an unmeasured state in the previous window. This represents a critical regression in logical inference capabilities. Meanwhile, multilingual performance surged to a perfect 100, up from zero previously, indicating substantial improvements in language handling. Creative writing scores held steady at 45 across both windows, demonstrating consistency in this domain. However, coding capabilities that scored perfectly at 100 in the previous window were not evaluated in the current testing cycle. Performance degradation extends beyond capability scores to infrastructure metrics. Latency at the median increased by 54 percent, rising from 9047 milliseconds to 13945 milliseconds. This represents a substantial slowdown that will impact user experience, particularly for interactive applications. The reduction in test runs from five to four may indicate testing coverage limitations. Users requiring reasoning capabilities should exercise caution, while those prioritizing multilingual support may benefit from recent improvements.

Quality

48.3

Latency p50

13,945 ms

Test runs

1 von 10

Bild & ErklärungLIVE

OpenAI

gpt-5

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-5 ist ein von OpenAI entwickeltes großes Sprachmodell und stellt die nächste Generation der Generative-Pre-trained-Transformer-Reihe des Unternehmens dar. Als Nachfolger von GPT-4 setzt das Modell den Ansatz von OpenAI fort, großskalige neuronale Netze auf vielfältigen Textdaten zu trainieren, um universelle Sprachaufgaben zu bewältigen. Es ist für Textgenerierung, Verständnis, logisches Schließen und mehrstufige Konversation in einer breiten Palette von Domänen und Anwendungen ausgelegt. Das Modell nutzt eine Transformer-Architektur und baut auf den technischen Grundlagen seiner Vorgänger auf. Während spezifische architektonische Details wie Parameteranzahl und Trainingsmethodik von OpenAI nicht öffentlich offengelegt wurden, behält GPT-5 die Standardfähigkeiten bei, die von führenden Sprachmodellen erwartet werden: Textvervollständigung, Fragebeantwortung, Zusammenfassung, Code-Generierung und kreatives Schreiben. Die Größe des Kontextfensters bleibt in der öffentlichen Dokumentation unbestätigt, wird jedoch voraussichtlich umfangreiche Eingabelängen für komplexe Aufgaben verarbeiten können. Innerhalb der Modellpalette von OpenAI stellt GPT-5 das aktuelle Flaggschiff für Textgenerierung dar und ist als fortschrittlichstes Angebot im API- und Produktökosystem positioniert. Es steht hinsichtlich Veröffentlichungschronologie und beabsichtigtem Leistungsniveau über GPT-4 und früheren Iterationen. Das Modell ist über die Standard-API-Infrastruktur von OpenAI zugänglich und in verschiedene OpenAI-Produkte integriert, die sowohl Entwickler- als auch Unternehmensanwendungsfälle bedienen, die hochmoderne Sprachverarbeitungsfähigkeiten erfordern.

GPT-5 ist OpenAIs nächste Generation der Sprachmodelle – mit stärkerem Reasoning und verbesserter Faktentreue.
— Tokonomix-Benchmark-Zusammenfassung

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5: OpenAIs Frontier-Modell, als es den Flagship-Slot übernahm

gpt-5 ist der rollierende Alias für OpenAIs GPT-5-Frontier-Linie. Text-plus-Vision-Eingabe, das breite multimodale Fähigkeitsspektrum, das von der GPT-4o-„Omni"-Generation übernommen wurde, und das Reasoning-und-Instruktionsbefolgungsprofil, das beim Versand den Default-Flagship-Slot von der GPT-4o-Familie übernahm.

Mitte 2026 umfasst die GPT-5-Linie mehrere Varianten — Basis-GPT-5, das 5.1-Refresh, das 5.2-Release, Codex-Spezialisierungen, Mini- und Nano-Größenklassen. Diese Seite behandelt den Basis-gpt-5-Alias als Einstiegspunkt zur Familie.

Was GPT-5 zum Flagship-Slot beisteuerte

Der Sprung von GPT-4o zu GPT-5 war weniger ein einzelner Fähigkeitssprung als vielmehr ein Bündel inkrementeller Verbesserungen, die sich über die meisten Evaluationskategorien hinweg addierten:

Präzisere Instruktionsbefolgung bei mehrstufigen Aufgaben, bei denen GPT-4o gelegentlich den Faden verlor.
Materiell bessere Long-Context-Aufmerksamkeit. Dieselben Context-Window-Zahlen wie GPT-4o, aber mit Aufmerksamkeit, die weiter in den Puffer hineinreicht.
Verbesserte Tool-Use-Ergonomie — parallele Aufrufe, Schema-Adherence bei komplexen Schemata, Wiederherstellung nach partiellen Tool-Fehlern.
Konsistenteres Verweigerungsverhalten bei Edge-Case-Prompts, die bei GPT-4o breite Varianz über mehrere Läufe hinweg produzierten.
Besser kalibrierte Unsicherheit. Das Modell ist eher bereit zu sagen „Ich weiß es nicht" und weniger anfällig für selbstbewusste Halluzination bei den Arten von Prompts, die GPT-4o-Schwachstellen offenlegten.

Keine davon ist einzeln ein Generationssprung. Die kollektive Wirkung ist bedeutend genug, dass für neue Projekte, die 2026 starten, GPT-5 in der Regel die richtige OpenAI-Standardwahl ist, es sei denn, die Kostenklassenskalierung drängt Sie in Richtung einer Mini- oder Nano-Variante.

Wo es gut passt

Workloads, bei denen das GPT-5-Qualitätsprofil sich von der GPT-4o-Familie abhebt:

Mehrstufige Reasoning-Aufgaben, bei denen das Modell Schlussfolgerungen über längere Sequenzen hinweg verketten muss, ohne den Faden zu verlieren.
Tool-Use-lastige Agenten, bei denen die Parallel-Call-Ergonomie und Schema-Zuverlässigkeit sich in weniger fehlgeschlagenen Tool-Invocations pro Sitzung niederschlagen.
Long-Context-Dokument-Workloads, bei denen die Aufmerksamkeitsqualität in der zweiten Hälfte des Puffers genauso wichtig ist wie die Puffergröße.
Produktions-Pipelines, die auf JSON-Output setzen, wo 5's Schema-Adherence nachgelagerte Parsing-Fehler reduziert.
Konversationsschnittstellen, bei denen Verweigerungskonsistenz über diverse Benutzereingaben hinweg wichtig ist.

Wo es schwächelt

Es ist das Frontier-Tier-Modell. Die damit verbundenen Einschränkungen:

Die Pro-Request-Kosten sind höher als bei den Mini-Tier-Alternativen. Für Bulk-Klassifizierung, -Extraktion oder einfachen Konversations-Support ist GPT-5-mini oder GPT-4o-mini die bessere Unit-Economics-Wahl.
Die Latenz ist höher als bei kleineren Modellen. Für interaktive UIs, bei denen Tippgeschwindigkeit zählt, wiegen Sie die Latenzkosten gegen den Qualitätsvorteil ab.
Kein Audio, keine Realtime-Voice, keine native Videohandhabung am Basis-gpt-5-Endpoint. Die Audio-Preview-Linie, Realtime-Preview und die Transkriptions- und TTS-Endpoints bleiben die richtigen Pfade für diese Workloads.
Self-Hosted-Deployment nicht verfügbar. Nur OpenAI API. Die /usecases/local-Übersicht deckt ab, was verfügbar ist, wenn On-Prem-Betrieb erforderlich ist.

Wo es im Vergleich zum Feld steht

Mitte 2026 sieht der Frontier-Tier-Vergleich so aus:

Gegen Claude Opus 4.6 und 4.7. GPT-5 gewinnt generell bei Tool-Use-Ergonomie und schema-zuverlässigem JSON-Output. Opus gewinnt generell bei sorgfältigem Reasoning-Stil und bei europäischsprachiger Verwaltungsprosa. Die beiden tauschen Siege in Benchmark-Kategorien; die richtige Wahl hängt davon ab, welche Kategorien für Ihr Produkt wichtig sind. Der kategoriebasierte Vergleich befindet sich auf /benchmarks/leaderboard.

Gegen die Gemini-3-Familie. Geminis Long-Context-Handling im Multi-Millionen-Token-Maßstab ist differenziert. GPT-5 hält mit bei den konventionelleren Sub-200k-Kontextgrößen, mit denen die meisten Produktions-Workloads operieren.

Gegen die Open-Weight-Frontier-Modelle. Llama, Mistral Large und die Qwen-Frontier-Linie sind selbst hostbar für Fälle, in denen API-only-Modelle keine Option sind. GPT-5 gewinnt bei Developer-Ergonomie und bei roher Qualität bei den meisten Benchmarks; die offenen Modelle gewinnen, wenn Sie Weights in Ihrer eigenen Infrastruktur benötigen. Siehe /usecases/local.

Die ehrliche Rahmung: Für OpenAI-Shop-Teams, die 2026 frisch starten, ist gpt-5 die richtige Standardwahl. Für Teams, die über Anbieter hinweg wählen, hängt die Antwort davon ab, welche Wettbewerbsachse für das Produkt am wichtigsten ist.

Wann man den rollierenden Alias versus einem datierten Snapshot verwenden sollte

Der rollierende gpt-5-Alias übernimmt OpenAIs inkrementelle Releases automatisch. Die datierten Snapshots (gpt-5-2025-08-07, gpt-5.1-2025-11-13, etc.) frieren spezifische Releases für produktionsstabile Deployments ein.

Für aktive Entwicklung und Forschung ist der rollierende Alias in Ordnung. Für ausgelieferte Produktions-Deployments, bei denen Verhaltensvorhersagbarkeit wichtig ist, pinnen Sie auf einen datierten Snapshot und migrieren Sie nach Ihrem eigenen Evaluationsplan vorwärts.

Es auswählen

Greifen Sie zu gpt-5, wenn:

Sie OpenAIs Flagship-Qualität benötigen und die Pro-Request-Kosten für den Workload akzeptabel sind.
Die Anwendung von den Tool-Use-, Long-Context- oder Reasoning-Verbesserungen gegenüber GPT-4o profitiert.
Verhaltenskonsistenz über diverse Eingaben hinweg für Ihr Produkt wichtig ist.

Überspringen Sie es, wenn:

Ein Mini-Tier-Modell in der GPT-5- oder GPT-4o-Familie die Aufgabe zu signifikant niedrigeren Kosten bewältigt.
Audio, Realtime-Voice oder Video die eigentliche Anforderung ist — verwenden Sie die spezialisierten Endpoints.
On-Prem-Deployment zwingend erforderlich ist.
Das Frontier-Modell eines anderen Anbieters auf der Achse gewinnt, die für Ihr Produkt am wichtigsten ist.

Deployment-Hinweise

Standard-Chat-Completions-API. Tool-Use, Structured-Output, Vision-Input und Streaming verhalten sich alle als produktionsreif. Die API-Oberfläche ist vorwärtskompatibel mit den GPT-5-datierten Snapshots und den Codex-Spezialisierungen.

OpenAIs gehostetes Fine-Tuning unterstützt GPT-5, was einer der praktischsten Wege ist, um für enge Domänen zusätzliche Qualität herauszuholen.

Die pragmatische Lesart. gpt-5 ist die richtige OpenAI-Standardwahl für neue Frontier-Tier-Projekte in 2026, es sei denn, Kostenklassenskalierung oder eine spezialisierte Modalitätsanforderung weist woanders hin. Vergleichen Sie es gegen die Alternativen auf denselben Prompts bei /live-test.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Anbieter-VergleichLIVE

Anbieter-Vergleich

Vergleiche jeden Anbieter dieses Modells — Kostenbasis, Qualität, Latenz und Uptime.

Azure OpenAI (EU - Sweden)EU

Eingabekosten✓ beste$1.25

Ausgabekosten$10.00

QualitätNoch nicht getestet

Latenz (p50)Noch nicht getestet

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

OpenAIUSDieses Angebot

Eingabekosten$1.25

Ausgabekosten$10.00

QualitätNoch nicht getestet

Latenz (p50)✓ beste771 ms

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

Konsens-Intelligenz

MODELLWEIT

Konsens-Signale sind modellweit — noch nicht pro Anbieter getrennt.

8.0

Agent-Nutzen (1–10)

—

Präzisions-Score

Einzigartige Treffer

Validierte Anfragen

Community-StimmenLIVE

Community-Stimmen

Was echte Besucher denken — pro Anbieter.

Azure OpenAI (EU - Sweden)EU

Noch keine Community-Stimmen.

OpenAIUS

Noch keine Community-Stimmen.

Mehr Ergebnisse — pro Anbieter

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 55%■ Teilweise 0%■ Falsch 45%

Spiele & Arena

gespielt

Siege

Niederlagen

20.8 ± 7.2

TrueSkill (μ±σ)

Tempo & Gesundheit

771 ms

Latenz (p50)

—

Uptime

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 55%■ Teilweise 0%■ Falsch 45%

Spiele & Arena

gespielt

Siege

Niederlagen

20.8 ± 7.2

TrueSkill (μ±σ)

Tempo & Gesundheit

771 ms

Latenz (p50)

—

Uptime

Frage & Antwort — durchblätternLIVE

1 von 82

🧠 IntelligenzOpenAImultilingual · 2026-07-26Score: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

İndirim miktarı: 150 TL × %20 = 150 × 0,20 = 30 TL İndirimli fiyat: 150 TL − 30 TL = 120 TL Cevap: 120 TL.

Test-Historie — alle AnbieterLIVE

Qualitätsscore im Zeitverlaufneueste 48

Geschwindigkeit — p50-Latenz im Zeitverlaufneueste 684 ms

📝Verdict — ZusammenfassungLIVE

GPT-5 shows reasoning failure and 54% latency increase in latest window

🖼️Bild & ErklärungLIVE

gpt-5

Fähigkeiten

Was GPT-5 zum Flagship-Slot beisteuerte

Wo es gut passt

Wo es schwächelt

Wo es im Vergleich zum Feld steht

Wann man den rollierenden Alias versus einem datierten Snapshot verwenden sollte

Es auswählen

Deployment-Hinweise

📊Anbieter-VergleichLIVE

🧠Konsens-Intelligenz

👥Community-StimmenLIVE

🔬Mehr Ergebnisse — pro Anbieter

💬Frage & Antwort — durchblätternLIVE

🗂️Test-Historie — alle AnbieterLIVE

Verdict — ZusammenfassungLIVE

Bild & ErklärungLIVE

Anbieter-VergleichLIVE

Konsens-Intelligenz

Community-StimmenLIVE

Mehr Ergebnisse — pro Anbieter

Frage & Antwort — durchblätternLIVE

Test-Historie — alle AnbieterLIVE