Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
OpenAI

gpt-5

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-5 ist ein von OpenAI entwickeltes großes Sprachmodell und stellt die nächste Generation der Generative-Pre-trained-Transformer-Reihe des Unternehmens dar. Als Nachfolger von GPT-4 setzt das Modell den Ansatz von OpenAI fort, großskalige neuronale Netze auf vielfältigen Textdaten zu trainieren, um universelle Sprachaufgaben zu bewältigen. Es ist für Textgenerierung, Verständnis, logisches Schließen und mehrstufige Konversation in einer breiten Palette von Domänen und Anwendungen ausgelegt. Das Modell nutzt eine Transformer-Architektur und baut auf den technischen Grundlagen seiner Vorgänger auf. Während spezifische architektonische Details wie Parameteranzahl und Trainingsmethodik von OpenAI nicht öffentlich offengelegt wurden, behält GPT-5 die Standardfähigkeiten bei, die von führenden Sprachmodellen erwartet werden: Textvervollständigung, Fragebeantwortung, Zusammenfassung, Code-Generierung und kreatives Schreiben. Die Größe des Kontextfensters bleibt in der öffentlichen Dokumentation unbestätigt, wird jedoch voraussichtlich umfangreiche Eingabelängen für komplexe Aufgaben verarbeiten können. Innerhalb der Modellpalette von OpenAI stellt GPT-5 das aktuelle Flaggschiff für Textgenerierung dar und ist als fortschrittlichstes Angebot im API- und Produktökosystem positioniert. Es steht hinsichtlich Veröffentlichungschronologie und beabsichtigtem Leistungsniveau über GPT-4 und früheren Iterationen. Das Modell ist über die Standard-API-Infrastruktur von OpenAI zugänglich und in verschiedene OpenAI-Produkte integriert, die sowohl Entwickler- als auch Unternehmensanwendungsfälle bedienen, die hochmoderne Sprachverarbeitungsfähigkeiten erfordern.

GPT-5 ist OpenAIs nächste Generation der Sprachmodelle – mit stärkerem Reasoning und verbesserter Faktentreue.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
504594411384168242226405-2206-15ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-5
$1.25 pro 1M Input-Tokens
$10.00 pro 1M Output-Tokens
≈ $0.0028 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$1.25
pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)207 / avg 236
39329

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Flaggschiff-Textgenerierung von OpenAIVerbessertes ReasoningGestärkte FaktentreueCode-Generierung und AnalyseBreite API-VerfügbarkeitMehrsprachige Fähigkeiten

Schwächen

Kontextgröße nicht bestätigtFlaggschiff-Kosten erwartetHöhere Latenz als kleinere Varianten
Abschnitt 05

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000
Abschnitt 06

Häufig gestellte Fragen

GPT-5 bringt Verbesserungen in Reasoning, Faktengenauigkeit und Instruktionsbefolgung als nächste Modellgeneration.

Als Nachfolger der GPT-4-Familie setzt GPT-5 neue Standards für allgemeine Sprachmodell-Fähigkeiten.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Verfügbarkeit

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=5

Letzte 30 Tage

100.0%

n=5

Mediane Antwortzeit

22,891ms

n=5

Basierend auf 73 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

5

OK-Antworten (30d)

5

Gesamte Aufrufe (7d)

5

OK-Antworten (7d)

5

Abschnitt 08

Tokonomix-Benchmark-Urteile

2026-06-14

GPT-5 maintains baseline with no measurable performance changes

GPT-5 shows no benchmark changes in this evaluation window, maintaining the performance baseline established in the previous period. All previously introduced capabilities including tools, vision, json_mode, pdf_input, reasoning, json_schema, parallel_tools, and prompt_caching remain available without modification. The model continues to operate at its initial deployment specifications with no observable improvements or regressions across measured dimensions. This stability period suggests OpenAI is prioritizing infrastructure scaling and reliability over incremental capability updates. Users can expect consistent behavior matching prior performance characteristics. The lack of benchmark movement indicates no changes to underlying model weights, inference parameters, or capability implementations. Organizations relying on GPT-5 for production workloads benefit from predictable behavior, though those anticipating performance improvements will need to wait for future updates. The static benchmark window may reflect OpenAI's focus on monitoring real-world deployment patterns before introducing modifications. As GPT-5 remains in its established baseline state, users should continue standard evaluation practices for their specific use cases rather than expecting behavioral changes.

Quality

Latency p50

Test runs

0

Consistent performance maintained All capabilities remain stable
Abschnitt 09

Vollständiges Modellprofil

gpt-5 — illustration 1
GPT-5: OpenAIs Frontier-Modell, als es den Flagship-Slot übernahm

gpt-5 ist der rollierende Alias für OpenAIs GPT-5-Frontier-Linie. Text-plus-Vision-Eingabe, das breite multimodale Fähigkeitsspektrum, das von der GPT-4o-„Omni"-Generation übernommen wurde, und das Reasoning-und-Instruktionsbefolgungsprofil, das beim Versand den Default-Flagship-Slot von der GPT-4o-Familie übernahm.

Mitte 2026 umfasst die GPT-5-Linie mehrere Varianten — Basis-GPT-5, das 5.1-Refresh, das 5.2-Release, Codex-Spezialisierungen, Mini- und Nano-Größenklassen. Diese Seite behandelt den Basis-gpt-5-Alias als Einstiegspunkt zur Familie.

Was GPT-5 zum Flagship-Slot beisteuerte

Der Sprung von GPT-4o zu GPT-5 war weniger ein einzelner Fähigkeitssprung als vielmehr ein Bündel inkrementeller Verbesserungen, die sich über die meisten Evaluationskategorien hinweg addierten:

  • Präzisere Instruktionsbefolgung bei mehrstufigen Aufgaben, bei denen GPT-4o gelegentlich den Faden verlor.
  • Materiell bessere Long-Context-Aufmerksamkeit. Dieselben Context-Window-Zahlen wie GPT-4o, aber mit Aufmerksamkeit, die weiter in den Puffer hineinreicht.
  • Verbesserte Tool-Use-Ergonomie — parallele Aufrufe, Schema-Adherence bei komplexen Schemata, Wiederherstellung nach partiellen Tool-Fehlern.
  • Konsistenteres Verweigerungsverhalten bei Edge-Case-Prompts, die bei GPT-4o breite Varianz über mehrere Läufe hinweg produzierten.
  • Besser kalibrierte Unsicherheit. Das Modell ist eher bereit zu sagen „Ich weiß es nicht" und weniger anfällig für selbstbewusste Halluzination bei den Arten von Prompts, die GPT-4o-Schwachstellen offenlegten.

Keine davon ist einzeln ein Generationssprung. Die kollektive Wirkung ist bedeutend genug, dass für neue Projekte, die 2026 starten, GPT-5 in der Regel die richtige OpenAI-Standardwahl ist, es sei denn, die Kostenklassenskalierung drängt Sie in Richtung einer Mini- oder Nano-Variante.

Wo es gut passt

Workloads, bei denen das GPT-5-Qualitätsprofil sich von der GPT-4o-Familie abhebt:

  • Mehrstufige Reasoning-Aufgaben, bei denen das Modell Schlussfolgerungen über längere Sequenzen hinweg verketten muss, ohne den Faden zu verlieren.
  • Tool-Use-lastige Agenten, bei denen die Parallel-Call-Ergonomie und Schema-Zuverlässigkeit sich in weniger fehlgeschlagenen Tool-Invocations pro Sitzung niederschlagen.
  • Long-Context-Dokument-Workloads, bei denen die Aufmerksamkeitsqualität in der zweiten Hälfte des Puffers genauso wichtig ist wie die Puffergröße.
  • Produktions-Pipelines, die auf JSON-Output setzen, wo 5's Schema-Adherence nachgelagerte Parsing-Fehler reduziert.
  • Konversationsschnittstellen, bei denen Verweigerungskonsistenz über diverse Benutzereingaben hinweg wichtig ist.

Wo es schwächelt

Es ist das Frontier-Tier-Modell. Die damit verbundenen Einschränkungen:

  • Die Pro-Request-Kosten sind höher als bei den Mini-Tier-Alternativen. Für Bulk-Klassifizierung, -Extraktion oder einfachen Konversations-Support ist GPT-5-mini oder GPT-4o-mini die bessere Unit-Economics-Wahl.
  • Die Latenz ist höher als bei kleineren Modellen. Für interaktive UIs, bei denen Tippgeschwindigkeit zählt, wiegen Sie die Latenzkosten gegen den Qualitätsvorteil ab.
  • Kein Audio, keine Realtime-Voice, keine native Videohandhabung am Basis-gpt-5-Endpoint. Die Audio-Preview-Linie, Realtime-Preview und die Transkriptions- und TTS-Endpoints bleiben die richtigen Pfade für diese Workloads.
  • Self-Hosted-Deployment nicht verfügbar. Nur OpenAI API. Die /usecases/local-Übersicht deckt ab, was verfügbar ist, wenn On-Prem-Betrieb erforderlich ist.

Wo es im Vergleich zum Feld steht

Mitte 2026 sieht der Frontier-Tier-Vergleich so aus:

Gegen Claude Opus 4.6 und 4.7. GPT-5 gewinnt generell bei Tool-Use-Ergonomie und schema-zuverlässigem JSON-Output. Opus gewinnt generell bei sorgfältigem Reasoning-Stil und bei europäischsprachiger Verwaltungsprosa. Die beiden tauschen Siege in Benchmark-Kategorien; die richtige Wahl hängt davon ab, welche Kategorien für Ihr Produkt wichtig sind. Der kategoriebasierte Vergleich befindet sich auf /benchmarks/leaderboard.

Gegen die Gemini-3-Familie. Geminis Long-Context-Handling im Multi-Millionen-Token-Maßstab ist differenziert. GPT-5 hält mit bei den konventionelleren Sub-200k-Kontextgrößen, mit denen die meisten Produktions-Workloads operieren.

Gegen die Open-Weight-Frontier-Modelle. Llama, Mistral Large und die Qwen-Frontier-Linie sind selbst hostbar für Fälle, in denen API-only-Modelle keine Option sind. GPT-5 gewinnt bei Developer-Ergonomie und bei roher Qualität bei den meisten Benchmarks; die offenen Modelle gewinnen, wenn Sie Weights in Ihrer eigenen Infrastruktur benötigen. Siehe /usecases/local.

Die ehrliche Rahmung: Für OpenAI-Shop-Teams, die 2026 frisch starten, ist gpt-5 die richtige Standardwahl. Für Teams, die über Anbieter hinweg wählen, hängt die Antwort davon ab, welche Wettbewerbsachse für das Produkt am wichtigsten ist.

Wann man den rollierenden Alias versus einem datierten Snapshot verwenden sollte

Der rollierende gpt-5-Alias übernimmt OpenAIs inkrementelle Releases automatisch. Die datierten Snapshots (gpt-5-2025-08-07, gpt-5.1-2025-11-13, etc.) frieren spezifische Releases für produktionsstabile Deployments ein.

Für aktive Entwicklung und Forschung ist der rollierende Alias in Ordnung. Für ausgelieferte Produktions-Deployments, bei denen Verhaltensvorhersagbarkeit wichtig ist, pinnen Sie auf einen datierten Snapshot und migrieren Sie nach Ihrem eigenen Evaluationsplan vorwärts.

Es auswählen

Greifen Sie zu gpt-5, wenn:

  • Sie OpenAIs Flagship-Qualität benötigen und die Pro-Request-Kosten für den Workload akzeptabel sind.
  • Die Anwendung von den Tool-Use-, Long-Context- oder Reasoning-Verbesserungen gegenüber GPT-4o profitiert.
  • Verhaltenskonsistenz über diverse Eingaben hinweg für Ihr Produkt wichtig ist.

Überspringen Sie es, wenn:

  • Ein Mini-Tier-Modell in der GPT-5- oder GPT-4o-Familie die Aufgabe zu signifikant niedrigeren Kosten bewältigt.
  • Audio, Realtime-Voice oder Video die eigentliche Anforderung ist — verwenden Sie die spezialisierten Endpoints.
  • On-Prem-Deployment zwingend erforderlich ist.
  • Das Frontier-Modell eines anderen Anbieters auf der Achse gewinnt, die für Ihr Produkt am wichtigsten ist.

Deployment-Hinweise

Standard-Chat-Completions-API. Tool-Use, Structured-Output, Vision-Input und Streaming verhalten sich alle als produktionsreif. Die API-Oberfläche ist vorwärtskompatibel mit den GPT-5-datierten Snapshots und den Codex-Spezialisierungen.

OpenAIs gehostetes Fine-Tuning unterstützt GPT-5, was einer der praktischsten Wege ist, um für enge Domänen zusätzliche Qualität herauszuholen.

Die pragmatische Lesart. gpt-5 ist die richtige OpenAI-Standardwahl für neue Frontier-Tier-Projekte in 2026, es sei denn, Kostenklassenskalierung oder eine spezialisierte Modalitätsanforderung weist woanders hin. Vergleichen Sie es gegen die Alternativen auf denselben Prompts bei /live-test.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

gpt-5 — illustration 2gpt-5 — illustration 3
Letzter automatisierter Test
15. Juni 2026 · 08:01 UTC · Geschwindigkeits-Benchmark
P50-Latenz
965 ms
P95-Latenz
1139 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026