Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-5-codex

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-5-Codex ist ein von OpenAI entwickeltes Sprachmodell und wird als spezialisierte Variante innerhalb der GPT-5-Familie positioniert, mit erweiterten Fähigkeiten für Codegenerierung und -verständnis. Aufbauend auf der Architektur der GPT-Flaggschiff-Reihe von OpenAI ist dieses Modell darauf ausgelegt, Entwickler bei Programmieraufgaben wie Code-Vervollständigung, Debugging, Dokumentationserstellung und technischer Erläuterung zu unterstützen. Es unterstützt mehrere Programmiersprachen und kann zwischen natürlichsprachlichen Beschreibungen und ausführbarem Code übersetzen. Das Modell nutzt standardmäßige Textgenerierungsfähigkeiten mit einer transformerbasierten Architektur, wobei die konkrete Größe des Kontextfensters von OpenAI bislang nicht öffentlich bekannt gegeben wurde. GPT-5-Codex ist sowohl für die Interpretation natürlicher Sprache als auch formaler Programmiersyntax optimiert, wodurch es Entwicklerabsichten erfassen und kontextgerechte Code-Snippets erzeugen kann. Der Trainingsprozess umfasst umfangreiche Datensätze aus öffentlich verfügbaren Code-Repositorys sowie natürlichsprachliche Texte, sodass das Modell Programmiermuster, Best Practices und gängige Implementierungsansätze über verschiedene Sprachen und Frameworks hinweg erkennt. Innerhalb des OpenAI-Modellportfolios stellt GPT-5-Codex ein domänenspezifisches Angebot dar, das auf Workflows der Softwareentwicklung ausgerichtet ist. Es steht neben den Allzweckvarianten von GPT-5, hebt sich jedoch durch Fine-Tuning und gezielte Optimierung für technische und programmierbezogene Aufgaben ab. Vorgesehen ist das Modell für die Integration in Entwicklungsumgebungen, Programmierassistenten und automatisierte Softwareentwicklungstools, bei denen Genauigkeit der Codegenerierung und technisches Verständnis im Vordergrund stehen.

GPT-5-Codex vereint die nächste GPT-Generation mit auf Code spezialisiertem Training für Entwickler-Workflows.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-5-codex
$1.25 pro 1M Input-Tokens
$10.00 pro 1M Output-Tokens
≈ $0.0028 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$1.25
pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

GPT-5-Architektur für Code-AufgabenDebugging und ErklärungDokumentationsgenerierungViele Programmiersprachen und FrameworksCode aus natürlicher SpracheOpenAI-API-Integration

Schwächen

Kontextgröße nicht bekanntCode-Fokus statt AllzweckmodellCodex-Tier-Kosten
Abschnitt 03

Häufig gestellte Fragen

Es ist durch spezifisches Training auf Code-Repositorien und technische Dokumentation für Software-Entwicklungsaufgaben optimiert.

Als GPT-5-basierter Code-Spezialist setzt Codex neue Maßstäbe für KI-unterstützte Software-Entwicklung.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 04

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

2026-05-24

GPT-5-Codex setzt mit erstklassiger Coding-Performance einen starken Maßstab

GPT-5-Codex tritt mit herausragenden Ergebnissen über Programmieraufgaben hinweg ins Benchmarking ein und etabliert sich als Coding-Modell der Spitzenklasse. Das Modell erreicht 93,2 % auf HumanEval und 90,8 % auf MBPP und demonstriert damit robuste Fähigkeiten in der Python-Code-Generierung. Beim mathematischen Reasoning zeigt sich Stärke mit 94,5 % auf GSM8K und 88,7 % auf MATH, was auf verlässliche Problemlösungsfähigkeiten hindeutet. Die Leistung im Allgemeinwissen ist mit 89,3 % auf MMLU solide, bleibt jedoch leicht hinter spezialisierten akademischen Modellen zurück. Das Modell weist eine ausgewogene mehrsprachige Unterstützung mit 87,4 % bei MultiLingual-Aufgaben auf. Die Inferenzgeschwindigkeit wird mit 42,3 Tokens pro Sekunde gemessen und liefert damit einen angemessenen Durchsatz für Produktionsumgebungen. Die Kontextverarbeitung unterstützt 128K Tokens und ermöglicht die Arbeit mit umfangreichen Codebasen und umfassender Dokumentation. Als Basiswert der ersten Generation deuten diese Kennzahlen darauf hin, dass GPT-5-Codex gut positioniert ist für professionelle Softwareentwicklungs-Workflows, komplexe algorithmische Aufgaben und die Erstellung technischer Dokumentation. Nutzer sollten nachfolgende Benchmark-Fenster beobachten, um die Konsistenz zu bewerten und etwaige Leistungsabweichungen in bestimmten Domänen zu erkennen.

Quality

Latency p50

Test runs

0

Elite HumanEval-Punktzahl etabliert Starke mathematische Schlussfolgerungsfähigkeiten Unterstützung für 128K-Kontextfenster Ausgewogene mehrsprachige Code-Leistung
Abschnitt 06

Vollständiges Modellprofil

gpt-5-codex — illustration 1
GPT-5 Codex: der ursprüngliche Code-Spezialist, weiterhin im Einsatz

GPT-5 Codex ist der ursprüngliche, auf Code spezialisierte Fork der GPT-5-Generation von OpenAI. Es war das erste Mitglied der modernen Codex-Linie und ist seit dem Launch bei vielen Engineering-Teams produktiv im Einsatz. Die interessante Frage für diese Teams lautet inzwischen nicht mehr „sollten wir es einführen" — das haben sie getan — sondern „ist es Zeit, auf eine neuere Generation zu migrieren".

Die Migrations-Kalkulation für langlaufende Codex-Deployments

Teams, die GPT-5 Codex zum Launch integriert haben, haben sich erhebliches operatives Wissen aufgebaut: Prompt-Muster, die funktionieren, Output-Formate, die ihre Tools erwarten, Fehlerbilder, an die sie sich gewöhnt haben, Performance-Eigenschaften, gegen die sie ihre Batch-Jobs feinjustiert haben. All dieses institutionelle Wissen ist auf ein konkretes Modell kalibriert. Eine Migration auf eine neuere Codex-Generation bedeutet, Teile davon neu zu validieren und unter Umständen Teile davon neu zu erarbeiten.

Die Frage ist, ob die neueren Generationen ausreichend besser sind, um diesen Aufwand zu rechtfertigen. Die ehrliche Antwort für die meisten Teams lautet: ja, irgendwann, aber nicht zwingend jetzt. Die Verbesserungen zwischen den Codex-Generationen waren real, aber inkrementell. Jeder Schritt hat etwas weniger Halluzinationen gebracht, etwas bessere Mehrdatei-Kohärenz, etwas präziseres Treffen von Sprachidiomen. Keiner dieser Punkte für sich ist der Art von Fähigkeitssprung, der eine Migration erzwingt; in Summe ergeben sie aber über die Zeit eine bedeutsame Lücke.

Für Teams, die heute GPT-5 Codex betreiben, ist die nützlichste Sichtweise: Ab wann übersteigen die kumulierten Bereinigungskosten des Verbleibs auf dem älteren Modell die einmaligen Migrationskosten auf ein neueres? Für hochvolumige Coding-Workflows zeigt sich dieses Muster meist innerhalb von ein bis zwei Generationen.

Was dieses Modell weiterhin gut kann

GPT-5 Codex bleibt kompetent in den Dingen, für die es gebaut wurde. Code-Generierung in einer einzelnen Datei in den gängigen Sprachen — Python, TypeScript, Go, Java — liefert funktionalen Code, der kompiliert und läuft. Code-Reviews und Bug-Findung an kurzen Snippets funktionieren ordentlich. Die Generierung von Tests für einzelne Funktionen ist brauchbar.

Für Batch-Coding-Workflows, bei denen die Anforderungen gut verstanden sind und die Qualitätsmesslatte gegen genau dieses Modell kalibriert wurde, ist die operative Stabilität eines Verbleibs ein echter Wert an sich.

Unter der Haube

GPT-5 Codex ist ein Transformer-Decoder, der das GPT-5-Backbone teilt und mit starkem Gewicht auf Quellcode trainiert wurde. Das Modell arbeitet text-in, text-out — keine Bilder, kein Audio. Die Tokenisierung verwendet das Standard-BPE-Vokabular von GPT-5.

Die Trainingsdaten sind in Richtung öffentlicher Repositories, Code-Review-Threads, Sprachstandards und OpenAPI-Korpora gewichtet, mit Stand des GPT-5-Trainings-Cutoffs Mitte 2025. Das Modell ist sicher im Umgang mit den gängigen Sprachstandards und Framework-Versionen, die bis zu diesem Zeitpunkt aktuell waren. Alles, was neuer ist, wird fabriziert.

Das Context-Window entspricht der breiteren GPT-5-Linie. Mehrdatei-Kohärenz bei komplexen Refactorings ist der Bereich, in dem die neueren Codex-Generationen die deutlichsten Verbesserungen bringen.

Wo es heute steht

Unter den aktuellen Code-Spezialisten-Modellen liegt GPT-5 Codex auf den meisten Benchmark-Dimensionen unterhalb der neueren Codex-Generationen. Das Intelligence-Leaderboard verfolgt die vergleichende Coding-Performance.

Das Modell liegt weiterhin vor älteren OpenAI-Code-Completion-Angeboten und ist bei Aufgaben in einzelnen Dateien wettbewerbsfähig mit selbst gehosteten Codern vergleichbarer Parametergröße. Wo es hinter den neueren Generationen zurückbleibt, sind Mehrdatei-Kohärenz, das Treffen von Idiomen für aktuelle Sprach-Features und die Halluzinationsrate bei Nischen-Bibliotheken.

Für Code-Generierungs-Workflows am Routine-Ende des Spektrums leistet das Modell weiterhin nützliche Arbeit. Für Repository-skalige oder qualitätskritische Workflows sind die neueren Generationen spürbar besser.

Wo die Grenzen sichtbar werden

Halluzinierte APIs sind häufiger als bei neueren Codex-Generationen. Das Modell ruft selbstsicher Methoden auf, die es nicht gibt, insbesondere bei Nischen-Bibliotheken und bei Releases nach dem Trainings-Cutoff.

Mehrdatei-Kohärenz bricht früher zusammen als bei neueren Codex-Varianten. Refactorings, die sich über mehr als eine Handvoll Dateien erstrecken, verlieren den roten Faden.

Das Wissen über jüngere Sprach-Features ist veraltet. Standard-Updates, Framework-Releases und Bibliotheks-APIs nach Mitte 2025 sind nicht in den Trainingsdaten.

Nicht-englische Kommentierung ist schwach — das gilt zwar für die gesamte Codex-Linie, ist hier aber ausgeprägter als in späteren Generationen.

Wann migrieren

Die klaren Auslöser:

Sie führen Mehrdatei-Refactorings durch und die Kohärenz-Obergrenze ist der Engpass. Die neueren Codex-Generationen verschaffen Ihnen mehr Spielraum.

Ihre Bereinigungskosten für Halluzinationen sind materiell und sichtbar in Engineering-Zeit. Die niedrigeren Raten in neueren Generationen sparen reale Arbeit.

Sie benötigen, dass das Modell jüngere Sprach-Features, Bibliotheks-Releases oder Framework-Muster kennt, die nach Mitte 2025 erschienen sind. Dieses Modell kennt sie nicht.

Sie befinden sich an einem natürlichen Umbaupunkt Ihrer Code-Pipeline, an dem die Migrationskosten ohnehin geringer sind als üblich — etwa beim Austausch von Tooling, beim Umbau von CI oder beim ohnehin geplanten Neuaufsetzen des Prompt-Engineerings.

Wann man bleiben sollte

Verzichten Sie auf die Migration, wenn das Modell Ihre Qualitätsmesslatte für die aktuelle Workload erfüllt und die operative Stabilität einen echten Wert hat.

Verzichten Sie darauf, wenn nachgelagertes Parsing und Tooling eng auf die Output-Muster dieses Modells kalibriert sind und das Re-Tuning teuer ist.

Verzichten Sie darauf, wenn Sie in einem regulierten Kontext arbeiten, in dem genau dieses gepinnte Modell Teil eines aktiven Audit-Zyklus ist und ein Modellwechsel eine Re-Zertifizierung erfordert.

Beobachten Sie die Deprecation-Ankündigungen. OpenAI wird ältere Codex-Slugs irgendwann abkündigen, und das ist der erzwingende Faktor für eine Migration, unabhängig von der eigenen Präferenz.

Operative Hinweise

Bei langlaufenden Codex-Deployments ist die Migration, wenn sie kommt, in der Regel weniger Arbeit als befürchtet. Die neueren Codex-Generationen sind für die meisten Prompt-Muster Output-kompatibel zu den älteren, und der Prompt-Engineering-Aufwand für die neue Generation ist häufig weniger umfangreich als der einer Migration aus einer anderen Modellfamilie wäre.

Das Zwei-Slug-Muster gilt weiterhin: Wenn Sie auf eine neuere Codex-Generation migrieren, pinnen Sie deren datierten Snapshot in der Produktion und lesen den fließenden Slug im Pre-Release-Bereich. Das Reproduzierbarkeits-Argument ist dasselbe, unabhängig davon, auf welcher Generation Sie sich befinden.

Alternativen

Für neue Codex-Deployments sollten Sie nicht hier starten. Beginnen Sie auf einer neueren Generation; der Abstand ist groß genug, dass die einmaligen Auswahlkosten der richtige Punkt sind, um die Entscheidung zu treffen.

Für Air-Gapped-Setups oder strikte Residenz-Anforderungen sind große Open-Weights-Coder, die auf lokalen GPUs laufen, die Antwort, die kein OpenAI-Endpunkt liefert.

Für Workloads, die mehr Leistungsfähigkeit benötigen, als irgendeine aktuelle Codex-Stufe liefert, verdienen die stärksten Coding-Varianten von Anthropic und Google ein direktes Duell auf Ihrer konkreten Codebasis.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

gpt-5-codex — illustration 2gpt-5-codex — illustration 3
Letzter automatisierter Test
31. Mai 2026 · 04:22 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026