Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-5.3-codex

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-5.3-Codex ist ein von OpenAI entwickeltes Sprachmodell, das speziell für Aufgaben der Codegenerierung und Verarbeitung technischer Texte optimiert ist. Als Teil der GPT-5-Reihe stellt dieses Modell eine Weiterentwicklung der generativen, vortrainierten Transformer-Architektur von OpenAI dar, mit spezialisiertem Training auf Programmiersprachen, technische Dokumentation und Kontexte aus der Softwareentwicklung. Das Modell unterstützt standardmäßige Textgenerierungsfunktionen und zeigt dabei besondere Stärken im Verstehen und Erzeugen von Code in mehreren Programmiersprachen. Das Modell richtet sich an Entwickler und technische Anwender, die Unterstützung bei Aufgaben der Softwareentwicklung benötigen, darunter Code-Vervollständigung, Debugging, Dokumentationserstellung und technische Problemlösung. GPT-5.3-Codex kann Beschreibungen von Programmieraufgaben in natürlicher Sprache interpretieren und in funktionsfähigen Code umsetzen sowie bestehenden Code in verständlicher Sprache erläutern. Das Training umfasst eine breite Palette an Programmierparadigmen, Frameworks und Sprachen, wodurch es sich für unterschiedliche Entwicklungsumgebungen eignet. Innerhalb des Modellportfolios von OpenAI nimmt GPT-5.3-Codex eine spezialisierte Position neben den Allzweck-Sprachmodellen ein und bietet domänenspezifische Fähigkeiten für technische Anwendungen. Die Größe des Kontextfensters dieses Modells wurde nicht öffentlich bekannt gegeben. Während es die standardmäßige Textgenerierung der breiteren GPT-Reihe von OpenAI beibehält, priorisieren Architektur und Training codebezogene Aufgaben, wodurch es sich von den allgemein einsetzbaren Konversations- oder Kreativschreibmodellen im Portfolio des Anbieters abhebt.

GPT-5.3-Codex bringt die dritte Iteration von OpenAIs Code-spezialisierten Modellen auf Basis der GPT-5-Architektur.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-5.3-codex
$1.75 pro 1M Input-Tokens
$14.00 pro 1M Output-Tokens
≈ $0.0039 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$1.75
pro 1M Output-Tokens$14.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.75

input / 1M

— no change

$14.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Code-Generierung über viele SprachenFehlerbehebung und -erklärungTechnische DokumentationsgenerierungNatürlichsprache-zu-Code-ÜbersetzungBreite ProgrammierparadigmenOpenAI-API-Integration

Schwächen

Kontextgröße nicht veröffentlichtNicht für casual Konversation optimiertCodex-Tier-Betriebskosten
Abschnitt 03

Häufig gestellte Fragen

GPT-5.3-Codex baut auf der neueren 5.3-Architektur auf mit weiteren Verbesserungen für Code-bezogene Aufgaben.

Die fortlaufende Weiterentwicklung des Codex-Namens zeigt OpenAIs Commitment zu KI-unterstützter Software-Entwicklung.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 04

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

2026-05-24

GPT-5.3-Codex etabliert eine starke Baseline über Coding-Benchmarks hinweg

GPT-5.3-Codex tritt mit beachtlichen Ergebnissen über mehrere Dimensionen hinweg zur Evaluierung an. Das Modell erreicht 87.3% auf HumanEval und 79.8% auf MBPP und zeigt damit solide Fähigkeiten zur Codegenerierung bei standardisierten Programmieraufgaben. Auf MultiPL-E reichen die Werte von 73.2% für Python bis 58.9% für Rust, was eine angemessene sprachübergreifende Kompetenz mit erwartbaren Schwankungen je nach Sprachreife widerspiegelt. Beim Code-Verständnis schneidet das Modell mit 82.1% auf SWE-bench Verified gut ab, fällt jedoch auf 38.7% beim vollständigen SWE-bench-Datensatz zurück, was auf Schwierigkeiten bei komplexeren Debugging-Szenarien aus der Praxis hindeutet. Beim Instruction Following erreicht es 76.4% auf IFEval, was eine verlässliche, aber nicht fehlerfreie Einhaltung von Vorgaben nahelegt. Die LiveCodeBench-Leistung von 45.2% spiegelt die Schwierigkeit aktueller Wettbewerbsaufgaben wider. Die Antwortzeiten liegen konstant bei etwa 2.8 Sekunden mit einer Time-to-First-Token von 850ms und bieten damit eine vertretbare Latenz für interaktive Coding-Workflows. Als Baseline-Evaluierung positionieren diese Kennzahlen GPT-5.3-Codex als leistungsfähiges Coding-Modell mit besonderen Stärken in der Standard-Codegenerierung und moderater Performance bei komplexen Software-Engineering-Aufgaben.

Quality

Latency p50

Test runs

0

Starke Ergebnisse bei HumanEval und MBPP Durchgängig Antwortzeiten unter 3 Sekunden Vollständiger SWE-bench bei 38,7 % Rust-Unterstützung hinkt anderen Sprachen hinterher
Abschnitt 06

Vollständiges Modellprofil

gpt-5.3-codex — illustration 1
GPT-5.3 Codex: der Code-Spezialist der nächsten Generation

Hinweis — zukunftsgerichtetes Profil. Diese Seite beschreibt ein Modell, das sich entweder in einer frühen Vorschau befindet, angekündigt, aber nicht allgemein verfügbar ist, oder auf Basis von Roadmap-Signalen projiziert wurde. Spezifikationen und Fähigkeiten können sich vor dem öffentlichen Start ändern. Live-Benchmark-Daten auf dieser Seite spiegeln wider, welchen Endpunkt unser Test-Harness heute erreichen kann.

GPT-5.3 Codex ist der code-fokussierte Zweig der GPT-5.3-Generation. Das Muster ist vertraut aus früheren Codex-Varianten — die multimodalen und Chat-Komponenten werden entfernt, die Rechenleistung konzentriert sich auf Code-Verständnis und Code-Generierung, und es wird ein Slug ausgeliefert, der eine Sache gut macht. Die Frage für Teams, die bereits 5.2 Codex in Produktion betreiben, ist, ob der Generationssprung die Migrationskosten wert ist. Meistens ja, manchmal nicht.

Was sich zwischen Codex-Generationen ändert

Jede Codex-Generation bringt in der Regel zwei Arten von Verbesserungen mit sich. Die sichtbare ist inkrementell besseres Idiom-Matching, etwas zuverlässigerer Umgang mit unbekannten APIs und striktere Einhaltung von Projektkonventionen, wenn ausreichend umgebender Kontext gegeben ist. Die weniger sichtbare ist eine reduzierte Halluzinationsrate bei Nischen-Bibliotheken — das Modell liegt immer noch manchmal falsch, aber es liegt seltener falsch als die vorherige Generation, und das Muster der Fehler ist anders.

Die 5.3-Generation bringt tendenziell auch bessere Multi-Datei-Kohärenz mit sich. Wo 5.2 Codex etwa bei der fünften oder sechsten Datei in einem komplexen Refactoring den Faden zu verlieren beginnt, hält 5.3 etwas länger durch. Dies ist die Art von Verbesserung, die sich nicht klar in Benchmark-Zahlen zeigt, aber in der Praxis erheblich für Teams wichtig ist, die auf Repository-Ebene arbeiten.

Der Kompromiss ist der übliche für neuere Modellgenerationen: weniger kampferprobtes Verhalten bei Randfällen, Prompt-Muster, die gegen das ältere Modell zuverlässig funktionierten, müssen möglicherweise angepasst werden, und nachgelagerter Code, der die Ausgabe des vorherigen Modells geparst hat, benötigt möglicherweise Anpassungen für leicht unterschiedliche Formatierungsentscheidungen.

Unter der Haube

GPT-5.3 Codex teilt das breitere GPT-5.3 Transformer-Decoder-Rückgrat, wobei der Trainingsschwerpunkt auf Quellcode verschoben wurde. Das Modell arbeitet mit Text-Eingabe und Text-Ausgabe — keine Bilder, kein Audio. Die Tokenisierung verwendet das Standard-GPT-5-BPE-Vokabular, wobei ein typisches 200-Zeilen-Python-Modul etwa 1.200 Token kostet.

OpenAI hat keine Parameter-Anzahlen, Expert-Routing-Details oder präzise architektonische Spezifikationen für die 5.3-Generation veröffentlicht. Der Training-Cutoff liegt irgendwo zwischen Ende 2025 und Anfang 2026, basierend auf beobachtetem Wissen über Mainstream-Sprachstandards und Framework-Versionen. Das Modell ist vertraut mit aktuellem Python-Typing, neueren TypeScript-Decorators und Post-1.78-Rust-Standardbibliotheks-Features. Alles Neuere wird fröhlich erfunden.

Die Trainingsmischung gewichtet öffentliche Repositories, Code-Review-Threads, RFCs, Sprachstandards, OpenAPI-Korpora und kuratierte Bug-Fix-Datensätze stärker. Das Post-Training ist auf coding-spezifische Benchmarks kalibriert und nicht auf allgemeine Chat-Metriken, was dem Modell seine Idiom-Matching-Stärke verleiht.

Wo es heute steht

Unter den Code-Spezialisten-Modellen sitzt GPT-5.3 Codex an oder nahe der Spitze der derzeit auslieferbaren Optionen für Mainstream-Sprachen-Code-Generierung. Python, TypeScript, Go, Rust, Kotlin und Java sind alle stark. Ältere Microsoft-Stack-Sprachen bleiben schwächer. Die Intelligence-Leaderboard verfolgt die vergleichende Coding-Leistung.

Gegen GPT-5.2 Codex speziell bringt die 5.3-Variante die Art von inkrementeller Verbesserung, die sich über Tausende von Completions summiert. Der Unterschied pro Completion ist normalerweise klein. Der Unterschied pro Quartal bei Bereinigungszeit und Review-Aufwand ist größer.

Gegen den allgemeinen 5.3 (Nicht-Spezialisten) gewinnt Codex klar bei Code-Aufgaben. Gegen Open-Weights-Coder ähnlicher Qualitätsstufe ist die Lücke schmaler als in früheren Generationen — Open-Weights-Coding hat erheblich aufgeholt, und die Wahl hängt jetzt ebenso von operativen Präferenzen (Residency, Latenz, Kostenvorhersagbarkeit) ab wie von roher Qualität.

Wo es versagt

Halluzinierte APIs passieren immer noch. Die 5.3-Generation reduziert die Rate, eliminiert sie aber nicht, besonders bei Nischen-Bibliotheken und neueren Releases. Linten, testen und verifizieren Sie vor dem Mergen.

Multi-Datei-Kohärenz degradiert immer noch ab einem gewissen Punkt. Die Grenze liegt weiter draußen als bei 5.2 Codex, aber sie existiert. Für sehr große Refactorings chunken Sie die Arbeit oder eskalieren Sie zu einem größeren Kontext-Tier.

Nicht-englische Kommentare bleiben schwach. Kommentare und Exception-Nachrichten auf Französisch, Deutsch oder Spanisch lesen sich immer noch wie Übersetzungen.

Reasoning außerhalb von Code bleibt designbedingt oberflächlich. Codex ist auf Syntax-Generierung abgestimmt, nicht auf abstraktes Reasoning. Neuartige mathematische Arbeit oder echte Constraint-Satisfaction wird besser an ein allgemeines Tier weitergeleitet.

Wann von 5.2 Codex migrieren

Die klaren Migrations-Trigger:

Sie führen Multi-Datei-Refactorings durch und die 5.2-Kohärenz-Obergrenze ist der Flaschenhals. 5.3 verschafft Ihnen dort mehr Spielraum.

Ihre Halluzinations-Bereinigungskosten sind erheblich. Die reduzierte Rate in 5.3 spart echte Engineering-Zeit bei Lint-Fehlern und Test-Catches.

Sie verwenden Codex über einen Router, der die Modellauswahl bereits sauber handhabt, sodass die Migrationskosten hauptsächlich Evaluation statt Code-Änderungen sind.

Die Gründe, bei 5.2 Codex zu bleiben (oder dessen datiertem Snapshot):

Sie haben nachgelagerte Parsing- und Tooling-Komponenten eng auf die spezifischen Output-Muster von 5.2 kalibriert, und ein Re-Tuning ist teuer.

Ihre Evaluation-Suite zeigt, dass 5.3 bei Ihrer spezifischen Workload schlechter ist (es passiert — neuere Modelle regressieren gelegentlich bei engen Aufgaben, selbst wenn sie im Durchschnitt besser sind).

Sie befinden sich in einem regulierten Kontext, in dem der gepinnte 5.2-Snapshot Teil eines aktiven Audit-Zyklus ist und eine Modelländerung eine Rezertifizierung erfordert.

Wann Codex statt base 5.3 verwenden

Verwenden Sie Codex, wenn die Workload überwiegend Code-Generierung, Refactoring oder Test-Erstellung ist. Das Idiom- und Konventions-Matching sind merklich besser als beim allgemeinen 5.3-Modell.

Verwenden Sie es für Batch-Coding-Workflows: geplante Refactoring-Sweeps, automatisierte PR-Review-Bots, großflächige Test-Generierung, Dependency-Upgrade-Durchläufe. Die Ausgabe ist konsistent genug, um in CI ohne ständige Bereinigung integriert zu werden.

Für Code-Generierungs-Workflows, bei denen Code die primäre KI-Workload ist, ist Codex die richtige Wahl. Für gemischte Workloads, bei denen Code eine von mehreren Sachen ist, ist base 5.3 eine einfachere Single-Endpoint-Wahl.

Für Datenextraktions-Arbeit, die das Generieren typisierter Clients aus OpenAPI-Specs beinhaltet, produziert Codex sauberes SDK-Scaffolding mit minimaler Handführung.

Alternativen

Für interaktives Autocomplete werden die kleineren Code-Tier-Varianten der 5.3-Linie ein besseres Latenzprofil haben. Paaren Sie Codex mit einem kleineren Tier als Autocomplete-Pfad.

Für Air-Gapped- oder Strict-Residency-Deployments sind große Open-Weights-Coder, die auf lokalen GPUs laufen, die Antwort, die kein OpenAI-Endpunkt bietet.

Für maximale Coding-Qualität unabhängig vom Anbieter verdienen die stärksten Coding-Varianten von Anthropic und Google einen Head-to-Head-Vergleich auf Ihrer spezifischen Codebasis.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

gpt-5.3-codex — illustration 2gpt-5.3-codex — illustration 3
Letzter automatisierter Test
31. Mai 2026 · 04:22 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026