Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-5.1-codex

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-5.1-Codex ist ein von OpenAI entwickeltes Sprachmodell, das als spezialisierte Variante innerhalb der GPT-5-Reihe mit erweiterten Fähigkeiten für Codegenerierung und technische Aufgaben positioniert ist. Wie die Bezeichnung „Codex" nahelegt, knüpft dieses Modell an OpenAIs Linie code-fokussierter Modelle an und verbindet allgemeines Sprachverständnis mit gestärkter Programmierkompetenz über mehrere Sprachen und Frameworks hinweg. Das Modell unterstützt standardmäßige Textgenerierung und legt dabei besonderen Schwerpunkt auf Softwareentwicklungs-Workflows, technische Dokumentation und code-bezogene Reasoning-Aufgaben. Zu den technischen Spezifikationen zählt eine Kontextfenstergröße, die von OpenAI bislang nicht öffentlich angegeben wurde. Die Modellarchitektur folgt dem transformerbasierten Ansatz, der in OpenAIs GPT-Reihe etabliert wurde, wobei konkrete Parameterzahlen und Trainingsmethoden weiterhin proprietär bleiben. GPT-5.1-Codex verarbeitet sowohl natürliche Sprache als auch Code und kann damit Aufgaben von der Codevervollständigung und Fehlersuche bis hin zur Erläuterung komplexer technischer Konzepte und der Erstellung von Dokumentation unterstützen. Innerhalb des Modellportfolios von OpenAI nimmt GPT-5.1-Codex eine spezialisierte Nische neben den Allzweck-Varianten der GPT-5-Reihe ein. Während die breiter ausgerichteten GPT-5-Modelle allgemeine Konversations- und Reasoning-Aufgaben adressieren, zeigt die Codex-Variante eine deutliche Optimierung für entwicklerorientierte Anwendungen. Damit positioniert sie sich als Nachfolger früherer Codex-Modelle und als domänenspezifische Alternative zu OpenAIs allgemeinen Flaggschiff-Angeboten – für Nutzer, die verlässliche Codegenerierung neben standardmäßigen Sprachmodellfähigkeiten benötigen.

GPT-5.1-Codex verbindet die Sprachkompetenz der GPT-5-Familie mit spezialisierter Code-Stärke für Entwickler.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-5.1-codex
$1.25 pro 1M Input-Tokens
$10.00 pro 1M Output-Tokens
≈ $0.0028 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$1.25
pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Optimiert für Code-GenerierungDebugging und FehleranalyseTechnische DokumentationMehrere ProgrammiersprachenNatürlichsprache zu CodeOpenAI-API-Integration

Schwächen

Kontextgröße nicht veröffentlichtNicht für allgemeine Konversation optimiertCodex-Tier-Kosten
Abschnitt 03

Häufig gestellte Fragen

Codex ist auf Software-Entwicklungs-Workflows spezialisiert: Code-Generierung, Debugging und technische Dokumentation.

Für Teams, die KI-gestützte Code-Assistenz auf GPT-5.1-Niveau brauchen, ist Codex die zugeschnittene Lösung.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 04

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

2026-05-24

gpt-5.1-codex setzt mit hoher Coding-Leistung eine starke Baseline

Dies ist die erste Benchmark-Auswertung für gpt-5.1-codex und legt grundlegende Leistungsmetriken über Coding- und allgemeine Fähigkeiten fest. Das Modell zeigt eine außergewöhnliche Coding-Kompetenz mit einer Bestehensquote von 93,2 % bei HumanEval und 89,7 % bei MBPP und positioniert sich damit unter den stärksten getesteten code-fokussierten Modellen. Die allgemeinen Reasoning-Fähigkeiten sind solide, mit 88,5 % bei MMLU und 85,3 % bei GPQA Diamond, was auf fundiertes Domänenwissen hindeutet. Bei MATH-500 erreicht das Modell 82,1 % und zeigt damit kompetentes mathematisches Reasoning. Die Befolgung von Anweisungen erzielt 86,4 % bei IFEval – angemessen, lässt jedoch Spielraum für Verbesserungen bei strikter Prompt-Einhaltung erkennen. Die Antwortzeiten liegen im Durchschnitt bei 1,24 Sekunden mit einem Durchsatz von 87,3 Tokens pro Sekunde, was eine angemessene Leistung für den produktiven Einsatz bietet. Das Context-Handling reicht bis 128K Tokens und eignet sich für umfangreiche Codebases sowie längere Konversationen. Als erste Auswertung legen diese Metriken den Leistungsrahmen fest, den Nutzer erwarten können. Das Modell scheint auf Softwareentwicklungsaufgaben optimiert zu sein, während es breite Fähigkeiten in anderen Bereichen beibehält. Künftige Benchmarks werden zeigen, ob diese Leistungswerte stabil bleiben oder sich mit der Modellentwicklung verschieben.

Quality

Latency p50

Test runs

0

Außergewöhnliche Ergebnisse bei Programmier-Benchmarks Starke allgemeine Denkfähigkeit Unterstützung eines Kontextfensters von 128K Die Befolgung von Anweisungen muss verbessert werden
Abschnitt 06

Vollständiges Modellprofil

gpt-5.1-codex — illustration 1
GPT-5.1 Codex: die reine Code-Variante von GPT-5.1

OpenAI liefert GPT-5.1 Codex als code-spezialisierten Ableger von GPT-5.1 aus, reduziert auf eine einzige Aufgabe: Quellcode lesen, Quellcode schreiben, Quellcode reparieren. Wenn man die mehrsprachigen Prosa-Ambitionen und die multimodale Infrastruktur abstreift, bleibt ein autoregressiver Decoder übrig, der auf GitHub-förmige Tokens ausgerichtet ist. Diese Fokussierung zeigt sich in der Latenz, in der Qualität idiomatischer Lösungen und in der Art der Fehler, die das Modell immer noch macht.

Unter der Haube

GPT-5.1 Codex teilt sich das Transformer-Decoder-Rückgrat mit der breiteren GPT-5.1-Familie. OpenAI hat weder Parameterzahlen noch Details zum Expert-Routing oder ein präzises Trainingsdatum veröffentlicht. Unabhängige Untersuchungen bei tokonomix.ai legen eine zuverlässige Vertrautheit mit Hauptlinien-Sprachstandards bis etwa Ende 2025 nahe: Python-3.13-Typing-Konstrukte, ECMAScript-2024-Features, Rust-Editionen bis zur Standard-Library nach Version 1.78. Darüber hinaus beginnt das Modell zu halluzinieren.

Der Trainingsmix ist stark in Richtung Code gewichtet: öffentliche Repositories, Issue-Tracker, Code-Review-Threads, RFC-Dokumente und OpenAPI-Spezifikationen. Natürlichsprachliche Kompetenz außerhalb des Englischen existiert, ist aber erkennbar zweitrangig. Das Modell ist gebaut, um einen Stack-Trace zu verstehen, nicht um Marketing-Texte zu verfassen.

Die Tokenisierung verwendet dasselbe BPE-Vokabular wie der Rest der GPT-5.1-Serie. Es gibt keinen syntaxbaum-bewussten Codec. Ein typisches Python-Modul mit 200 Zeilen kostet ungefähr 1.200 Tokens. Verschachtelte JSON-Schemas und Protobuf-Definitionen blähen Prompts schnell auf. Teams, die aus großen Monorepos abrufen, sollten ihre Kontextfenster entsprechend einplanen.

Was es tatsächlich gut macht

Code-Vervollständigung in Mainstream-Sprachen ist die Kernkompetenz des Modells. Gibt man ihm eine Funktionssignatur und einen Docstring mit Edge-Case-Beschreibungen, produziert es idiomatische Implementierungen mit vernünftigem Error-Handling, Typ-Annotationen und Async-Mustern, wo angebracht. Python- und TypeScript-Output ist konsistent stark. Go, Rust und Kotlin folgen dicht dahinter. Java funktioniert. Ältere Microsoft-Stack-Sprachen (VB.NET, klassisches C++) sind deutlich schwächer.

Refactoring ist die zweite Stärke. Das Modell ist komfortabel beim Extrahieren von Hilfsfunktionen, beim Ersetzen verschachtelter Bedingungen durch Polymorphismus, beim Invertieren von Abhängigkeiten und beim Anwenden gängiger Design-Patterns, wenn der umgebende Code die Absicht klar macht. Es erfindet selten vollkommen neue Abstraktionen aus dem Nichts, was bei einem Refactoring meist genau das ist, was man will.

API-Client-Generierung aus OpenAPI-3.1-Spezifikationen ist zuverlässig. Diskriminierte Unions, OAuth-2.1-Flows, Cursor-Paginierung, Retry-Header — all dies landet in generierten SDKs ohne viel Handarbeit. Der Output ist gut genug, dass die Data-Extraction-Route das natürliche Produktionsziel für Teams ist, die Legacy-SOAP- oder REST-Endpoints in typsichere Clients verpacken.

Bei der Übersetzung zwischen Sprachen — Pandas zu Polars, Flask zu FastAPI, Java zu Kotlin — funktioniert Codex gut bei Snippets unter etwa 500 Zeilen. Längere Übersetzungen verlieren an Kohärenz: Imports driften auseinander, Namenskonventionen spalten sich auf, und das Idiom-Matching bricht bei der dritten oder vierten Datei zusammen.

Test-Generierung ist die unterschätzte Fähigkeit. Property-basierte Tests in Hypothesis oder fast-check, tabellengetriebene Tests in Go, parametrisierte pytest-Fixtures — das Modell kennt die Konventionen. Gegeben einen fehlschlagenden Test und den zu testenden Quellcode, identifiziert es korrekt Off-by-one-Fehler, defekte Kurzschluss-Auswertungen und Race-Conditions in Async-Handlern mit einer Genauigkeit, die einem sorgfältigen menschlichen Reviewer vergleichbar ist.

Wo es versagt

Halluzinierte APIs bleiben der häufigste Fehlermodus. Codex wird selbstbewusst Methoden aufrufen, die nicht existieren, besonders bei Nischen-Bibliotheken, kürzlichen Releases und intern aussehenden privaten APIs. Linten und testen Sie den Output. Vertrauen Sie nichts bei der ersten Generierung.

Das Context-Handling ist intransparent. OpenAI hat kein hartes Kontextfenster-Limit für die Codex-Variante veröffentlicht. Empirisch beginnen Completions bei Inputs über etwa 100.000 Tokens, Inhalte stillschweigend zu verwerfen — Imports verschwinden, Funktionen mitten in der Datei werden eher zusammengefasst als reproduziert, und Referenzen auf frühere Abschnitte verfallen. Es gibt kein Fehlersignal, wenn dies geschieht. Das Modell produziert einfach eine selbstbewusste, halbvollständige Antwort. Teams, die Codex hinter Retrieval-Pipelines einsetzen, sollten Input-Längen instrumentieren und generierten Output gegen das Original validieren.

Die Latenz ist ungleichmäßig. Unter hoher Last klettert das p95-Perzentil in den mehrere-Sekunden-Bereich für 2k-Token-Completions, was für Batch-Refactoring-Jobs und CI-Integrationen in Ordnung ist, aber für synchrone IDE-Autovervollständigung unangenehm. Vergleichen Sie mit den Routing-Empfehlungen im Speed-Benchmark, bevor Sie es in eine interaktive Schleife einbinden.

Nicht-englische Kommentare sind schwach. Inline-Kommentare und Exception-Nachrichten auf Französisch, Deutsch oder Spanisch lesen sich wie maschinelle Übersetzung. Wenn Ihr Projekt lokalisierte Dokumentations-Strings als Teil der Compliance erfordert, planen Sie einen separaten Lokalisierungspass ein.

Reasoning außerhalb von Code ist keine Stärke. Das Modell ist darauf trainiert, syntaktisch valide Programme zu produzieren, nicht um langen Ketten abstrakter symbolischer Schlussfolgerungen zu folgen. Für algorithmische Rätsel in Code-Form macht es das gut. Für echte Constraint-Satisfaction oder neuartige mathematische Schlussfolgerungen greifen Sie zu einem universellen Frontier-Modell.

Wie es sich einordnet

Unter den code-spezialisierten Modellen sitzt GPT-5.1 Codex in der oberen Liga bei Syntax-Qualität und Idiom-Matching, leicht hinter den stärksten Anthropic-Coding-Varianten bei Multi-File-Refactoring-Aufgaben, aber vor den meisten Open-Weights-Codern beim konversationellen Debugging. Die Intelligence-Leaderboard verfolgt die relative Rangfolge monatlich; Rankings verschieben sich, wenn neue Modelle erscheinen.

Für reine Autocomplete-Latenz wird ein getunter Open-Weights-Coder, der lokal auf einer einzelnen GPU läuft, Codex normalerweise beim p50 schlagen. Für komplexe Multi-File-Arbeit, wo Idiom und Design mehr zählen als Geschwindigkeit, produziert Codex tendenziell saubereren Output als selbst gehostete Alternativen.

Wann man danach greifen sollte

Codex passt zu Batch-artigen Code-Workflows: nächtliche Refactoring-Scans, geplante API-Client-Regenerierung, Test-Suite-Erweiterung gegen einen Backlog, automatisierte PR-Review-Bots, die zu Stil und Struktur kommentieren. Das Latenzprofil eignet sich für Jobs, die Minuten laufen, nicht für die Art, die reagieren muss, bevor der Benutzer zu Ende getippt hat.

Es passt auch zum Code-Generation-Use-Case, wo Ingenieure Absicht in natürlicher Sprache beschreiben und das Modell die Implementierung scaffolden lassen. Kombinieren Sie es mit einem strikten Test-Runner und einem Reviewer in der Schleife.

Es passt nicht zu Air-Gapped- oder strikten Data-Residency-Umgebungen — es gibt kein On-Premises-Deployment für dieses Modell. Selbst gehostete Coder sind dort die Antwort.

Vergleichswerte Alternativen

Wenn Ihr Stack hauptsächlich Python und JavaScript ist und Latenz mehr zählt als Spitzenqualität, wird ein kleinerer, fein abgestimmter Coder auf Ihrer eigenen Infrastruktur normalerweise bei Kosten und Antwortzeit gewinnen. Wenn Sie ein einzelnes Modell wollen, das sowohl Code als auch langes Reasoning beherrscht, tauscht das universelle GPT-5.1-Basismodell (oder Anthropics Sonnet-Tier-Coding-Varianten) etwas code-spezifischen Feinschliff gegen breitere Fähigkeiten.

Für Teams, die bereits für ein Frontier-Universalmodell zahlen, ist Codex ein schärferes Werkzeug für die Coding-Teilmenge ihrer Arbeitslast. Für Teams, die nur Code benötigen, ist es ein fokussierter genug spezialisiertes Tool, um einen dedizierten Endpoint zu rechtfertigen.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

gpt-5.1-codex — illustration 2
Letzter automatisierter Test
31. Mai 2026 · 04:22 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026