Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
OpenAI

gpt-4o-2024-05-13

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-4o-2024-05-13 ist ein großes multimodales Sprachmodell, das von OpenAI entwickelt und im Mai 2024 veröffentlicht wurde. Dieses Modell stellt OpenAIs erste Iteration der GPT-4o-Serie dar, wobei die Bezeichnung "o" eine Optimierung für sowohl Text- als auch multimodale Eingaben kennzeichnet. Es ist für allgemeine Textgenerierungsaufgaben konzipiert, einschließlich Konversation, Content-Erstellung, Analyse, Programmierunterstützung und Reasoning über verschiedene Bereiche hinweg. Das Modell verarbeitet Texteingaben und generiert Textausgaben mit Fähigkeiten, die mehrere Sprachen und technische Fachgebiete umfassen. Diese Version dient als initiale Produktionsveröffentlichung der GPT-4o-Architektur und bietet standardmäßige Textgenerierungsfähigkeiten, die Performance mit Zugänglichkeit in Einklang bringen. Während spezifische Architekturdetails proprietär bleiben, baut das Modell auf der Grundlage auf, die durch frühere GPT-4-Varianten geschaffen wurde, und führt architektonische Verfeinerungen ein, die auf verbesserte Effizienz und Antwortqualität abzielen. Das Modell unterstützt erweiterte Konversationen und komplexe Anweisungen, was es für Anwendungen geeignet macht, die von einfachen Frage-Antwort-Aufgaben bis hin zu anspruchsvollen analytischen Tasks reichen. Innerhalb von OpenAIs Modell-Lineup nimmt GPT-4o-2024-05-13 eine zentrale Position als Flaggschiff-Modell für allgemeine Zwecke ein. Es steht neben anderen GPT-4-Varianten im Angebot von OpenAI und bietet eine Alternative zu früheren GPT-4-Versionen und der kompakteren GPT-3.5-Serie. Das Modell ist für Nutzer positioniert, die fortgeschrittene Sprachverständnis- und Generierungsfähigkeiten benötigen, ohne die spezialisierten Features von domänenspezifischen oder experimentellen Varianten. Dieser Snapshot repräsentiert den Stand des Modells zum Zeitpunkt seiner Veröffentlichung im Mai 2024.

Der erste GPT-4o-Snapshot vom Mai 2024: die Erstversion von OpenAIs Omni-Architektur in der Produktionsumgebung.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
99
Mehrsprachig
100
Schlussfolgern
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-4o-2024-05-13
$5.00 pro 1M Input-Tokens
$15.00 pro 1M Output-Tokens
≈ $0.0060 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$5.00
pro 1M Output-Tokens$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Historischer Mai-2024-SnapshotAllgemeine TextgenerierungMehrsprachige FähigkeitenInstruction-FollowingCode-Generierung und AnalyseOpenAI-API-Integration

Schwächen

Erste Iteration – neuere Versionen verbessertKontextgröße nicht dokumentiertReasoning unter neueren Versionen
Abschnitt 04

Fähigkeiten

toolssource: litellmvisionpdf inputparallel toolsprompt cachingmax output tokens: 4096
Abschnitt 05

Häufig gestellte Fragen

Er markiert diesen Snapshot als die initiale Produktionsversion der GPT-4o-Serie und ermöglicht gezielte Versionskontrolle.

Als Ausgangspunkt der GPT-4o-Linie dokumentiert dieser Snapshot den Stand multimodaler Textgeneration im Frühsommer 2024.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 06

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-596/100 · 75 runs
70 correct5 partial0 wrong93% accuracy
2026-06-14

Quality stable at 97.7 with new tools, vision, and caching capabilities

The gpt-4o-2024-05-13 model maintains its quality score at 97.7, demonstrating consistency across benchmark windows. This stability occurs alongside significant capability expansion, with the addition of tools, vision, PDF input, parallel tools, and prompt caching support. These enhancements position the model for more complex multimodal and workflow-oriented tasks without compromising its core performance metrics. The unchanged quality score suggests that OpenAI successfully integrated these new features while preserving the model's fundamental reasoning and generation capabilities. Users can now leverage vision-based tasks, process PDF documents directly, utilize function calling with parallel execution, and benefit from prompt caching for improved efficiency in repetitive operations. The model continues to deliver the same reliable performance baseline established in previous benchmarks while offering substantially broader functionality. Organizations already using this model can adopt these new capabilities with confidence that quality remains consistent. The combination of maintained performance and expanded feature set makes this a meaningful update for users requiring multimodal processing or advanced tool integration in their workflows.

Quality

Latency p50

Test runs

0

Quality maintained at 97.7 Vision and PDF support added Tool calling capabilities expanded Prompt caching now available
Abschnitt 08

Vollständiges Modellprofil

gpt-4o-2024-05-13 — illustration 1
gpt-4o-2024-05-13: die Launch-Momentaufnahme

gpt-4o-2024-05-13 ist das ursprüngliche GPT-4o-Release, eingefroren auf den Stand der ersten öffentlichen Verfügbarkeit des Modells am 13. Mai 2024. Es ist der datierte Pin für OpenAIs erstes multimodales Modell der ersten Generation — jenes, das einheitliches Text-Bild-Audio-Verhalten einführte und die Erwartungen des Feldes an die Oberfläche eines Frontier-Modells neu definierte.

Für die meisten Teams ist dieser Snapshot mittlerweile zu alt, um empfohlen zu werden. Für die enge Auswahl an Fällen, in denen Reproduzierbarkeit gegen das Launch-Modell wichtiger ist als jede nachfolgende Verbesserung, bleibt er verfügbar.

Warum genau dieses Datum zählt

Mit dem Launch am 13. Mai 2024 hörte Multimodalität auf, ein Forschungsdemo zu sein, und wurde zum Deployment-Ziel. Frühere GPT-4-Varianten hatten Vision-Unterstützung, aber die Audio-Oberfläche und die niedrigere Latenz bei Text waren der Beitrag von 4o. Teams, die Evaluierungen eingereicht oder Anbieterverträge gegen das Launch-Modell formuliert haben, wollen einen stabilen Referenzpunkt; dieser Snapshot ist dieser Referenzpunkt.

Zwei konkrete Gründe, sich um genau dieses Datum zu kümmern.

Erstens: Vergleichsarbeit. Forschungsteams, die über Modellfähigkeiten über Generationen hinweg schreiben, benötigen ein Modell, das sich nicht still unter ihren Experimenten verändert hat. Der Launch-Snapshot ist das Modell, das in den ursprünglichen OpenAI-Release-Notes und in den meisten Drittanbieter-Evaluierungsarbeiten aus der Mitte des Jahres 2024 bewertet wurde.

Zweitens: regulierte Deployments, die gegen das Launch-Modell genehmigt wurden. Einige Compliance-Regime verlangen, dass jedes Modell, das mit Produktionsdaten in Berührung kommt, einen bestimmten Evaluierungszyklus durchlaufen hat. Wenn Ihr Auditor das Release vom Mai 2024 genehmigt hat und die Migration auf einen neueren Snapshot noch nicht durch die Prüfung ist, ist dies das Modell, das Sie betreiben.

Was in diesem Snapshot ausgeliefert wird

Alles, was OpenAI am Launch-Tag ausgeliefert hat. Text- und Bildeingabe mit einem 128k-Token-Kontextfenster. Audio-Oberflächen über die zeitgleichen Endpunkte. JSON-Modus, aber nicht das spätere Feature der strukturierten Ausgaben — das kam mit dem Release vom 6. August 2024. Function Calling. Streaming. Die Chat-Completions-Oberfläche; die Responses-Oberfläche wurde später hinzugefügt und ist nicht Teil des Verhaltens dieses Snapshots.

Was in diesem Snapshot nicht enthalten ist, ist alles, was in den späteren 4o-Releases gelandet ist. Das Update vom 6. August fügte strikte strukturierte Ausgaben hinzu und straffte das JSON-Modus-Verhalten. Das Update vom 20. November brachte Verbesserungen bei Reasoning und Schreibqualität. Keines davon ist im Mai-Snapshot enthalten. Wenn Ihre nachgelagerte Pipeline von einem bestimmten Verhalten bei strukturierten Ausgaben abhängt, prüfen Sie, gegen welchen Snapshot sie gebaut wurde, bevor Sie annehmen, dass der Mai-Pin die richtige Wahl ist.

Sunset-Risiko

Dies ist der älteste 4o-Snapshot, der noch routinemäßig verfügbar ist, was bedeutet, dass er seinem Sunset-Datum am nächsten ist. OpenAIs typischer Deprecation-Horizont für datierte Snapshots reicht von zwölf bis achtzehn Monaten ab Release. Das Launch-Modell vom Mai 2024 hat das frühe Ende dieses Zeitfensters bereits überschritten.

Planen Sie die Migration aktiv. Beachten Sie, dass „der Snapshot antwortet heute noch" keine Garantie dafür ist, dass er morgen noch antworten wird. Setzen Sie eine Kalendererinnerung, führen Sie eine erneute Evaluierung gegen gpt-4o-2024-11-20 oder gegen den schwebenden gpt-4o-Tag durch, um den Verhaltens-Delta als Baseline festzulegen, und halten Sie die Migration bereit, bevor das Deprecation-Datum angekündigt wird, und nicht erst danach.

Teams, die auf die Deprecation-Mail warten, entdecken in der Regel, dass ihre Produktionspipeline von einem bestimmten Verhalten des Launch-Snapshots abhing, das die neueren Snapshots stillschweigend verändert haben. Die Migrationsarbeit ist teurer, wenn man sie unter Zeitdruck durchführt.

Was sich zwischen diesem und späteren Snapshots geändert hat

Die Verhaltens-Deltas, die es zu kennen lohnt, wenn Sie entscheiden, ob Sie beim Launch-Pin bleiben oder weiterziehen wollen.

Strukturierte Ausgaben. Der Mai-Snapshot unterstützt JSON-Modus, erzwingt Schemata aber nicht so strikt wie das August-Release. Nachgelagerte Parser, die sich auf Schema-Validierung stützen, können gegen diesen Snapshot häufiger fehlschlagen.

Verweigerungs-Kalibrierung. Das Launch-Modell ist bei bestimmten Verweigerungsmustern aggressiver als spätere Snapshots. Einige legitime Prompts werden hier abgelehnt, die im November sauber durchgehen.

Reasoning. Der November-Snapshot ist bei mehrstufigen Prompts sichtbar stärker. Für Workloads, die die Reasoning-Qualität testen, ist die Lücke substanziell.

Latenz. Verbesserungen am Inferenz-Stack im Verlauf des Jahres 2024 bedeuten, dass der schwebende Tag jetzt dieselbe Modellklasse mit geringerer Latenz bedient als der Launch-Snapshot. Wer auf dieses Datum pinnt, verzichtet auf diese Verbesserungen.

Pin-Muster

Das Muster, das sich gut bewährt hat:

  • Im Eval, in CI und in jedem compliance-auditierten Pfad pinnen.
  • Im Produktionsverkehr floaten.
  • Wöchentlich zwischen gepinnt und schwebend gegen einen festen Prompt-Set diffen, um Verhaltensdrift früh zu erkennen.

Speziell für den Launch-Snapshot vom Mai 2024 hinzuzufügen: einen dokumentierten Migrationsplan zu einem neueren 4o-Snapshot oder zur GPT-4.1-Familie haben, bevor das Deprecation-Datum eintrifft.

Für den breiteren 4o-Kontext siehe die schwebende GPT-4o-Seite. Für die neuere Familie, auf die die meisten neuen Builds abzielen sollten, siehe GPT-4.1.

Auswahl

Verwenden Sie gpt-4o-2024-05-13, wenn:

  • Sie ein spezifisches Ergebnis reproduzieren, das an das Launch-Modell gebunden ist.
  • Ein Compliance-Regime genau diesen Identifier genehmigt hat und eine erneute Genehmigung in Bearbeitung ist.
  • Ein Forschungs-Workflow das Referenzverhalten vom Mai 2024 erfordert.

Für alles andere wechseln Sie zu einem neueren Snapshot oder zum schwebenden Tag. Der Launch-Snapshot war ein Meilenstein; er ist nicht mehr die richtige Serving-Stufe.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

gpt-4o-2024-05-13 — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 05:02 UTC · Benchmark
P50-Latenz
1049 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026