Für welche Anwendungen ist er gedacht?

Voice-Assistenten, latenzempfindliche Live-Systeme und interaktive Konversationsanwendungen.

Wie stabil ist dieser Preview-Snapshot?

Als experimentelle Preview kann das Verhalten von späteren Produktionsversionen abweichen.

Wie erhalte ich Zugang?

Über OpenAIs Realtime-API-Infrastruktur für Entwickler.

Tier C — Spezialist

Läuft in:USErstellt in:United States

Archiviert

Dieses Modell wurde vom Anbieter eingestellt. Historische Daten bleiben erhalten.

Seit 24. Mai 2026 nicht mehr verfügbar.

OpenAI

gpt-4o-realtime-preview-2024-12-17

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-4o Realtime Preview (2024-12-17) ist ein multimodales KI-Modell von OpenAI, das für Echtzeit-Konversationsanwendungen mit latenzarmer Text- und Audioverarbeitung konzipiert ist. Diese Preview-Version gehört zur GPT-4o-Familie von OpenAI, die auf optimierte Leistung für interaktive Anwendungsfälle mit hohen Reaktionsanforderungen ausgerichtet ist. Das Modell bewältigt standardmäßige Textgenerierungsaufgaben und ist dabei so aufgebaut, dass Verzögerungen bei Verarbeitung und Antwortauslieferung minimiert werden – besonders geeignet für Anwendungen wie Sprachassistenten, Live-Kundensupport und interaktive Konversationsagenten. Das Modell integriert die neuesten architektonischen Verbesserungen von OpenAI zur gleichzeitigen Verarbeitung von Text- und Audioeingaben sowie -ausgaben, wobei die genaue Größe des Kontextfensters nicht öffentlich bekanntgegeben wurde. Es behält die für die GPT-4-Reihe typischen universellen Sprachverständnis- und Generierungsfähigkeiten bei, darunter logisches Denken, kreatives Schreiben, Codegenerierung und Analyseaufgaben. Die Bezeichnung „Realtime Preview" weist darauf hin, dass es sich um eine experimentelle Veröffentlichung handelt, die für Entwicklertests und Feedback gedacht ist, und nicht um eine finale Produktionsversion. Innerhalb des Modellportfolios von OpenAI positioniert sich GPT-4o Realtime Preview neben anderen GPT-4o-Varianten als spezialisierte Option für latenzkritische Anwendungen. Es ergänzt die Standard-GPT-4o-Modelle, indem es Interaktionsgeschwindigkeit über maximale Kontextlänge oder Durchsatz stellt, und steht für OpenAIs fortgesetzte Expansion in Echtzeit-KI-Anwendungen. Als Preview-Release sollten Entwickler mit möglichen Aktualisierungen und Anpassungen auf Basis von Nutzungsmustern und Leistungsbeobachtungen rechnen.

GPT-4o Realtime Preview (Dezember 2024): multimodales Echtzeit-Modell für Voice und Text in einem Entwickler-Snapshot.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — gpt-4o-realtime-preview-2024-12-17

$5.00 pro 1M Input-Tokens

$20.00 pro 1M Output-Tokens

≈ $0.0070 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$5.00

pro 1M Output-Tokens$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Text- und Audio-Echtzeit-VerarbeitungMinimale InteraktionslatenzNatürlicher KonversationsflussMehrsprachige SprachinteraktionOpenAI Realtime APIGPT-4o-Architektur als Basis

Schwächen

Preview – experimenteller StatusKontextgröße nicht dokumentiertVerhalten kann sich noch ändern

Abschnitt 03

Häufig gestellte Fragen

Er bündelt simultane Text- und Audio-Fähigkeiten für Echtzeit-Konversation in einer frühen, für Entwickler zugänglichen Version.

Der Dezember-2024-Snapshot dokumentiert den frühen Stand von OpenAIs Echtzeit-Audio-KI für Entwickler.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 04

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

● 2026-05-24

Baseline für GPT-4o Realtime Preview Audio-First-Modell etabliert

Dies markiert den ersten Benchmark für GPT-4o Realtime Preview, OpenAIs audio-natives Modell für latenzarme Sprachinteraktionen. Das Modell zeigt starke Leistung bei Standard-Benchmarks und erreicht 86.3% auf MMLU sowie 88.0% auf GPQA, was es in die obere Liga zeitgenössischer Sprachmodelle einordnet. Im mathematischen Schlussfolgern erzielt es 76.6% auf GSM8K und 51.1% auf MATH – solide, aber bei komplexen quantitativen Aufgaben nicht herausragend. Beim Coding zeigt das Modell mit 83.2% auf HumanEval starke Fähigkeiten und behält mit 85.8% auf MGSM eine wettbewerbsfähige mehrsprachige Leistung bei. Die Vision-Fähigkeiten sind mit 69.1% auf MMMU robust, liegen jedoch im Vergleich zu führenden multimodalen Modellen am unteren Ende. Das Modell weist mit 82.0% auf DROP und 78.5% auf GPQA Diamond ausgewogenes Reasoning auf. Als Audio-First-Modell, das für Echtzeitinteraktion optimiert ist, bilden diese Benchmarks eine Basis, um die Entwicklung in künftigen Iterationen zu verfolgen. Nutzer sollten beachten, dass es sich um eine Preview-Version handelt, was auf laufende Entwicklung und potenzielle Verbesserungen in nachfolgenden Releases hindeutet.

Quality

—

Latency p50

—

Test runs

✓ Starke MMLU-Leistung mit 86,3 %✓ Robuste Programmierfähigkeiten bei HumanEval✓ Wettbewerbsfähige mehrsprachige Reasoning-Ergebnisse✗ Moderate Ergebnisse beim MATH-Benchmark

Abschnitt 06

Vollständiges Modellprofil

gpt-4o-realtime-preview-2024-12-17: der Dezember-Pin für Full-Realtime

gpt-4o-realtime-preview-2024-12-17 ist der datierte Snapshot vom Dezember 2024 von OpenAIs Streaming-Voice-Modell der Full-Tier-Klasse. Es handelt sich um das Einfrieren des rollierenden Alias gpt-4o-realtime-preview in dem Zustand, in dem es sich in diesem Monat befand — fixiert für produktive Voice-Deployments, die gezielt gegen ein bestimmtes Verhalten pinnen.

Für Live-Voice-Agenten auf Full-Tier-Niveau ist der Snapshot-Pin genau das, was den Gesprächsfluss, das Interruption-Handling und den Reasoning-Stil vorhersagbar hält, während OpenAI an der Preview-Linie weiter iteriert.

Was dieser Snapshot repräsentiert

Bis Dezember 2024 hatte die Full-Realtime-Preview Folgendes erreicht:

Das WebSocket-Event-Protokoll war stabilisiert und wurde von späteren Snapshots übernommen.
Das kleine, feste Set an voreingestellten Output-Voices war gesperrt, geteilt mit dem Rest der Audio-Modellfamilie.
Die störenderen Turn-Detection-Regressionen aus den ersten Preview-Drops waren behoben.

Was er, verglichen mit späteren Snapshots aus 2025, nicht besitzt:

Das verbesserte Interruption-Handling, das Mitte 2025 ausgeliefert wurde und es dem Modell erlaubt, sich eleganter von Unterbrechungen durch den Nutzer zu erholen.
Die Latenzverbesserungen aus Backend-Infrastrukturänderungen im Verlauf des zweiten Quartals 2025.
Die verfeinerte Back-Channel-Erkennung, die den konversationellen Fluss glättete.

Live-Voice-Agenten, die Ende 2024 oder Anfang 2025 validiert wurden, sind höchstwahrscheinlich gegen diesen Snapshot geprüft worden.

Warum Pinning beim Full-Tier-Realtime wichtiger ist als bei Mini-Realtime

Das Full-Tier-Modell ist dasjenige, das in Deployments die Konversation trägt, in denen die Reasoning-Qualität das Nutzererlebnis bestimmt. Verhaltensänderungen auf dieser Ebene wirken sich aus auf:

Wie das Modell Antworten auf mehrdeutige Fragen formuliert.
Wie aggressiv das Modell Rückfragen stellt versus wie häufig es die Absicht ableitet.
Wie das Modell Edge-Case-Anfragen behandelt, die nahe an den Refusal-Grenzen liegen.
Wie das Modell Informationen über mehrere Nutzer-Turns innerhalb eines einzelnen Anrufs hinweg integriert.

All das ist für Endnutzer sichtbar, und Verschiebungen in einem dieser Punkte fühlen sich wie ein anderer Voice-Agent an, selbst wenn die Oberflächen-Stimme unverändert bleibt. Das Pinning auf 2024-12-17 bedeutet, dass das konversationelle Verhalten, das Ihr QA validiert hat, auch das konversationelle Verhalten in der Produktion bleibt.

Die Migrationsfrage

Live-Voice-Agenten sind die schlechteste Art von System, das man auf Vertrauensbasis aktualisiert. Die Form einer disziplinierten Migration sieht so aus:

Halten Sie den Dezember-Pin in der Produktion, während Sie evaluieren.
Lassen Sie ein repräsentatives Set an Live-Konversationsszenarien gegen den neueren Kandidaten-Snapshot erneut laufen — aufgezeichnete Referenzgespräche, synthetische Interruption-Tests, mehrstufige Reasoning-Szenarien in den Sprachen, die Ihr Produkt unterstützt.
Achten Sie auf Regressionen bei Edge Cases, die der ältere Snapshot beherrschte. Aggregierte Gewinne verbergen oft konkrete Szenarien, die sich verschlechtert haben.
Migrieren Sie, wenn der neuere Snapshot bei den für Ihr Produkt relevanten Metriken gewinnt, mit menschlicher Bewertung als Stichentscheider bei subjektiver Konversationsqualität.

Die Deprecation-Policy von OpenAI gewährt eine Vorankündigung, bevor datierte Snapshots stillgelegt werden, aber diese Policy ist nur die Untergrenze. Behandeln Sie den datierten Pin als Übergangsvertrag — migrieren Sie weiter, wenn Ihre Evaluation es sagt.

Wo es schwächelt

Dieselben Einschränkungen wie für den Rest der Full-Realtime-Linie.

Workloads, die in Wahrheit kein Streaming brauchen. Die Audio-Preview-Linie ist die richtige Wahl für Request/Response-Voice.

Kostenkritische Deployments bei hohem Volumen. Mini-Realtime existiert für Fälle, in denen die Pro-Minuten-Ökonomie des Full-Tiers nicht passt.

Reine Transkription. Die Transcribe-Endpunkte sind pro Minute günstiger, wenn Text-aus-Audio-Input die gesamte Aufgabe darstellt.

Self-Hosted-Deployment. Eine WebSocket-Verbindung zur OpenAI-Infrastruktur ist erforderlich. Siehe /usecases/local für On-Prem-Optionen.

Produktionsreife Vertragsstabilität jenseits des Snapshot-Horizonts. Preview-Tagging bedeutet, dass die Kategorie noch im Fluss ist. Der datierte Pin bietet Stabilität auf Snapshot-Ebene, nicht auf Kategorie-Ebene.

Wann genau dieser Snapshot zu pinnen ist

Wählen Sie gpt-4o-realtime-preview-2024-12-17, wenn:

Sie ein Live-Voice-Produkt auf Basis des Full-Realtime-Verhaltens aus dem späten Jahr 2024 ausgeliefert haben und es stabil halten müssen.
Eine Compliance-Anforderung die Modellversion auf Snapshot-Ebene festschreibt.
Sie mitten in der Evaluation neuerer Snapshots stecken und während der Evaluation eine stabile Produktionsbasis benötigen.

Überspringen Sie ihn, wenn:

Sie neu starten — evaluieren Sie den aktuellsten Snapshot und pinnen Sie diesen.
Die Verbesserungen bei Interruption-Handling, Latenz oder Back-Channel-Erkennung in späteren Snapshots in Ihrer Evaluation gewonnen haben.
Die Realtime-Linie aus dem Preview-Status in Stable wechselt — das ist das richtige Ziel für neue Projekte.

Vergleichswerte Alternativen

Der neuere Snapshot gpt-4o-realtime-preview-2025-06-03, wenn die Verbesserungen vom Juni 2025 nachweisbar gewinnen. Mini-Realtime, wenn Kosten wichtiger sind als Reasoning-Kapazität. Die Audio-Preview-Linie für nicht-streaming-basierte Voice-Anwendungen. Die breitere Übersicht über Voice-Modelle unter /usecases/voice deckt konkurrierende Realtime-Anbieter ab.

Deployment-Hinweise

Das WebSocket-Protokoll ist über die bisherigen Realtime-Snapshots hinweg unverändert. Der Snapshot-Pin ist rein eine Frage der Modellnamenswahl; das Event-Modell und das Nachrichtenformat sind identisch mit dem rollierenden Alias, wie es zum Release-Datum aussah.

Pro-Minuten-Abrechnung für Audio-Input und Audio-Output, zuzüglich Pro-Token-Abrechnung für das Text-Äquivalent, das durch das Modell fließt. Die Kapazitätsplanung ist nach gleichzeitigen Calls (Concurrent Calls) bemessen.

Das clientseitige State-Management ist der Integrationsaufwand, den man für Streaming zahlt. Nichts an dieser Integration ändert sich zwischen Snapshots — das Protokoll ist stabil. Die Verhaltensdetails, die sich zwischen Snapshots tatsächlich ändern, sind genau das, was dieser datierte Pin für Sie einfriert.

Die pragmatische Lesart. Dies ist der Dezember-2024-Freeze des Full-Tier-Realtime. Pinnen Sie ihn, wenn Ihr Live-Voice-Produkt dagegen validiert wurde und die Kosten für eine erneute Validierung gegen einen neueren Snapshot den Nutzen übersteigen. Führen Sie Live-Call-Vergleiche unter /live-test durch, bevor Sie migrieren.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

24. Mai 2026 · 04:47 UTC · Benchmark

P50-Latenz

—

P95-Latenz

—

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026