Für welche Anwendungen ist Realtime geeignet?

Voice-Assistenten, Live-Kundensupport, interaktive Konversationsanwendungen und Spiele-KI.

Ist das Modell für Produktion geeignet?

Als Preview noch nicht; es dient der Entwicklung und Erprobung von Echtzeit-Anwendungen.

Wie unterscheidet sich die Architektur?

Die Implementierung priorisiert kurze Time-to-First-Token und Streaming-Antworten gegenüber umfangreichem Batch-Processing.

Tier C — Spezialist

Läuft in:USErstellt in:United States

Archiviert

Dieses Modell wurde vom Anbieter eingestellt. Historische Daten bleiben erhalten.

Seit 24. Mai 2026 nicht mehr verfügbar.

OpenAI

gpt-4o-realtime-preview

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-4o-realtime-preview ist eine Variante des GPT-4o-Modells von OpenAI, die speziell für Echtzeit-Interaktionsfähigkeiten konzipiert wurde. Im Gegensatz zu herkömmlichen textbasierten Modellen ist diese Preview-Version für Anwendungen optimiert, die latenzarme Antworten erfordern, etwa Konversationsagenten, Live-Kundensupportsysteme und interaktive Sprachanwendungen. Sie verarbeitet und generiert Text mit minimaler Verzögerung und eignet sich damit für Szenarien, in denen unmittelbares Feedback für die Nutzererfahrung entscheidend ist. Das Modell behält die architektonischen Grundlagen von GPT-4o bei, einschließlich multimodaler Verständnisfähigkeiten, wobei der primäre Einsatzfokus auf der Textgenerierung mit Echtzeit-Leistungsmerkmalen liegt. Als Preview-Release stellt es OpenAIs Erkundung von Modellen dar, die auf synchrone, zeitkritische Anwendungen zugeschnitten sind, statt auf Batch- oder asynchrone Verarbeitung. Die Größe des Kontextfensters wurde nicht öffentlich angegeben, was für Preview- oder spezialisierte Varianten während ihrer Evaluierungsphase typisch ist. Innerhalb der Modellpalette von OpenAI nimmt GPT-4o-realtime-preview eine spezialisierte Nische neben den Standardmodellen GPT-4o und GPT-4 Turbo ein. Während jene Modelle breite Leistungsfähigkeit und Effizienz über diverse Anwendungsfälle hinweg priorisieren, betont diese Realtime-Variante Antwortgeschwindigkeit und Interaktionsflüssigkeit. Sie ist als experimentelles Angebot für Entwickler positioniert, die Anwendungen erstellen, bei denen Gesprächsfluss und zeitliche Reaktionsfähigkeit kritische Anforderungen sind – ergänzend, nicht ersetzend zu OpenAIs Allzweck-Sprachmodellen.

GPT-4o-realtime-preview bringt Low-Latency-Konversation in die GPT-4o-Familie – für Anwendungen, wo jede Millisekunde zählt.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — gpt-4o-realtime-preview

$5.00 pro 1M Input-Tokens

$20.00 pro 1M Output-Tokens

≈ $0.0070 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$5.00

pro 1M Output-Tokens$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Niedrigste Latenz in der GPT-4o-FamilieOptimiert für Voice-AssistentenFlüssiger KonversationsrhythmusOpenAI Realtime APIMehrsprachige InteraktionLive-Kundensupport-Systeme

Schwächen

Preview-Status – nicht produktionsreifKontextgröße nicht dokumentiertReasoning-Tiefe unterhalb Standard-GPT-4o

Abschnitt 03

Häufig gestellte Fragen

Realtime priorisiert minimale Antwortlatenz für synchrone Interaktionen statt maximaler Reasoning-Tiefe.

Für synchrone, zeitkritische KI-Interaktionen öffnet GPT-4o-realtime-preview neue Entwicklungsmöglichkeiten.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 04

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

● 2026-05-24

Baseline für GPT-4o Realtime Preview Audio-Visual-Modell etabliert

Diese erste Bewertung von gpt-4o-realtime-preview etabliert grundlegende Leistungskennzahlen über multimodale Benchmarks hinweg. Das Modell zeigt starke visuelle Reasoning-Fähigkeiten und erreicht 63,5 % bei MMMU sowie 85,4 % bei MathVista, was auf solide Leistungen bei Aufgaben hinweist, die kombiniertes visuelles und mathematisches Verständnis erfordern. Textbasiertes Reasoning liefert wettbewerbsfähige Ergebnisse mit 88,3 % bei GPQA Diamond und 85,5 % bei MMLU und spiegelt damit Wissensanwendung auf Graduiertenniveau wider. Die mathematischen Fähigkeiten erreichen 74,6 % bei MATH-500 und positionieren das Modell als geeignet für anspruchsvolle Problemlösungsaufgaben. Die Architektur unterstützt Echtzeit-Audioverarbeitung neben Bild- und Textmodalitäten und ist für interaktive Anwendungen mit niedrigen Latenzanforderungen ausgelegt. Die Coding-Leistung erreicht 82,6 % bei HumanEval, was für praktische Programmierunterstützung geeignet ist. Als Preview-Version sollten Nutzer dieses Modell als Referenzpunkt zur Verfolgung künftiger Verbesserungen innerhalb der Realtime-Modellfamilie betrachten. Die multimodale Integration erscheint über die Domänen hinweg ausgewogen, ohne dass eine einzelne Fähigkeit andere deutlich übertrifft oder zurückfällt. Diese Baseline ermöglicht aussagekräftige Vergleiche, während sich das Modell durch nachfolgende Updates und Optimierungen weiterentwickelt.

Quality

—

Latency p50

—

Test runs

✓ Starke Baseline für visuelles Schlussfolgern✓ Wettbewerbsfähiges Wissen auf Graduiertenniveau✓ Solides mathematisches Problemlösen✓ Echtzeitfähige multimodale Architektur

Abschnitt 06

Vollständiges Modellprofil

gpt-4o-realtime-preview: Streaming-Sprache der Vollausbaustufe von OpenAI

gpt-4o-realtime-preview ist OpenAIs Streaming-Sprachmodell der Vollausbaustufe. Bidirektionales Audio über eine WebSocket-Verbindung. Sprecherwechsel-Handling, Unterbrechungsverarbeitung, Latenz unter einer Sekunde vom Ende der Nutzeräußerung bis zum Start der Antwort. Das Modell, mit dem Sie Sprach-Agenten bauen können, die sich wie Telefongespräche anfühlen, statt wie Transkribieren-dann-Denken-dann-Sprechen-Relais.

Dies ist die Variante mit vollem Leistungsumfang. Der mini-realtime-Ableger ist die Kosten-Tier-Option für Workloads, bei denen Reasoning-Headroom nicht der limitierende Faktor ist.

Was Streaming-Sprache tatsächlich erfordert

Einen Sprach-Agenten zu bauen, der sich nicht defekt anfühlt, benötigt mehr als eine schnelle TTS-Engine, die an eine schnelle STT-Engine geklebt ist. Die Realtime-Preview liefert die Dinge, die anspruchsvolle Spracharbeit braucht:

Das Modell beginnt mit der Verarbeitung, bevor der Nutzer zu Ende gesprochen hat. Bis zum Zeitpunkt, an dem der Nutzer aufhört zu sprechen, formt sich die Antwort bereits.
Der Nutzer kann das Modell mitten in der Antwort unterbrechen, und das Modell handhabt es elegant — es stoppt, hört zu, verarbeitet die neue Eingabe, antwortet.
Stille und Rückmeldelaute („mm-hmm", kurze Pausen) werden als Gesprächssignale gelesen, nicht als Sprecherwechsel-Grenzen.
Die End-to-End-Latenz vom Nutzer-hört-auf-zu-sprechen bis Modell-beginnt-zu-sprechen liegt deutlich unter der Schwelle, bei der sich ein Telefonat verzögert anfühlt.

Realtime-Preview ist die architektonische Antwort auf dieses Anforderungsset. Die Vollausbaustufen-Variante verfügt über die Reasoning-Kapazität, um Sprach-Agenten zu handhaben, die sorgfältig über das Gesagte nachdenken müssen, nicht nur darauf reagieren.

Wo die Vollausbaustufe ihren Wert verdient

Workloads, bei denen mini-realtime die falsche Wahl ist und die Reasoning-Kapazität der Vollausbaustufe das Unterscheidungsmerkmal darstellt.

Komplexe Kundenservice-Sprach-Agenten, die mehrstufige Interaktionen handhaben müssen — Informationen sammeln, Kontostatus nachschlagen, über Grenzfälle nachdenken, mit dem richtigen Detaillierungsgrad antworten. Mini-realtime kann routen und klassifizieren; die Vollausbaustufe kann tatsächlich das Gespräch führen.

Sprachgesteuerte Wissensarbeit, bei der der Nutzer das Modell bittet, laut zu denken — diagnostische Gespräche, Troubleshooting-Walkthroughs, Coaching-Szenarien. Die Vollausbaustufe kann Kontext über längere Turns halten und über mehrdeutige Nutzeraussagen nachdenken.

Mehrsprachige Sprach-Agenten, bei denen das Modell mitten im Gespräch die Sprache wechseln und die Reasoning-Qualität über den Wechsel hinweg aufrechterhalten muss. Mini-realtime handhabt Sprachabdeckung; die Vollausbaustufe handhabt sprachübergreifende Reasoning-Qualität.

Hochriskante Sprachschnittstellen, bei denen Output-Qualität wichtiger ist als Kosten pro Minute — Barrierefreiheitsprodukte in kritischen Bereichen, professionelle Beratungsassistenten, Szenarien, in denen eine falsche Antwort deutlich teurer ist als die Pro-Minute-Rate eines leistungsfähigeren Modells.

Architektur-Anmerkungen

GPT-4o „Omni"-Familienarchitektur, Vollausbaustufen-Dimensionierung, über einen WebSocket-Transport geleitet statt über die Request/Response-Chat-Completions-API.

Die Streaming-Schicht fügt operationale Komplexität hinzu:

Eine persistente Verbindung pro aktiver Konversation.
Server-gesteuerte Event-Semantik mit expliziten Turn-Start-, Turn-End-, Model-Thinking-, Audio-Flowing-Events.
Eine komplexere Client-Integrationsgeschichte als Standard-REST.
Stateful Session-Management auf Client- und Server-Seite.

OpenAI hat die Parameteranzahl der Vollausbaustufe nicht veröffentlicht. Beobachtbares Verhalten: gleiche Eingabe-Audio-Formate wie mini-realtime, gleiche feste voreingestellte Sprachoptionen, breitere effektive Reasoning-Obergrenze als die Mini-Variante.

Wo es versagt

Workloads, die tatsächlich kein Streaming benötigen. Verwenden Sie die Audio-Preview-Linie — sie ist einfacher zu integrieren und günstiger pro Minute. Wählen Sie Realtime für die Streaming-Anforderung, nicht für die Modellreihen-Marke.

Kostensensitive Deployments mit hohem Volumen. Die mini-realtime-Variante existiert genau für Fälle, in denen die Pro-Minute-Ökonomie der Vollausbaustufe das Volumen nicht überlebt.

Reine Transkription. Die Transkriptions-Endpunkte kosten weniger pro Minute für Text-aus-Audio-in.

Self-Hosted-Deployment. WebSocket-Verbindung zur OpenAI-Infrastruktur erforderlich. Siehe /usecases/local für On-Prem-Optionen.

Production-Grade-Vertragsstabilität. Preview-getaggt. Pinnen Sie den datierten Snapshot für Verhaltensprognostizierbarkeit, während die Linie noch im Fluss ist.

Komplexe mobile Client-Umgebungen. Das WebSocket-Protokoll und das stateful Event-Modell fügen Engineering-Kosten hinzu, für die insbesondere Mobile-Teams budgetieren müssen.

Wann Sie danach greifen sollten

Wählen Sie gpt-4o-realtime-preview, wenn:

Sie einen Live-Sprach-Agenten bauen und die Reasoning-Last hinter der Stimme schwer genug ist, dass mini-realtime der Engpass wäre.
Das Produkt die operationale Komplexität der WebSocket-Integration aufnehmen kann.
Sprachqualität und Reasoning-Qualität zusammen die Pro-Minute-Ökonomie rechtfertigen.

Überspringen Sie es, wenn:

Die Anwendung tatsächlich kein Streaming benötigt — verwenden Sie die Audio-Preview-Linie.
Kosten die operative Beschränkung sind — verwenden Sie mini-realtime.
Das Deployment On-Premise sein muss.
Der Workload nur Transkription ist — verwenden Sie die Transkriptions-Endpunkte.

Vergleichswerte Alternativen

Mini-realtime, wenn Kosten wichtiger sind als Reasoning-Kapazität. Die Audio-Preview-Linie, wenn Streaming nicht erforderlich ist. Die Transkriptions- und TTS-Endpunkte, wenn eine Richtung der Audio-Schleife die gesamte Aufgabe ist. Die breitere Sprachmodell-Übersicht auf /usecases/voice behandelt konkurrierende Realtime-Anbieter.

Deployment-Anmerkungen

WebSocket-API, materiell anders als der Rest des OpenAI-Katalogs. Rechnen Sie mit Engineering-Investition in die clientseitige Zustandsmaschine, insbesondere für mobile und eingebettete Clients.

Pro-Minute-Abrechnung für Audio-In und Audio-Out, plus Pro-Token-Abrechnung für das Text-Äquivalent, das durch das Modell fließt. Streaming-Overhead ist in die Pro-Minute-Rate eingebaut. Kapazitätsplanung liegt näher an „gleichzeitig aktive Anrufe" als an „Requests pro Sekunde".

Die pragmatische Einschätzung. Realtime-Preview ist das richtige Modell, wenn Live-Sprache wichtig ist und Reasoning-Kapazität wichtig ist. Es ist das falsche Modell, wenn Streaming tatsächlich nicht erforderlich ist oder wenn Kosten-Tier-gerechte Dimensionierung bedeutet, stattdessen mini-realtime zu wählen. Testen Sie es gegen Ihre echten Sprachszenarien unter /live-test.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

24. Mai 2026 · 04:43 UTC · Benchmark

P50-Latenz

—

P95-Latenz

—

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026