
gpt-4o-realtime-preview ist OpenAIs Streaming-Sprachmodell der Vollausbaustufe. Bidirektionales Audio über eine WebSocket-Verbindung. Sprecherwechsel-Handling, Unterbrechungsverarbeitung, Latenz unter einer Sekunde vom Ende der Nutzeräußerung bis zum Start der Antwort. Das Modell, mit dem Sie Sprach-Agenten bauen können, die sich wie Telefongespräche anfühlen, statt wie Transkribieren-dann-Denken-dann-Sprechen-Relais.
Dies ist die Variante mit vollem Leistungsumfang. Der mini-realtime-Ableger ist die Kosten-Tier-Option für Workloads, bei denen Reasoning-Headroom nicht der limitierende Faktor ist.
Was Streaming-Sprache tatsächlich erfordert
Einen Sprach-Agenten zu bauen, der sich nicht defekt anfühlt, benötigt mehr als eine schnelle TTS-Engine, die an eine schnelle STT-Engine geklebt ist. Die Realtime-Preview liefert die Dinge, die anspruchsvolle Spracharbeit braucht:
- Das Modell beginnt mit der Verarbeitung, bevor der Nutzer zu Ende gesprochen hat. Bis zum Zeitpunkt, an dem der Nutzer aufhört zu sprechen, formt sich die Antwort bereits.
- Der Nutzer kann das Modell mitten in der Antwort unterbrechen, und das Modell handhabt es elegant — es stoppt, hört zu, verarbeitet die neue Eingabe, antwortet.
- Stille und Rückmeldelaute („mm-hmm", kurze Pausen) werden als Gesprächssignale gelesen, nicht als Sprecherwechsel-Grenzen.
- Die End-to-End-Latenz vom Nutzer-hört-auf-zu-sprechen bis Modell-beginnt-zu-sprechen liegt deutlich unter der Schwelle, bei der sich ein Telefonat verzögert anfühlt.
Realtime-Preview ist die architektonische Antwort auf dieses Anforderungsset. Die Vollausbaustufen-Variante verfügt über die Reasoning-Kapazität, um Sprach-Agenten zu handhaben, die sorgfältig über das Gesagte nachdenken müssen, nicht nur darauf reagieren.
Wo die Vollausbaustufe ihren Wert verdient
Workloads, bei denen mini-realtime die falsche Wahl ist und die Reasoning-Kapazität der Vollausbaustufe das Unterscheidungsmerkmal darstellt.
Komplexe Kundenservice-Sprach-Agenten, die mehrstufige Interaktionen handhaben müssen — Informationen sammeln, Kontostatus nachschlagen, über Grenzfälle nachdenken, mit dem richtigen Detaillierungsgrad antworten. Mini-realtime kann routen und klassifizieren; die Vollausbaustufe kann tatsächlich das Gespräch führen.
Sprachgesteuerte Wissensarbeit, bei der der Nutzer das Modell bittet, laut zu denken — diagnostische Gespräche, Troubleshooting-Walkthroughs, Coaching-Szenarien. Die Vollausbaustufe kann Kontext über längere Turns halten und über mehrdeutige Nutzeraussagen nachdenken.
Mehrsprachige Sprach-Agenten, bei denen das Modell mitten im Gespräch die Sprache wechseln und die Reasoning-Qualität über den Wechsel hinweg aufrechterhalten muss. Mini-realtime handhabt Sprachabdeckung; die Vollausbaustufe handhabt sprachübergreifende Reasoning-Qualität.
Hochriskante Sprachschnittstellen, bei denen Output-Qualität wichtiger ist als Kosten pro Minute — Barrierefreiheitsprodukte in kritischen Bereichen, professionelle Beratungsassistenten, Szenarien, in denen eine falsche Antwort deutlich teurer ist als die Pro-Minute-Rate eines leistungsfähigeren Modells.
Architektur-Anmerkungen
GPT-4o „Omni"-Familienarchitektur, Vollausbaustufen-Dimensionierung, über einen WebSocket-Transport geleitet statt über die Request/Response-Chat-Completions-API.
Die Streaming-Schicht fügt operationale Komplexität hinzu:
- Eine persistente Verbindung pro aktiver Konversation.
- Server-gesteuerte Event-Semantik mit expliziten Turn-Start-, Turn-End-, Model-Thinking-, Audio-Flowing-Events.
- Eine komplexere Client-Integrationsgeschichte als Standard-REST.
- Stateful Session-Management auf Client- und Server-Seite.
OpenAI hat die Parameteranzahl der Vollausbaustufe nicht veröffentlicht. Beobachtbares Verhalten: gleiche Eingabe-Audio-Formate wie mini-realtime, gleiche feste voreingestellte Sprachoptionen, breitere effektive Reasoning-Obergrenze als die Mini-Variante.
Wo es versagt
Workloads, die tatsächlich kein Streaming benötigen. Verwenden Sie die Audio-Preview-Linie — sie ist einfacher zu integrieren und günstiger pro Minute. Wählen Sie Realtime für die Streaming-Anforderung, nicht für die Modellreihen-Marke.
Kostensensitive Deployments mit hohem Volumen. Die mini-realtime-Variante existiert genau für Fälle, in denen die Pro-Minute-Ökonomie der Vollausbaustufe das Volumen nicht überlebt.
Reine Transkription. Die Transkriptions-Endpunkte kosten weniger pro Minute für Text-aus-Audio-in.
Self-Hosted-Deployment. WebSocket-Verbindung zur OpenAI-Infrastruktur erforderlich. Siehe /usecases/local für On-Prem-Optionen.
Production-Grade-Vertragsstabilität. Preview-getaggt. Pinnen Sie den datierten Snapshot für Verhaltensprognostizierbarkeit, während die Linie noch im Fluss ist.
Komplexe mobile Client-Umgebungen. Das WebSocket-Protokoll und das stateful Event-Modell fügen Engineering-Kosten hinzu, für die insbesondere Mobile-Teams budgetieren müssen.
Wann Sie danach greifen sollten
Wählen Sie gpt-4o-realtime-preview, wenn:
- Sie einen Live-Sprach-Agenten bauen und die Reasoning-Last hinter der Stimme schwer genug ist, dass mini-realtime der Engpass wäre.
- Das Produkt die operationale Komplexität der WebSocket-Integration aufnehmen kann.
- Sprachqualität und Reasoning-Qualität zusammen die Pro-Minute-Ökonomie rechtfertigen.
Überspringen Sie es, wenn:
- Die Anwendung tatsächlich kein Streaming benötigt — verwenden Sie die Audio-Preview-Linie.
- Kosten die operative Beschränkung sind — verwenden Sie mini-realtime.
- Das Deployment On-Premise sein muss.
- Der Workload nur Transkription ist — verwenden Sie die Transkriptions-Endpunkte.
Vergleichswerte Alternativen
Mini-realtime, wenn Kosten wichtiger sind als Reasoning-Kapazität. Die Audio-Preview-Linie, wenn Streaming nicht erforderlich ist. Die Transkriptions- und TTS-Endpunkte, wenn eine Richtung der Audio-Schleife die gesamte Aufgabe ist. Die breitere Sprachmodell-Übersicht auf /usecases/voice behandelt konkurrierende Realtime-Anbieter.
Deployment-Anmerkungen
WebSocket-API, materiell anders als der Rest des OpenAI-Katalogs. Rechnen Sie mit Engineering-Investition in die clientseitige Zustandsmaschine, insbesondere für mobile und eingebettete Clients.
Pro-Minute-Abrechnung für Audio-In und Audio-Out, plus Pro-Token-Abrechnung für das Text-Äquivalent, das durch das Modell fließt. Streaming-Overhead ist in die Pro-Minute-Rate eingebaut. Kapazitätsplanung liegt näher an „gleichzeitig aktive Anrufe" als an „Requests pro Sekunde".
Die pragmatische Einschätzung. Realtime-Preview ist das richtige Modell, wenn Live-Sprache wichtig ist und Reasoning-Kapazität wichtig ist. Es ist das falsche Modell, wenn Streaming tatsächlich nicht erforderlich ist oder wenn Kosten-Tier-gerechte Dimensionierung bedeutet, stattdessen mini-realtime zu wählen. Testen Sie es gegen Ihre echten Sprachszenarien unter /live-test.
Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

