Wie unterscheidet es sich von einer klassischen STT-LLM-TTS-Pipeline?

Das Modell verarbeitet Audio direkt, ohne Zwischenschritte über separate Speech-to-Text- und Text-to-Speech-Komponenten. Das reduziert die Latenz deutlich und erhält prosodische Informationen wie Tonfall und Betonung.

Unterstützt das Modell Function Calling während eines Audio-Streams?

Ja, Tool- und Function-Calling sind im Realtime-API-Kontext verfügbar und können während einer laufenden Konversation ausgelöst werden. So lassen sich Datenbankzugriffe oder externe APIs in Sprachdialoge einbinden.

Wie groß ist das Kontextfenster?

OpenAI hat für diese Preview-Variante keine exakte Tokenzahl öffentlich spezifiziert. In der Praxis sollte man für längere Sitzungen Session-Management und Zusammenfassungen einsetzen.

Welche Risiken bringt der Preview-Status mit sich?

Preview-Modelle können ohne lange Vorlaufzeit deprecated oder durch neuere Snapshots ersetzt werden. Für langfristige Produktionsabhängigkeiten empfiehlt sich eine Abstraktionsschicht über das Modell.

Läuft in:USErstellt in:United States

Archiviert

Dieses Modell wurde vom Anbieter eingestellt. Historische Daten bleiben erhalten.

Seit 24. Mai 2026 nicht mehr verfügbar.

OpenAI

gpt-4o-realtime-preview-2025-06-03

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-4o-realtime-preview-2025-06-03 ist ein multimodales Sprachmodell von OpenAI, das speziell für Echtzeit-Konversationsanwendungen entwickelt wurde. Das Modell erweitert die Fähigkeiten der GPT-4o-Reihe durch Optimierung auf latenzarme Interaktionen und eignet sich damit besonders für Sprachassistenten, Live-Chat-Systeme und interaktive Anwendungen, bei denen schnelle Reaktionszeiten entscheidend sind. Es unterstützt sowohl Text- als auch Audio-Ein- und -Ausgaben und ermöglicht so natürlichere und flüssigere Gesprächsabläufe als klassische reine Textmodelle. Das Modell baut auf der GPT-4o-Architektur von OpenAI auf, die Bild-, Audio- und Textverarbeitung in einem einheitlichen Rahmen integriert. Die Bezeichnung „realtime-preview" weist darauf hin, dass es sich um eine experimentelle Version handelt, die laufende Entwicklungen im Bereich Streaming und interaktiver KI-Funktionen demonstrieren soll. Auch wenn die genaue Kontextfenstergröße nicht öffentlich angegeben ist, bietet das Modell neben seinen Echtzeit-Funktionen die üblichen Textgenerierungsfähigkeiten und kann komplexe Reasoning-Aufgaben, Inhaltserstellung sowie kontextbewusste Mehrfachdialoge bewältigen. Innerhalb der OpenAI-Modellpalette nimmt GPT-4o-realtime-preview-2025-06-03 eine spezialisierte Nische für latenzkritische Anwendungen ein, ohne als universeller Ersatz für andere GPT-4-Varianten zu dienen. Es steht für OpenAIs Erkundung reaktionsschnellerer KI-Systeme, die synchrone, bidirektionale Kommunikationskanäle unterstützen. Der Preview-Status deutet auf eine laufende Weiterentwicklung hin, mit möglichen Anpassungen bei Leistung und Funktionsumfang, sobald OpenAI Nutzungsdaten und Feedback von Entwicklern aus Echtzeit-KI-Projekten auswertet.

Ein spezialisiertes Modell für Echtzeit-Sprachinteraktion, das OpenAIs GPT-4o-Architektur auf niedrige Latenz und bidirektionale Audio-Streams zuschneidet.
— Tokonomix Modellanalyse

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — gpt-4o-realtime-preview-2025-06-03

$5.00 pro 1M Input-Tokens

$20.00 pro 1M Output-Tokens

≈ $0.0070 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$5.00

pro 1M Output-Tokens$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Sehr niedrige AntwortlatenzNative Audio-Ein- und AusgabeBidirektionales StreamingGPT-4o-Reasoning-BasisNatürliche GesprächsführungMehrsprachige KonversationMultimodale VerarbeitungTool- und Function-Calling

Schwächen

Preview-Status ohne SLAKontextfenster nicht offiziell dokumentiertAudio-Tokens treiben KostenWissensstand begrenzt

Abschnitt 03

Häufig gestellte Fragen

Technisch ja, insbesondere für Prototypen und interne Pilotprojekte mit Voice-Interfaces. Aufgrund des Preview-Status sollte man jedoch Fallback-Strategien einplanen und auf mögliche API-Änderungen vorbereitet sein.

Eine starke Wahl für sprachgesteuerte Produkte, solange man den Preview-Status und die fehlenden offiziellen Spezifikationen einkalkuliert.
— Tokonomix Redaktionsfazit

Abschnitt 04

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

● 2026-05-24

Baseline für GPT-4o Realtime Preview Audiomodell etabliert

Dieser erste Benchmark legt Leistungsbasiswerte für OpenAIs GPT-4o Realtime Preview fest, ein Modell, das für latenzarme Audio- und Textinteraktionen konzipiert ist. Das Modell zeigt starke Fähigkeiten bei standardisierten Sprachaufgaben und erreicht 83,2 % bei MMLU sowie 88,4 % bei GPQA Diamond, was auf solides logisches Denken und Wissensverständnis hinweist. Die mathematische Leistung liegt bei 74,6 % bei MATH-500 und 83,5 % bei GSM8K und platziert das Modell im wettbewerbsfähigen Bereich für Allzweckmodelle. Die Fähigkeiten zur Codegenerierung sind mit 81,0 % bei HumanEval robust, während die Befolgung von Anweisungen bei IFEval mit 63,8 % bewertet wird. Das Modell bewältigt mehrsprachige Aufgaben effektiv mit 77,8 % bei MGSM und zeigt praktisches Reasoning mit 81,6 % bei MMMU. Diese Ergebnisse etablieren die realtime-optimierte Variante als leistungsfähigen Performer über diverse Benchmarks hinweg, ohne jedoch zwangsläufig in jeder Kategorie führend zu sein. Nutzer sollten beachten, dass diese Preview-Version latenzarme Streaming-Interaktionen priorisiert, was im Vergleich zum Standard-GPT-4o andere Optimierungs-Tradeoffs mit sich bringen kann. Die Basiswerte bieten einen Referenzpunkt, um künftige Verbesserungen oder Varianten im Zuge der Weiterentwicklung der Realtime-Modellfamilie nachzuverfolgen.

Quality

—

Latency p50

—

Test runs

✓ Starke MMLU-Leistung mit 83,2 %✓ Robuste Codegenerierung bei HumanEval✓ Wettbewerbsfähige Ergebnisse beim mathematischen Schlussfolgern✓ Erste Echtzeit-Modell-Baseline etabliert

Abschnitt 06

Vollständiges Modellprofil

gpt-4o-realtime-preview-2025-06-03: das Full-Realtime-Refresh aus Mitte 2025

gpt-4o-realtime-preview-2025-06-03 ist der Juni-2025-Snapshot von OpenAIs Streaming-Voice-Modell der Vollstufe. Sechs Monate nach dem Freeze vom Dezember 2024 hatte die Linie Verbesserungen bei Unterbrechungsverhalten, Latenz und der Erkennung von konversationellen Rückkanälen aufgenommen.

Dies ist der Snapshot, auf den man migrieren sollte, wenn diese Verbesserungen Ihrem Live-Voice-Agent nachweislich helfen, ohne die Dinge zu zerstören, auf die Ihr im Dezember validiertes Deployment fein abgestimmt wurde.

Was sich seit Dezember 2024 geändert hat

OpenAI veröffentlicht kein detailliertes Changelog für die Realtime-Linie, aber der Verhaltensunterschied lässt sich beobachten, wenn man beide Snapshots gegen dieselben gescripteten Live-Konversationstests laufen lässt:

Geschmeidigeres Unterbrechungsverhalten. Der Dezember-Snapshot blieb gelegentlich kurz „hängen", wenn ein Nutzer mitten in der Antwort eingriff; dieser hier wechselt sauberer in den Hörmodus.
Geringere Ende-zu-Ende-Latenz vom Ende der Nutzeräußerung bis zum Beginn der Modellantwort, zurückzuführen auf Backend-Infrastrukturänderungen statt auf Änderungen der Modellarchitektur.
Bessere Rückkanal-Erkennung. Das Modell behandelt kurze Bestätigungen („genau", „mhm") seltener als vollwertige Nutzerturns, die eine Antwort verlangen.
Natürlicheres Verhalten in unangenehmen Gesprächsmomenten — lange Schweigephasen, fehlerhafte Nutzereingaben, parallele Sprechsituationen.

Was sich nicht offensichtlich geändert hat: das WebSocket-Event-Protokoll, die Preset-Stimmenauswahl, die Basis-API-Oberfläche oder die minutenbasierte Abrechnungsstruktur.

Wann sich das Upgrade lohnt

Live-Voice-Modelle reagieren ungewöhnlich empfindlich auf Evaluationsmethodik. Aggregierte Metriken übersehen oft genau die Aspekte, auf die es ankommt. Der Ablauf einer disziplinierten Migration:

Halten Sie den Dezember-Pin in Produktion, während Sie evaluieren.
Bauen oder aktualisieren Sie einen repräsentativen Testkorpus — aufgezeichnete Referenzgespräche, synthetische Unterbrechungsszenarien, mehrteilige Reasoning-Tests, mehrsprachige Konversationen, falls Ihr Produkt diese unterstützt.
Lassen Sie beide Snapshots durch den Testkorpus laufen.
Lassen Sie Menschen die Aufnahmen anhören und die Gesprächsqualität bewerten. Es gibt keine automatisierte Metrik, die „das fühlt sich nach einem kompetenten Voice-Agent an" erfasst.
Migrieren Sie erst, wenn die menschlichen Bewertungen konsistent zugunsten des Juni-Snapshots ausfallen, insbesondere in den Dimensionen, die für Ihr Produkt zählen.

Für Voice-Agents in regulierten Domänen sollten Sie die Kosten der erneuten Validierung gegen Compliance-Anforderungen einrechnen. Eine kleine Qualitätsverbesserung überlebt den Validierungsaufwand unter Umständen nicht.

Wo dieser Snapshot heute steht

Mitte 2026 ist dies der jüngste datierte Full-Realtime-Snapshot, den die meisten Teams zitieren, wenn sie ohne weitere Einschränkung zu OpenAIs Premium-Streaming-Voice greifen. Es ist der Snapshot mit der breitesten Produktions-Historie innerhalb der GPT-4o-Realtime-Linie.

Für neue Live-Voice-Projekte, die 2026 starten, geht die Wahl zwischen diesem Snapshot, allem Neueren, das OpenAI veröffentlicht, und dem eventuellen stabilen Release der Realtime-Linie. Das Argument für ein Pinning hier ist dasselbe wie bei jedem datierten Snapshot — Vorhersagbarkeit anstelle des Zugangs zu zukünftigen Verbesserungen.

Wo es schwächelt

Dieselben Einschränkungen wie der Rest der Full-Realtime-Linie.

Workloads, die eigentlich kein Streaming brauchen. Die Audio-Preview-Linie ist einfacher zu integrieren und günstiger pro Minute.

Kostensensitive Deployments bei hohem Volumen. Mini-Realtime existiert für Fälle, in denen die Minutenökonomie der Vollstufe nicht passt.

Reine Transkription. Die Transcribe-Endpoints sind pro Minute günstiger, wenn Text-aus-Audio-rein die gesamte Aufgabe ist.

Self-hosted Deployment. WebSocket-Verbindung zur OpenAI-Infrastruktur ist erforderlich. Der Überblick unter /usecases/local deckt On-Prem-Alternativen ab.

Wann genau dieser Snapshot zu pinnen ist

Wählen Sie gpt-4o-realtime-preview-2025-06-03, wenn:

Sie die Full-Realtime-Linie Mitte bis Ende 2025 evaluiert haben und dies der Snapshot war, der gewonnen hat.
Die Verbesserungen bei Unterbrechungsverhalten, Latenz oder Rückkanal-Erkennung gegenüber dem Dezember-Snapshot für Ihr Produkt relevant sind.
Sie ein stabiles Verhaltensziel brauchen, während Sie darauf warten, dass die Realtime-Linie den Preview-Status verlässt.

Verzichten Sie darauf, wenn:

Ein neuerer Snapshot verfügbar ist und Ihre Evaluation gewonnen hat.
Das eventuelle stabile Realtime-Modell aus dem Preview-Status entlassen wurde.
Kosten die operative Restriktion sind — verwenden Sie Mini-Realtime.
Streaming faktisch nicht erforderlich ist — verwenden Sie die Audio-Preview-Linie.

Vergleichenswerte Alternativen

Der ältere Dezember-Snapshot, wenn Konsistenz mit bereits validierten Deployments zählt. Mini-Realtime, wenn Kosten wichtiger sind als Reasoning-Kapazität. Die Audio-Preview-Linie, wenn Streaming nicht die Anforderung ist. Die Voice-Modell-Übersicht unter /usecases/voice deckt konkurrierende Realtime-Anbieter ab.

Deployment-Hinweise

Dieselbe WebSocket-API-Oberfläche wie der Rest der Realtime-Linie. Das Snapshot-Pinning ist rein eine Frage des Modellnamens; das Event-Modell und das Nachrichtenformat sind über Snapshots hinweg unverändert.

Minutenabrechnung für Audio-In und Audio-Out plus tokenbasierte Abrechnung für das Textäquivalent. Der Streaming-Overhead ist in den Minutenpreis eingerechnet. Die Kapazitätsplanung ist von der Zahl parallel laufender Calls geprägt.

Client-seitiger Integrationscode ist über Snapshot-Migrationen hinweg wiederverwendbar, weil das Protokoll stabil ist. Die Verhaltensänderungen zwischen Snapshots sind genau das, was dieser datierte Pin einfriert.

Die pragmatische Lesart. Dies ist der Juni-2025-Freeze des Full-Tier-Realtime. Pinnen Sie ihn, wenn Ihre Evaluation zeigt, dass die Verbesserungen gegenüber dem Dezember-Snapshot auf Ihrem Traffic real sind. Führen Sie Live-Call-Vergleiche unter /live-test durch, bevor Sie eine Migrationsentscheidung treffen.

Letzte technische Überprüfung: 22.05.2026 — Tokonomix.ai

Letzter automatisierter Test

24. Mai 2026 · 04:41 UTC · Benchmark

P50-Latenz

—

P95-Latenz

—

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026