Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-realtime-2025-08-28

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-Realtime-2025-08-28 ist ein multimodales Sprachmodell von OpenAI, das im Rahmen der fortlaufenden Weiterentwicklung der GPT-Architektur des Unternehmens veröffentlicht wurde. Das Modell verkörpert OpenAIs Ansatz für konversationelle KI in Echtzeit und ist speziell auf Anwendungen mit niedrigen Latenzanforderungen ausgelegt – etwa Sprachassistenten, Live-Kundenbetreuung und interaktive Dialogsysteme. Im Gegensatz zu herkömmlichen Textvervollständigungsmodellen ist es für Streaming-Antworten optimiert und hält den Gesprächskontext mit minimaler Verzögerung zwischen Nutzereingabe und Modellausgabe aufrecht. Das Modell unterstützt klassische Textgenerierung und verarbeitet sowohl Text- als auch Audioeingaben, was natürliche sprachbasierte Interaktionen ermöglicht. Technische Angaben weisen darauf hin, dass es auf der Transformer-Architektur aufbaut, die der GPT-Reihe von OpenAI zugrunde liegt; die genaue Kontextfenstergröße wurde vom Anbieter jedoch nicht öffentlich genannt. Das Modell bringt Verbesserungen bei Antwortlatenz und Gesprächskohärenz gegenüber früheren Versionen mit und eignet sich daher besonders für Szenarien, in denen unmittelbares Feedback entscheidend ist. Innerhalb des Modellportfolios von OpenAI nimmt GPT-Realtime-2025-08-28 eine spezialisierte Rolle ein, die sich auf synchrone, interaktive Anwendungsfälle konzentriert statt auf Batch-Verarbeitung oder asynchrone Aufgaben. Es ergänzt die breitere GPT-4-Familie von OpenAI, indem es spezifische Anforderungen an Echtzeitanwendungen adressiert, bei denen herkömmliche API-Modelle zu inakzeptablen Verzögerungen führen können. Das Modell ist über die API-Infrastruktur von OpenAI verfügbar und richtet sich an Entwickler, die konversationelle Schnittstellen und sprachgesteuerte Anwendungen umsetzen.

GPT-Realtime (August 2025): multimodale Echtzeit-KI für Voice- und Chat-Anwendungen im August-2025-Snapshot.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-realtime-2025-08-28
$4.00 pro 1M Input-Tokens
$16.00 pro 1M Output-Tokens
≈ $0.0056 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$4.00
pro 1M Output-Tokens$16.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$4.00

input / 1M

— no change

$16.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Text- und Audio-Echtzeit-VerarbeitungNiedrige GesprächslatenzFlüssiger KonversationsflussStabiler August-2025-SnapshotMehrsprachige InteraktionOpenAI Realtime API

Schwächen

Kontextgröße nicht dokumentiertNicht für komplexes ReasoningNeuere Snapshots verfügbar
Abschnitt 03

Häufig gestellte Fragen

Er bietet konsistentes, unveränderliches Verhalten für Produktionssysteme, die Realtime-Fähigkeiten benötigen.

Der August-2025-Snapshot dokumentiert OpenAIs reifen Ansatz für Echtzeit-Konversations-KI.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 04

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

2026-05-24

Erster Benchmark etabliert Basisleistung über Kernfähigkeiten hinweg

Das Modell gpt-realtime-2025-08-28 etabliert seine initiale Leistungsbasis durch gemessene Ergebnisse über standardisierte Benchmarks hinweg. Im Bereich mathematisches Denken erreicht das Modell 83,6 % bei GSM8K und 54,6 % bei MATH, was auf solide elementare Problemlösung bei moderater Leistung in der höheren Mathematik hinweist. Die Coding-Fähigkeiten zeigen 81,7 % bei HumanEval und 86,0 % bei MBPP und belegen damit fundierte grundlegende Programmierkenntnisse. Bei MMLU erzielt das Modell 88,4 %, was breites Wissen über akademische Domänen hinweg widerspiegelt. Die Befolgung von Anweisungen erreicht 72,9 % bei IFEval, was auf eine angemessene Einhaltung komplexer Vorgaben mit Verbesserungspotenzial hindeutet. Die GPQA-Leistung liegt bei 49,0 % und zeigt moderate Fähigkeiten im Expertendenken. Kreatives Schreiben erzielt 22,5 bei Arena-Hard, während MGSM für mehrsprachige Mathematik 76,9 % erreicht. Als realtime-fokussiertes Modell legen diese Benchmarks den Grundstein für die Nachverfolgung künftiger Verbesserungen. Nutzer sollten beachten, dass dies den Ausgangspunkt für diese Modellvariante darstellt, mit Leistungsmerkmalen, die konversationelle und interaktive Anwendungen gegenüber reiner Benchmark-Optimierung bevorzugen. Die Ergebnisse weisen auf ein leistungsfähiges Allzweckmodell mit besonderen Stärken im Coding und in grundlegenden Reasoning-Aufgaben hin.

Quality

Latency p50

Test runs

0

Starke Programmierleistung etabliert Solides elementares mathematisches Denken Moderate Fähigkeit in höherer Mathematik Expertenbegründung muss verbessert werden
Abschnitt 06

Vollständiges Modellprofil

gpt-realtime-2025-08-28 — illustration 1
gpt-realtime-2025-08-28: der August-Snapshot von OpenAIs originalem sprach-nativen Modell

Der auf August 2025 datierte Alias von gpt-realtime ist der Snapshot, der das Verhalten der ursprünglichen Veröffentlichung von OpenAIs Flaggschiff-Sprachmodell einfriert. Dies ist die Version, die Sie fixieren sollten, wenn Ihre Produktionspipeline gegen das Launch-Era gpt-realtime kalibriert wurde und Sie noch nicht bereit sind, gegen die späteren 1.5-Gewichte neu zu validieren oder den gleitenden gpt-realtime-Alias zu verfolgen, während dieser weiterentwickelt wird.

Was der Snapshot einfriert

Dieser Snapshot erfasst gpt-realtime so, wie es beim Launch ausgeliefert wurde: die einheitliche Audio-Text-Transformerarchitektur, WebSocket-basierte persistente Streaming-Verbindungen, Funktionsaufrufe und strukturierte Ausgaben, die im Stream verfügbar sind, Sprachaktivitätserkennung für Turn-Taking. Der Funktionsumfang ist exakt das, was die ursprüngliche gpt-realtime-Seite beschreibt, eingefroren bei den August-2025-Gewichten.

Latenz, Stimmcharakter, Turn-Taking-Verhalten, Unterbrechungshandhabung, mehrsprachige Abdeckung. All dies ist auf dem Launch-Era-Verhalten fixiert. Der Nachteil ist, dass Sie nicht von den Verbesserungen profitieren, die OpenAI in nachfolgenden Snapshots ausgeliefert hat, am sichtbarsten das straffere Turn-Taking und die bessere niederländische und polnische Synthese, die in gpt-realtime-1.5 gelandet sind.

Für Workflows, bei denen das ursprüngliche Verhalten das ist, wogegen Ihre Prompts, Ihr Evaluations-Harness und Ihre End-to-End-Tests kalibriert wurden, ist das Fixieren auf diesen Snapshot die richtige Entscheidung. Der datierte Alias ist der Vertrag, der Sie vor stillen Regressionen schützt, wenn OpenAI den gleitenden gpt-realtime-Namen aktualisiert.

Wann die Fixierung auf August sinnvoll ist

Produktionsbereitstellungen, die vor Ende 2025 live gingen und ein stabiles Verhaltensprofil gegen diesen Snapshot haben. Regulierte Workflows, bei denen Reproduzierbarkeit für Audit-Zwecke exakt dasselbe Modellverhalten über einen langen Zeitraum erfordert. Voice-Produkt-QA-Suiten, bei denen das Regressionstestkorpus auf die August-Ausgabeverteilung kalibriert ist und falsche Alarme erzeugen würde, wenn sich das zugrunde liegende Modell verschieben würde.

Für neue Builds und explorative Arbeiten ist dies nicht der richtige Ausgangspunkt. Neue Bereitstellungen sollten auf gpt-realtime-1.5 standardisieren oder den gleitenden gpt-realtime-Namen verfolgen. Der August-Snapshot ist ein Stabilitätsanker für bestehende Produktion, keine zukunftsgerichtete Wahl.

Der Migrationspfad von diesem Snapshot zu 1.5 ist risikoarm. Prompt-Bibliotheken und Konversationsabläufe übertragen sich sauber, weil sich die API-Oberfläche nicht geändert hat. Was sich geändert hat, sind subtile Verhaltensdetails: Turn-Taking-Timing, Unterbrechungshandhabung, mehrsprachige Synthesequalität. Wenn Ihr Test-Harness diese Dimensionen abdeckt, werden Sie die Verbesserungen sehen; wenn nicht, werden Sie möglicherweise keinen Unterschied bemerken, in welchem Fall die Migration im Wesentlichen kostenlos ist.

Wo es im Vergleich zu 1.5 schwächelt

Die sichtbarste Lücke liegt beim Turn-Taking in geräuschvollen Umgebungen. Der August-Snapshot beginnt manchmal eine Antwort ein paar hundert Millisekunden bevor der Benutzer vollständig fertig ist, insbesondere wenn Umgebungsgeräusche eine falsche Sprechende-Erkennung auslösen. Die 1.5-Gewichte handhaben diesen Fall deutlich sauberer.

Die niederländische und polnische Synthesequalität liegt deutlich hinter der 1.5-Veröffentlichung. Wenn Ihre Bereitstellung europäische mehrsprachige Workloads bedient, bei denen diese Sprachen wichtig sind, ist der hörbare Qualitätsunterschied bei der Synthese groß genug, um eine Migration wert zu sein.

Die Unterbrechungshandhabung hat gelegentlich das Problem, dass das Modell noch einen Moment lang weiterspricht, nachdem der Benutzer unterbrochen hat, was zu Überschneidungen führt, die Benutzer bemerken. Die 1.5-Veröffentlichung handhabt dies eleganter.

Keiner dieser Fehler macht den August-Snapshot unbrauchbar. Es sind Qualitätsverfeinerungen und keine grundsätzlichen Grenzen. Wenn Ihre Bereitstellung auf diesem Snapshot ausgereift und stabil ist, lautet die Frage, ob die Verfeinerungen die Revalidierungsarbeit wert sind, nicht ob das August-Verhalten akzeptabel ist.

Praktische Hinweise und Alternativen

Wenn Sie gegen diesen Snapshot in Produktion arbeiten und eine eventuelle Migration planen müssen, besteht der Weg darin, einen parallelen Evaluations-Track gegen gpt-realtime-1.5 einzurichten, Ihr vollständiges Testkorpus auszuführen, die Verhaltensdeltas zu dokumentieren und umzustellen, wenn der Delta-Bericht ein akzeptables Risiko zeigt. Der gleitende gpt-realtime-Zeiger wird sich weiter vorwärtsbewegen, sodass das Fixieren auf August letztendlich bedeutet, auf einem zunehmend alten Modell im Vergleich zum Rest von OpenAIs Stack zu laufen.

Für Budget-Tier-Spracharbeit, bei der Sie nicht die volle Reasoning-Tiefe und Tool-Use-Raffinesse benötigen, sind gpt-realtime-mini und dessen datierte Varianten die Alternativen. Für reine Audio-Mini-Workloads, die die Konversationsschleife nicht benötigen, deckt gpt-audio-mini diesen engeren Einsatzzweck ab.

EU-Datenresidenz wird bei diesem Snapshot standardmäßig nicht mehr erfüllt als bei den neueren. Regionale Gateways mit Datenverarbeitungsvereinbarungen bleiben der praktische Workaround für regulierte europäische Bereitstellungen. Diese Einschränkung ist nicht snapshot-abhängig.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

gpt-realtime-2025-08-28 — illustration 2
Letzter automatisierter Test
31. Mai 2026 · 04:26 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026