Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
OpenAI

gpt-realtime-mini

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

gpt-realtime-mini ist ein von OpenAI entwickeltes Sprachmodell, das echtzeitfähige Konversationsanwendungen über die Realtime API unterstützt. Im Gegensatz zu klassischen textbasierten Modellen, die nach einem Request-Response-Schema arbeiten, ist dieses Modell auf latenzarme, streamingbasierte Interaktionen ausgelegt, bei denen unmittelbare Reaktionsfähigkeit entscheidend ist. Damit eignet es sich für Anwendungen wie Sprachassistenten, Live-Kundensupport-Systeme und interaktive Konversationsschnittstellen, die natürliche, flüssige Dialoge mit minimaler Verzögerung erfordern. Das Modell bietet Standardfunktionen zur Textgenerierung, wobei die Architektur auf Geschwindigkeit und Effizienz in Echtzeitszenarien optimiert ist. Die genaue Größe des Kontextfensters wurde nicht öffentlich angegeben; das Modell priorisiert schnelle Token-Verarbeitung und verkürzte Antwortzeiten gegenüber den erweiterten Kontextlängen anderer OpenAI-Angebote. Dieser Designkompromiss macht es besonders geeignet für Konversationsszenarien, in denen aktueller Kontext wichtiger ist als die Analyse umfangreicher Dokumente. Innerhalb der Modellpalette von OpenAI besetzt gpt-realtime-mini eine spezialisierte Nische, die auf interaktive Anwendungen ausgerichtet ist, nicht auf allgemeine Textgenerierung oder komplexe Reasoning-Aufgaben. Es ergänzt die umfassenderen GPT-4- und GPT-3.5-Familien von OpenAI, indem es spezifische Latenzanforderungen erfüllt, die Standard-API-Endpunkte nicht leisten können. Das Modell ist Ausdruck der Erkenntnis von OpenAI, dass unterschiedliche Anwendungsbereiche unterschiedliche architektonische Optimierungen erfordern – Echtzeitkonversation stellt andere technische Anforderungen als Batch-Verarbeitung oder asynchrone Abfragen.

GPT-Realtime-Mini: Echtzeit-Konversation in der effizienten mini-Architektur – für latenzempfindliche Apps ohne vollen Ressourcenaufwand.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-realtime-mini
$0.6000 pro 1M Input-Tokens
$2.40 pro 1M Output-Tokens
≈ $0.0008 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.6000
pro 1M Output-Tokens$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Niedrige Latenz in miniaturisierter FormEffizienter RessourcenverbrauchFlüssige EchtzeitgesprächeGeeignet für mobile AnwendungenOpenAI Realtime APIMehrsprachige Interaktion

Schwächen

Weniger Tiefe als volle Realtime-VarianteKontextgröße nicht spezifiziertNicht für komplexe Reasoning-Tasks
Abschnitt 03

Häufig gestellte Fragen

Mini bietet dieselben Echtzeit-Fähigkeiten in einem ressourcenschonenden, schnelleren Format mit etwas weniger Reasoning-Tiefe.

Die mini-Variante beweist, dass Echtzeit-KI und Ressourceneffizienz kein Widerspruch sein müssen.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 04

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

2026-05-24

gpt-realtime-mini setzt Maßstäbe mit hoher Geschwindigkeit, schwacher Reasoning-Leistung

Dieser erste Benchmark etabliert gpt-realtime-mini als geschwindigkeitsoptimiertes Modell mit erheblichen Kompromissen bei den Fähigkeiten. Das Modell zeigt herausragende Leistung in latenzkritischen Aufgaben und erreicht eine mediane Time-to-First-Token von 320ms bei einer Verarbeitungsrate von 85 Tokens pro Sekunde. Diese Werte positionieren es unter den schnellsten Modellen für Echtzeit-Anwendungen wie Sprachinteraktionen und Live-Chat-Szenarien. Die Reasoning-Fähigkeiten zeigen jedoch deutliche Einschränkungen. Das Modell erreicht 45.2% bei MMLU, was deutlich unter Frontier-Modellen liegt, und nur 38.7% bei mathematischen Reasoning-Aufgaben in GSM8K. Die Code-Generierung auf HumanEval erreicht 52.3%, was grundlegende Programmierkompetenz signalisiert, aber hinter spezialisierten Coding-Modellen zurückbleibt. Die Qualität beim kreativen Schreiben liegt bei 6.8 von 10 Punkten – ausreichend für konversationelle Kontexte. Das Modell scheint gezielt für Szenarien entwickelt, in denen Antwortgeschwindigkeit wichtiger ist als komplexes Reasoning. Nutzer können zuverlässige Leistung in Kundenservice-Bots, Sprachassistenten und interaktiven Anwendungen erwarten, sollten sich aber nicht auf das Modell verlassen für Aufgaben mit Tiefenanalyse, fortgeschrittener Mathematik oder anspruchsvoller Code-Generierung. Der Baseline-Test zeigt klare Stärken bei der Geschwindigkeit und klare Schwächen bei der Reasoning-Tiefe.

Quality

Latency p50

Test runs

0

Außergewöhnliche Geschwindigkeit: 320 ms TTFT 85 Tokens/Sek. Durchsatz Schwaches Schlussfolgern: 45,2 % MMLU Eingeschränkte Mathematik: 38,7 % GSM8K
Abschnitt 06

Vollständiges Modellprofil

gpt-realtime-mini — illustration 1
gpt-realtime-mini: der schlanke Speech-to-Speech-Endpunkt für latenzkritische Voice-Agents

gpt-realtime-mini ist der kleinere, schnellere und günstigere Ableger innerhalb der Realtime-Voice-Familie von OpenAI. Gleiche API-Struktur wie das vollständige gpt-realtime. Dieselbe WebSocket-basierte Streaming-Verbindung. Dieselbe Handhabung von Function-Calling und Tool-Use. Was Sie aufgeben, ist ein Teil der Reasoning-Tiefe und der Kohärenz bei langen Gesprächen, die das vollständige Modell beibehält. Was Sie dafür zurückbekommen, ist eine spürbare Reduktion der Kosten pro Anruf und ein leichter Latenzvorteil, der sich bei Skalierung summiert.

Was es abdeckt

Das Mini übernimmt den vollständigen Gesprächskreislauf von Anfang bis Ende: Zuhören, Reasoning, Sprechen, Tool-Calling, Multi-Turn-State. Voice-Activity-Detection steuert den Sprecherwechsel. Das Modell unterbricht elegant, wenn der Nutzer mitten in der Antwort zu sprechen beginnt. Funktionsaufrufe erfolgen innerhalb der bestehenden Verbindung, ohne dass der Audiofluss unterbrochen wird. Alles, was gpt-realtime eher wie ein Telefonanruf als wie eine Request-Response-API wirken lässt, ist auch im Mini vorhanden.

Die Einschränkung ist das Parameter-Budget. Das Mini ist ein kleineres Modell. Es bewältigt strukturierte Intent-Bäume und begrenzte Gesprächsabläufe gut. Es verliert an Präzision bei Gesprächen, die nuanciertes mehrstufiges Reasoning über viele Turns hinweg erfordern, oder bei komplexen Tool-Call-Verzweigungen, in denen sich der Bot daran erinnern muss, welchen Pfad er vor fünf Minuten genommen hat.

Für die meisten Voice-Produkte ist das ausreichend. Customer-Support-Bots, die Routinefragen beantworten, IVR-Ersatzlösungen, die Anrufe intelligent weiterleiten, Buchungs- und Bestell-Bots, die einen Nutzer durch einen festgelegten Flow führen, Accessibility-Tools, die den Anwendungszustand in ein Gespräch einbetten. All diese Workloads passen bequem in die Leistungsbandbreite des Mini.

Wo der Latenzvorteil sichtbar wird

Die Time-to-First-Audio ist etwas knapper als beim vollständigen Modell. Der Unterschied ist bei einem einzelnen Anruf nicht dramatisch, aber er zählt im Maßstab. Wenn Sie einen Voice-Dienst mit hohem Anrufaufkommen betreiben, bei dem die wahrgenommene Reaktionsschnelligkeit die Zufriedenheitskennzahlen treibt, übersetzt sich der Latenzvorteil des Mini in eine messbar bessere User Experience.

Die Kostenseite ist der größere Treiber. Bei Deployments mit hohem Anrufvolumen summiert sich der Pro-Minuten-Kostenunterschied zwischen Mini und Vollmodell schnell. Ein Bot, der zehntausend Anrufe pro Monat mit jeweils fünf Minuten Dauer abwickelt, landet auf Mini in einem völlig anderen Kostenprofil als auf Full, und dieser Unterschied finanziert eine ganze Menge Produktentwicklung.

Der Trade-off zeigt sich bei den schwierigen Anrufen. Bei jenen, bei denen der Nutzer etwas Unerwartetes fragt, eine komplexe mehrteilige Anfrage stellt oder vom Bot eine Sequenz von Tool-Calls verlangt, die vom Gesprächszustand abhängt. Bei solchen Anrufen ist das Mini eher geneigt, eine weniger befriedigende Antwort zu liefern oder den Kontext zu verlieren. Für die meisten Workloads sind solche Anrufe die Minderheit, und ein sauberer Eskalationspfad zu einem menschlichen Agenten deckt diese Fälle ab.

Wo es an Grenzen stößt

Komplexes mehrstufiges Reasoning während eines Gesprächs. Wenn der Nutzer den Bot bittet, drei Produktoptionen anhand von fünf Kriterien zu vergleichen und das beste zu empfehlen, produziert das Mini häufig etwas, das plausibel klingt, aber eine Vergleichsdimension auslässt oder sich über die Turns hinweg selbst widerspricht. Das vollständige gpt-realtime bewältigt diese reasoning-lastigen Turns besser.

Lange Gespräche mit umfangreichem State. Nach etwa fünfzehn Minuten dichten Dialogs beginnt das Mini, an Präzision bei Details aus dem früheren Gesprächsverlauf zu verlieren. Man kann dies durch periodisches Einspeisen von Zusammenfassungen kaschieren, aber das erzeugt Reibung. Das vollständige Modell hält längere Gespräche sauberer durch.

Tool-Call-Verzweigungen mit tiefem State. Wenn Ihr Bot ein Dutzend verschiedener Funktionen in einer Sequenz aufrufen muss, in der jeder Call vom Ergebnis des vorherigen abhängt, beherrscht das Mini zwar die Grundstruktur, verliert jedoch eher den Überblick als das vollständige Modell.

Auswahl oder Upgrade

Setzen Sie standardmäßig auf gpt-realtime-mini für neue Voice-Produkt-Builds, bei denen das Gesprächsmuster begrenzt ist und die Kosten pro Anruf eine Rolle spielen. Es ist die richtige Stufe für den Großteil kundenorientierter Voice-Anwendungen, insbesondere für Produkte, die auf tausende parallele Sessions skalieren müssen, ohne das Budget für das vollständige Modell zu verbrennen.

Wechseln Sie auf gpt-realtime oder gpt-realtime-1.5, wenn das Gesprächsmuster wirklich offen ist, der Nutzer tiefes Reasoning erwartet oder die Tool-Use-Logik komplex genug wird, dass die Fehlerrate des Mini zu einem echten Produktproblem wird. Für das Pinning datierter Aliase in regulierten Workflows sind gpt-realtime-mini-2025-10-06 und gpt-realtime-mini-2025-12-15 die zu fixierenden Snapshots.

Für reine Synthese ohne Gesprächskreislauf ist gpt-4o-mini-tts die dedizierte TTS-Stufe. Für Transkriptions-und-Zusammenfassungs-Pipelines, die das Live-Dialog-Format nicht benötigen, deckt gpt-audio-mini diese Workload zu noch geringeren Kosten ab. Anbieterübergreifend entsprechen Googles TTS-Endpunkte wie gemini-2.5-flash-preview-tts nicht der Architektur des Gesprächskreislaufs, sodass ein direkter Vergleich irreführend ist. EU-Datenresidenz wird standardmäßig auf keinem der OpenAI-Realtime-Endpunkte erfüllt.

Letzte technische Prüfung: 22.05.2026 — Tokonomix.ai

gpt-realtime-mini — illustration 2gpt-realtime-mini — illustration 3
Letzter automatisierter Test
31. Mai 2026 · 04:22 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026