
gpt-4o-mini-realtime-preview is OpenAI's compacte streaming-spraakmodel. Bidirectionele audio via een WebSocket-verbinding. Beurtwisseling, onderbrekingsverwerking en lage-latentierespons — de elementen die een spraakagent laten aanvoelen als een telefoongesprek in plaats van een transcribeer-dan-denk-dan-spreek-schakel.
Dit is het realtime-broertje van de mini-audio-preview. Hetzelfde capaciteitsprofiel van de kleine klasse, andere transportlaag. Als je live conversationele spraak nodig hebt en het budget niet toereikend is voor de volledige realtime-preview, is dit het model.
Waarom streaming-spraak een eigen model is
Request/response-audio (de audio-preview-endpoints) wacht tot de gebruiker klaar is met spreken, verwerkt de volledige clip en retourneert een compleet antwoord. Dat werkt voor spraaknotities, toegankelijkheidsvoorlezers en stapsgewijze assistenten waar een halve seconde pauze tussen gebruiker en model acceptabel is.
Het werkt niet voor telefoongesprekken. Echte conversatie vereist:
- Het model begint te denken voordat de gebruiker klaar is met spreken.
- De gebruiker kan het model halverwege een antwoord onderbreken en het model handelt dit op elegante wijze af.
- Stiltes en back-channel-geluiden ("mm-hmm", korte pauzes) worden gelezen als signalen, niet als beurtgrenzen.
- Totale latentie van gebruiker-stopt-met-praten tot model-begint-te-antwoorden ligt onder de drempel waarbij het gesprek gebroken aanvoelt.
De realtime-preview-lijn is OpenAI's antwoord op die set van randvoorwaarden. Mini-realtime is de compacte variant voor kostengevoelige implementaties.
Waar mini-realtime zinvol is
Spraakagenten op volume waar de economie per minuut van de volledige realtime-preview niet past. IVR-vervangingen. Spraak-eerst-toegangspunten voor klantenservice. Toegankelijkheidstools die conversationele interactie nodig hebben in plaats van voorlezing.
De mini-distillatie geeft redeneercapaciteit op. Voor spraakagenten die routeren, classificeren, informatie verzamelen en reageren — de dagelijkse basis van zakelijke spraakverwerking — is de capaciteit niet de beperkende factor. De beperkende factoren zijn latentie, kwaliteit van beurtwisseling en prosodie. Mini-realtime is competitief op alle drie tegen kosten die daadwerkelijke schaalbare implementatie mogelijk maken.
Architectuurnotities
GPT-4o "omni"-familie-architectuur, gedistilleerd tot de mini-grootteklasse, aangesloten via streaming-WebSocket-transport in plaats van de request/response Chat Completions API.
De streaming-laag voegt toe:
- Een persistente verbinding per actief gesprek in plaats van per request.
- Server-gestuurde event-semantiek — de API vertelt je wanneer een beurt begon, wanneer het model begon te denken, wanneer audio terug begon te stromen, wanneer de gebruiker onderbrak.
- Een complexer client-integratieverhaal dan standaard REST.
OpenAI heeft geen mini-parameteraantallen gepubliceerd. Waarneembaar gedrag: dezelfde invoer-audio-formaten als het request/response-broertje, dezelfde vaste vooraf ingestelde stemopties, vergelijkbare taaldekking met randgeval-degradatie bij talen met minder bronnen.
Waar het tekortschiet
Zwaar redeneren tijdens een gesprek. Mini is het kleine model. Als de spraakagent meerstaps-redeneren tussen gebruikersbeurten moet ketenen, escaleer dan naar de volledige realtime-preview.
Workloads die niet daadwerkelijk streaming nodig hebben. Als je spraakproduct request/response-latentie kan tolereren, is de audio-preview-lijn eenvoudiger te integreren en goedkoper per minuut. De realtime-tier moet gekozen worden vanwege de streaming-vereiste, niet vanwege de modelfamilie.
Productiewaardige contractstabiliteit. Preview-getagd. Pin aan de gedateerde snapshot-variant voor gedragsvoorspelbaarheid.
Self-hosted of air-gapped implementatie. De realtime-API vereist een live WebSocket-verbinding naar OpenAI's infrastructuur. Voor spraakworkloads die een gecontroleerd netwerk niet kunnen verlaten, is het /usecases/local-overzicht de juiste referentie.
Complexe clientomgevingen. Het WebSocket-protocol en event-model voegen operationele complexiteit toe die REST niet heeft. Mobiele clients in het bijzonder hebben zorgvuldig status-management nodig.
Wanneer ervoor te kiezen
Kies gpt-4o-mini-realtime-preview wanneer:
- Je een live spraakagent bouwt en het kostenprofiel van de volledige realtime-preview niet werkt bij je verwachte volume.
- De redeneerbelasting achter de spraak licht is — routering, classificatie, informatieverzameling, conversationele ondersteuning.
- Je de operationele complexiteit van een WebSocket-gebaseerde integratie kunt absorberen.
Sla het over wanneer:
- De applicatie niet daadwerkelijk streaming-spraak nodig heeft — gebruik in plaats daarvan de audio-preview-broertjes.
- De redeneerbelasting zwaar genoeg is dat mini's outputkwaliteit het knelpunt wordt — escaleer naar de volledige realtime-preview.
- De implementatie on-premise moet zijn.
- Je alleen transcriptie of alleen tekst-naar-spraak nodig hebt — de gespecialiseerde endpoints kosten minder en integreren eenvoudiger.
Alternatieven om te bekijken
De volledige gpt-4o-realtime-preview wanneer redeneren belangrijker is dan kosten. De audio-preview-lijn wanneer je niet daadwerkelijk streaming nodig hebt. De transcriptie- en TTS-endpoints wanneer één richting van de audiolus de hele taak is. Het bredere spraakmodelonderzoek op /usecases/voice behandelt concurrerende leveranciers op dit niveau.
Implementatienotities
WebSocket-API in plaats van REST. Het integratiemodel is wezenlijk anders dan de rest van de OpenAI-catalogus — verwacht dat je engineeringtijd investeert in de client-side-status-machine.
Sessie-niveau-prijsstelling: per minuut audio plus per token voor het tekstequivalent dat door het model stroomt. De streaming-overhead is reëel en verschijnt in de economie per minuut. Capaciteitsplanning ligt dichter bij "concurrent actieve gesprekken" dan "requests per seconde."
De pragmatische lezing. Mini-realtime is het juiste model wanneer live spraak belangrijk is en kosten belangrijk zijn. Het is het verkeerde model wanneer streaming niet daadwerkelijk vereist is, of wanneer de spraakagent redeneren nodig heeft dat alleen de volledige realtime-preview levert. Test het tegen je echte spraakverkeer op /live-test.
Laatste technische review: 2026-05-22 — Tokonomix.ai

