
gpt-4o-realtime-preview is OpenAI's full-tier streaming spraakmodel. Bidirectionele audio via een WebSocket-verbinding. Turn-taking, afhandelingvan onderbrekingen, sub-seconde latentie van einde-gebruikerspraak tot start-van-respons. Het model waarmee je spraakagenten kunt bouwen die aanvoelen als telefoongesprekken in plaats van transcribeer-dan-denk-dan-spreek-relais.
Dit is de full-capability-variant. De mini-realtime-tegenhanger is de kosten-tier-optie voor workloads waar redeneercapaciteit niet de beperkende factor is.
Wat streaming spraak daadwerkelijk vereist
Het bouwen van een spraakagent die niet kapot aanvoelt, vereist meer dan een snelle TTS-engine vastgeplakt aan een snelle STT-engine. De realtime preview wordt geleverd met de dingen die hard-mode spraakwerk nodig heeft:
- Het model begint met verwerken voordat de gebruiker is uitgesproken. Tegen de tijd dat de gebruiker stopt met praten, is de respons al in vorming.
- De gebruiker kan het model halverwege een respons onderbreken en het model gaat daar soepel mee om — het stopt, luistert, verwerkt de nieuwe input, reageert.
- Stilte en back-channel-geluiden ("mm-hmm", korte pauzes) worden gelezen als conversationele signalen in plaats van beurt-grenzen.
- End-to-end latentie van gebruiker-stopt-met-praten tot model-begint-te-spreken ligt ruim onder de drempel waarbij een telefoongesprek vertraagd aanvoelt.
Realtime preview is het architectonische antwoord op die verzameling vereisten. De full-tier-variant heeft de redeneercapaciteit om spraakagenten af te handelen die zorgvuldig moeten nadenken over wat er gezegd werd, niet alleen erop reageren.
Waar de full tier zijn waarde verdient
Workloads waarbij mini-realtime de verkeerde keuze is en de full-tier redeneercapaciteit het onderscheidende element is.
Complexe klantenservice-spraakagenten die multi-step-interacties moeten afhandelen — informatie verzamelen, accountstatus opzoeken, redeneren over randgevallen, reageren met het juiste detailniveau. Mini-realtime kan routeren en classificeren; de full tier kan daadwerkelijk het gesprek voeren.
Spraakgestuurde kennisarbeid waarbij de gebruiker het model vraagt om hardop te denken — diagnostische gesprekken, troubleshooting-walkthroughs, coachingscenario's. De full tier kan context vasthouden over langere beurten en redeneren over ambigue gebruikersuitspraken.
Meertalige spraakagenten waarbij het model halverwege een gesprek van taal moet wisselen en de redeneerkwaliteit moet behouden over de wissel heen. Mini-realtime dekt taalcoverage af; de full tier handelt cross-language redeneerkwaliteit af.
High-stakes spraakinterfaces waarbij outputkwaliteit meer uitmaakt dan kosten per minuut — toegankelijkheidsproducten in kritieke domeinen, professionele consultatie-assistenten, scenario's waarbij een fout antwoord veel duurder is dan het tarief per minuut van een capabeler model.
Architectuurnoten
GPT-4o "omni" familie-architectuur, full-tier sizing, aangesloten via een WebSocket-transport in plaats van de request/response Chat Completions API.
De streaminglaag voegt operationele complexiteit toe:
- Een persistente verbinding per actief gesprek.
- Server-driven event-semantiek met expliciete turn-start-, turn-end-, model-thinking-, audio-flowing-events.
- Een complexer client-integratie-verhaal dan standaard REST.
- Stateful sessiebeheer aan zowel client- als serverzijde.
OpenAI heeft geen full-tier parametertelling gepubliceerd. Waarneembaar gedrag: dezelfde input-audioformaten als mini-realtime, dezelfde vaste preset stemopties, breder effectief redeneerplafond dan de mini-variant.
Waar het tekortschiet
Workloads die daadwerkelijk geen streaming nodig hebben. Gebruik de audio-preview-lijn — die is eenvoudiger te integreren en goedkoper per minuut. Kies realtime voor de streamingvereiste, niet voor het modelfamilie-merk.
Kostengevoelige deployments met hoog volume. De mini-realtime-variant bestaat precies voor gevallen waarbij de full-tier per-minuut-economie het volume niet overleeft.
Zuivere transcriptie. De transcribe-endpoints kosten minder per minuut voor tekst-uit-van-audio-in.
Self-hosted deployment. WebSocket-verbinding naar OpenAI-infrastructuur vereist. Zie /usecases/local voor on-prem-opties.
Production-grade contractstabiliteit. Preview-tagged. Pin de gedateerde snapshot voor gedragsvoorspelbaarheid terwijl de lijn nog in beweging is.
Complexe mobiele clientomgevingen. Het WebSocket-protocol en het stateful event-model voegen engineeringkosten toe waar met name mobiele teams budget voor moeten reserveren.
Wanneer ervoor te kiezen
Kies gpt-4o-realtime-preview wanneer:
- Je een live spraakagent bouwt en de redeneerlast achter de spraak zwaar genoeg is dat mini-realtime de bottleneck zou zijn.
- Het product de operationele complexiteit van WebSocket-integratie kan absorberen.
- Spraakkwaliteit en redeneerkwaliteit samen de per-minuut-economie rechtvaardigen.
Sla het over wanneer:
- De applicatie daadwerkelijk geen streaming nodig heeft — gebruik de audio-preview-lijn.
- Kosten de beperkende factor zijn — gebruik mini-realtime.
- De deployment on-premise moet zijn.
- De workload alleen transcriptie is — gebruik de transcribe-endpoints.
Alternatieven die vergelijking waard zijn
Mini-realtime wanneer kosten meer uitmaken dan redeneercapaciteit. De audio-preview-lijn wanneer streaming niet vereist is. De transcribe- en TTS-endpoints wanneer één richting van de audio-loop de hele taak is. Het bredere voice-model-overzicht op /usecases/voice behandelt concurrerende realtime-vendors.
Deployment-opmerkingen
WebSocket API, materieel verschillend van de rest van de OpenAI-catalogus. Verwacht engineeringinvestering in de client-side state machine, met name voor mobiele en embedded clients.
Facturering per minuut voor audio in en audio uit, plus facturering per token voor het tekstequivalent dat door het model stroomt. Streaming-overhead is ingebouwd in het tarief per minuut. Capaciteitsplanning ligt dichter bij "gelijktijdige actieve gesprekken" dan "requests per seconde."
De pragmatische lezing. Realtime preview is het juiste model wanneer live spraak ertoe doet en redeneercapaciteit ertoe doet. Het is het verkeerde model wanneer streaming daadwerkelijk niet vereist is, of wanneer kosten-tier-passende sizing betekent dat je in plaats daarvan mini-realtime kiest. Test het tegen je echte spraakscenario's op /live-test.
Laatste technische review: 2026-05-22 — Tokonomix.ai

