
gpt-realtime is het model dat het voice-first productpatroon daadwerkelijk werkbaar maakt op de OpenAI-stack. Het accepteert streaming audio als invoer, retourneert streaming audio als uitvoer, en verwerkt de volledige cyclus van luisteren, redeneren en spreken binnen één enkele verbinding. De architectonische verandering is belangrijker dan het klinkt. Spraakproducten gebouwd op gestapelde Whisper-plus-LLM-plus-TTS pipelines droegen altijd een latentievloer en een prosodieverlies bij elke overdracht. gpt-realtime elimineert beide.
Wat het daadwerkelijk doet
Het model onderhoudt een persistente WebSocket-verbinding. Je client streamt audiofragmenten terwijl de gebruiker spreekt. De server streamt audiofragmenten terug terwijl het model antwoordt. Functieaanroepen, tool-invocaties en gestructureerde outputs zijn allemaal beschikbaar binnen dezelfde verbinding zonder de audioflow te onderbreken. Het mentale model lijkt meer op een telefoongesprek dan op een request-response API.
Beurtneming is de meest gebruiker-zichtbare verbetering. Het model gebruikt spraakactiviteitsdetectie en conversationele signalen om te beslissen wanneer de gebruiker klaar is met spreken. Het onderbreekt elegant wanneer de gebruiker begint te spreken tijdens een respons, houdt het woord vast wanneer het een lang antwoord moet geven, en hervat natuurlijk na een onderbreking. Geen van deze gedragingen klinkt revolutionair opgeschreven. Ze voelen allemaal belangrijk aan wanneer je voor het eerst een spraakproduct bouwt zonder deze functies en ziet hoe gebruikers gefrustreerd raken doordat de bot hun zinnen afkapt.
Het tool-gebruik verhaal is de tweede grote architectonische overwinning. gpt-realtime kan functies aanroepen die gedefinieerd zijn in je applicatie tijdens het gesprek, de resultaten verweven in het gesproken antwoord, en de dialoog voortzetten zonder dat de gebruiker een hapering voelt. Dat maakt het bruikbaar voor echt klantgericht werk waarbij de bot een bestelling moet opzoeken, beschikbaarheid moet controleren, of moet escaleren naar een menselijke overdracht.
Onder de motorkap
OpenAI heeft geen parameteraantallen gepubliceerd. Uit observeerbaar gedrag blijkt dat het model een geünificeerde audio-tekst transformer is met een substantieel parameterbudget, beslist groter dan de mini-varianten. Het contextvenster is groot genoeg om gesprekken met meerdere beurten van betekenisvolle lengte vast te houden zonder de draad kwijt te raken van wat er vroeg in het gesprek is gezegd, hoewel exacte cijfers niet in de publieke documentatie staan.
Meertalige dekking is sterk. Engels, Spaans, Frans, Duits, Italiaans, Portugees, Nederlands, Japans en Mandarijn werken allemaal goed voor synthese en begrip. Code-switching halverwege een zin wordt redelijk verwerkt voor de grote Europese taalparen. Het stemkarakter is consistent over talen heen binnen één stemselectie, wat belangrijk is voor merkgebonden spraakproducten die een coherente persona nodig hebben over meertalige implementaties heen.
Latentie is de krantenkop-metriek. Time-to-first-audio ligt ruim onder wat een gestapelde pipeline kan bereiken, typisch in het bereik van enkele honderden milliseconden vanaf het einde van de spraak van de gebruiker tot de start van modelaudio. Dat plaatst het in het gebied waar conversatie natuurlijk aanvoelt in plaats van schokkerig.
Waar het werkt
Klantenservice spraakagenten die complexe gesprekken met meerdere beurten moeten afhandelen met tool-aanroepen. Telehealth triage en intake-bots. Live vertaaloverlays waarbij het model zowel luistert als spreekt. In-car assistenten voor hands-free interactie met rijke status. Toegankelijkheidstools die complexe applicatiestatus in een conversationele interface wikkelen.
De combinatie van lage latentie, robuust tool-gebruik en natuurlijke beurtneming maakt het de standaardkeuze voor elk spraakproduct waarbij de gebruiker responsiviteit verwacht en het gesprek echte diepgang heeft. Stemklonen is niet beschikbaar. De stemselectie is de gecureerde OpenAI-set, wat de juiste beperking is voor klantgerichte applicaties waar imitatierisico reëel is.
Waar het tekortschiet en wat je verder moet overwegen
Zeer lange gesprekken voorbij ongeveer dertig minuten beginnen contextdrift te vertonen. Voor workflows waarbij het model gestructureerde details van de opening van een uur durend gesprek moet onthouden, moet je periodieke samenvattingsbeurten injecteren of overstappen naar een gestapelde architectuur met een apart lang-context redeneringsmodel.
Als je werkbelasting hoogvolume is en de complexiteit per gesprek bescheiden, dan is gpt-realtime-mini de budgetvariant die dezelfde vorm van werk afhandelt tegen lagere kosten. De afweging is dat mini wat redeneerdepte en tool-gebruik-verfijning inlevert. Voor pure transcriptie of synthese zonder de dialoog-lus dekken gpt-audio-mini en gpt-4o-mini-tts die smallere taken.
De gedateerde snapshots gpt-realtime-2025-08-28 en de nieuwere gpt-realtime-1.5 zijn de versies om vast te pinnen in gereguleerde workflows waar reproduceerbaarheid belangrijk is. De zwevende gpt-realtime naam zal vooruit rollen naar wat OpenAI vervolgens levert, wat prima is voor verkennend werk en risicovol voor productiestabiliteit.
Voor Google-native stacks wordt de dichtstbijzijnde equivalente spraak-conversationele vorm nog niet helemaal gematcht. Google's TTS-modellen zoals gemini-2.5-flash-preview-tts dekken synthese maar niet de geünificeerde conversationele lus. EU data-residency wordt niet standaard voldaan op het OpenAI realtime endpoint. Regionale gateways met gegevensverwerkingsovereenkomsten zijn de praktische oplossing voor gereguleerde Europese implementaties.
Laatste technische review: 2026-05-22 — Tokonomix.ai
