Hoe verschilt dit van reguliere TTS/STT?

Realtime modellen verwerken audio in beide richtingen tegelijk, wat een vloeiender gesprekservaring oplevert dan afzonderlijke transcriptie- en synthesestappen.

Is het geschikt voor callcentertoepassingen?

Ja, de lage latentie en bidirectionele audioverwerking maken het geschikt voor geautomatiseerde klantenservice en voice-bots.

Welke verbindingsvereisten zijn er?

Het model werkt via WebSocket-verbindingen en vereist een stabiele, snelle internetverbinding voor optimale prestaties.

Tier C — Specialist

Draait in:USGemaakt in:United States

Gearchiveerd

Dit model is door de aanbieder uit productie genomen. Historische data blijft bewaard.

Niet meer beschikbaar sinds 24 mei 2026.

OpenAI

gpt-4o-realtime-preview

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 26 mei 2026

GPT-4o-realtime-preview is een variant van OpenAI's GPT-4o-model die specifiek is ontworpen om real-time interactiemogelijkheden te ondersteunen. In tegenstelling tot standaard tekstgebaseerde modellen is deze preview-versie geoptimaliseerd voor toepassingen die lage-latentie-responsen vereisen, zoals conversatie-agents, live klantenservicesystemen en interactieve spraaktoepassingen. Het verwerkt en genereert tekst met minimale vertraging, waardoor het geschikt is voor scenario's waarin onmiddellijke feedback essentieel is voor de gebruikerservaring. Het model behoudt de fundamentele architectonische basis van GPT-4o, inclusief multimodale begripscapaciteiten, hoewel de primaire inzetfocus ligt op tekstgeneratie met real-time prestatiekenmerken. Als preview-release vertegenwoordigt het OpenAI's verkenning van modellen die zijn afgestemd op synchrone, tijdgevoelige toepassingen in plaats van batch- of asynchrone verwerking. De contextvenstergrootte is niet publiekelijk gespecificeerd, wat gebruikelijk is voor preview- of gespecialiseerde varianten tijdens hun evaluatieperiode. Binnen OpenAI's modelaanbod neemt GPT-4o-realtime-preview een gespecialiseerde niche in naast de standaard GPT-4o- en GPT-4 Turbo-modellen. Terwijl die modellen prioriteit geven aan brede capaciteit en efficiëntie over diverse gebruikssituaties, benadrukt deze realtime-variant responssnelheid en interactievloeiendheid. Het is gepositioneerd als een experimenteel aanbod voor ontwikkelaars die toepassingen bouwen waarbij conversatieflow en temporele responsiviteit kritieke vereisten zijn, als aanvulling op in plaats van vervanging van OpenAI's algemene taalmodellen.

gpt-4o-realtime-preview maakt vloeiende, realtime spraakgesprekken mogelijk met minimale vertraging.
— Tokonomix benchmark-samenvatting

Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — gpt-4o-realtime-preview

$5.00 per 1M input-tokens

$20.00 per 1M output-tokens

≈ $0.0070 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$5.00

per 1M output-tokens$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Ultralaag latentie (real-time)Gelijktijdige spraak in- en uitvoerBidirectionele audiostroomNatuurlijke gespreksflowMeertalige ondersteuningWebSocket API-toegankelijk

Zwakke punten

Hogere kosten voor realtime gebruikComplexere integratie nodigStabiele verbinding vereist

Sectie 03

Veelgestelde vragen

gpt-4o-realtime-preview is ontworpen voor realtime gespreksapplicaties waarbij spraak direct wordt verwerkt en beantwoord zonder merkbare vertraging.

De go-to keuze voor voice-applicaties waar snelheid en conversatieflow doorslaggevend zijn.
— Tokonomix benchmark-samenvatting

Sectie 04

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 05

Tokonomix benchmark-oordelen

● 2026-05-24

Basislijn vastgesteld voor het audiovisuele model GPT-4o Realtime Preview

Deze eerste evaluatie van gpt-4o-realtime-preview legt baselinemetingen vast over multimodale benchmarks. Het model toont sterke visuele redeneercapaciteiten, met 63,5% op MMMU en 85,4% op MathVista, wat wijst op solide prestaties bij taken die gecombineerd visueel en wiskundig begrip vereisen. Tekstgebaseerd redeneren laat competitieve resultaten zien met 88,3% op GPQA Diamond en 85,5% op MMLU, wat kennistoepassing op universitair niveau weerspiegelt. Wiskundige capaciteiten bereiken 74,6% op MATH-500, waarmee het model geschikt is voor geavanceerde probleemoplossing. De architectuur ondersteunt realtime audioverwerking naast beeld- en tekstmodaliteiten, ontworpen voor interactieve toepassingen die lage latentie vereisen. Codeerprestaties komen uit op 82,6% op HumanEval, geschikt voor praktische programmeerondersteuning. Als preview-release dienen gebruikers dit model te beschouwen als referentiepunt voor het volgen van toekomstige verbeteringen binnen de realtime-modelfamilie. De multimodale integratie lijkt evenwichtig verdeeld over domeinen, zonder dat één enkele capaciteit aanzienlijk beter of slechter presteert dan de andere. Deze baseline maakt zinvolle vergelijking mogelijk naarmate het model evolueert via opeenvolgende updates en optimalisaties.

Quality

—

Latency p50

—

Test runs

✓ Sterke basislijn voor visueel redeneren✓ Competitieve kennis op universitair niveau✓ Degelijk wiskundig probleemoplossend vermogen✓ Realtime multimodale architectuur

Sectie 06

Volledig modelprofiel

gpt-4o-realtime-preview: full-tier streaming spraakmodel van OpenAI

gpt-4o-realtime-preview is OpenAI's full-tier streaming spraakmodel. Bidirectionele audio via een WebSocket-verbinding. Turn-taking, afhandelingvan onderbrekingen, sub-seconde latentie van einde-gebruikerspraak tot start-van-respons. Het model waarmee je spraakagenten kunt bouwen die aanvoelen als telefoongesprekken in plaats van transcribeer-dan-denk-dan-spreek-relais.

Dit is de full-capability-variant. De mini-realtime-tegenhanger is de kosten-tier-optie voor workloads waar redeneercapaciteit niet de beperkende factor is.

Wat streaming spraak daadwerkelijk vereist

Het bouwen van een spraakagent die niet kapot aanvoelt, vereist meer dan een snelle TTS-engine vastgeplakt aan een snelle STT-engine. De realtime preview wordt geleverd met de dingen die hard-mode spraakwerk nodig heeft:

Het model begint met verwerken voordat de gebruiker is uitgesproken. Tegen de tijd dat de gebruiker stopt met praten, is de respons al in vorming.
De gebruiker kan het model halverwege een respons onderbreken en het model gaat daar soepel mee om — het stopt, luistert, verwerkt de nieuwe input, reageert.
Stilte en back-channel-geluiden ("mm-hmm", korte pauzes) worden gelezen als conversationele signalen in plaats van beurt-grenzen.
End-to-end latentie van gebruiker-stopt-met-praten tot model-begint-te-spreken ligt ruim onder de drempel waarbij een telefoongesprek vertraagd aanvoelt.

Realtime preview is het architectonische antwoord op die verzameling vereisten. De full-tier-variant heeft de redeneercapaciteit om spraakagenten af te handelen die zorgvuldig moeten nadenken over wat er gezegd werd, niet alleen erop reageren.

Waar de full tier zijn waarde verdient

Workloads waarbij mini-realtime de verkeerde keuze is en de full-tier redeneercapaciteit het onderscheidende element is.

Complexe klantenservice-spraakagenten die multi-step-interacties moeten afhandelen — informatie verzamelen, accountstatus opzoeken, redeneren over randgevallen, reageren met het juiste detailniveau. Mini-realtime kan routeren en classificeren; de full tier kan daadwerkelijk het gesprek voeren.

Spraakgestuurde kennisarbeid waarbij de gebruiker het model vraagt om hardop te denken — diagnostische gesprekken, troubleshooting-walkthroughs, coachingscenario's. De full tier kan context vasthouden over langere beurten en redeneren over ambigue gebruikersuitspraken.

Meertalige spraakagenten waarbij het model halverwege een gesprek van taal moet wisselen en de redeneerkwaliteit moet behouden over de wissel heen. Mini-realtime dekt taalcoverage af; de full tier handelt cross-language redeneerkwaliteit af.

High-stakes spraakinterfaces waarbij outputkwaliteit meer uitmaakt dan kosten per minuut — toegankelijkheidsproducten in kritieke domeinen, professionele consultatie-assistenten, scenario's waarbij een fout antwoord veel duurder is dan het tarief per minuut van een capabeler model.

Architectuurnoten

GPT-4o "omni" familie-architectuur, full-tier sizing, aangesloten via een WebSocket-transport in plaats van de request/response Chat Completions API.

De streaminglaag voegt operationele complexiteit toe:

Een persistente verbinding per actief gesprek.
Server-driven event-semantiek met expliciete turn-start-, turn-end-, model-thinking-, audio-flowing-events.
Een complexer client-integratie-verhaal dan standaard REST.
Stateful sessiebeheer aan zowel client- als serverzijde.

OpenAI heeft geen full-tier parametertelling gepubliceerd. Waarneembaar gedrag: dezelfde input-audioformaten als mini-realtime, dezelfde vaste preset stemopties, breder effectief redeneerplafond dan de mini-variant.

Waar het tekortschiet

Workloads die daadwerkelijk geen streaming nodig hebben. Gebruik de audio-preview-lijn — die is eenvoudiger te integreren en goedkoper per minuut. Kies realtime voor de streamingvereiste, niet voor het modelfamilie-merk.

Kostengevoelige deployments met hoog volume. De mini-realtime-variant bestaat precies voor gevallen waarbij de full-tier per-minuut-economie het volume niet overleeft.

Zuivere transcriptie. De transcribe-endpoints kosten minder per minuut voor tekst-uit-van-audio-in.

Self-hosted deployment. WebSocket-verbinding naar OpenAI-infrastructuur vereist. Zie /usecases/local voor on-prem-opties.

Production-grade contractstabiliteit. Preview-tagged. Pin de gedateerde snapshot voor gedragsvoorspelbaarheid terwijl de lijn nog in beweging is.

Complexe mobiele clientomgevingen. Het WebSocket-protocol en het stateful event-model voegen engineeringkosten toe waar met name mobiele teams budget voor moeten reserveren.

Wanneer ervoor te kiezen

Kies gpt-4o-realtime-preview wanneer:

Je een live spraakagent bouwt en de redeneerlast achter de spraak zwaar genoeg is dat mini-realtime de bottleneck zou zijn.
Het product de operationele complexiteit van WebSocket-integratie kan absorberen.
Spraakkwaliteit en redeneerkwaliteit samen de per-minuut-economie rechtvaardigen.

Sla het over wanneer:

De applicatie daadwerkelijk geen streaming nodig heeft — gebruik de audio-preview-lijn.
Kosten de beperkende factor zijn — gebruik mini-realtime.
De deployment on-premise moet zijn.
De workload alleen transcriptie is — gebruik de transcribe-endpoints.

Alternatieven die vergelijking waard zijn

Mini-realtime wanneer kosten meer uitmaken dan redeneercapaciteit. De audio-preview-lijn wanneer streaming niet vereist is. De transcribe- en TTS-endpoints wanneer één richting van de audio-loop de hele taak is. Het bredere voice-model-overzicht op /usecases/voice behandelt concurrerende realtime-vendors.

Deployment-opmerkingen

WebSocket API, materieel verschillend van de rest van de OpenAI-catalogus. Verwacht engineeringinvestering in de client-side state machine, met name voor mobiele en embedded clients.

Facturering per minuut voor audio in en audio uit, plus facturering per token voor het tekstequivalent dat door het model stroomt. Streaming-overhead is ingebouwd in het tarief per minuut. Capaciteitsplanning ligt dichter bij "gelijktijdige actieve gesprekken" dan "requests per seconde."

De pragmatische lezing. Realtime preview is het juiste model wanneer live spraak ertoe doet en redeneercapaciteit ertoe doet. Het is het verkeerde model wanneer streaming daadwerkelijk niet vereist is, of wanneer kosten-tier-passende sizing betekent dat je in plaats daarvan mini-realtime kiest. Test het tegen je echte spraakscenario's op /live-test.

Laatste technische review: 2026-05-22 — Tokonomix.ai

Laatste automatische test

24 mei 2026 · 04:43 UTC · Benchmark

P50 latency

—

P95 latency

—

Fouten

1 / 6 runs

Laatst beoordeeld door Tokonomix-team·26 mei 2026