Kan ik dit model inzetten in productieomgevingen?

De 'preview' aanduiding geeft aan dat het een experimentele versie betreft. Voor kritische productieworkloads is voorzichtigheid geboden, omdat OpenAI wijzigingen of deprecatie kan doorvoeren zonder lange overgangsperiode.

Welke modaliteiten ondersteunt het model?

Het model verwerkt zowel tekst- als audio-input en kan beide formaten als output leveren, waardoor volledige spraak-naar-spraak interacties mogelijk zijn zonder aparte STT- of TTS-pipeline.

Hoe verhoudt dit zich tot reguliere GPT-4o?

Waar standaard GPT-4o een breed inzetbaar multimodaal model is, richt deze realtime-variant zich specifiek op streaming-interacties via een WebSocket-gebaseerde API met minimale vertraging.

Welke integratie-aandachtspunten zijn er voor engineers?

Realtime-sessies vereisen persistent WebSocket-beheer, audiobuffering en correcte afhandeling van interrupties. Houd ook rekening met aparte tariefstructuren voor audio- en tekstttokens binnen één sessie.

Draait in:USGemaakt in:United States

Gearchiveerd

Dit model is door de aanbieder uit productie genomen. Historische data blijft bewaard.

Niet meer beschikbaar sinds 24 mei 2026.

OpenAI

gpt-4o-realtime-preview-2025-06-03

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 26 mei 2026

GPT-4o-realtime-preview-2025-06-03 is een multimodaal taalmodel ontwikkeld door OpenAI, specifiek ontworpen voor realtime conversatietoepassingen. Dit model breidt de mogelijkheden van de GPT-4o-serie uit door te optimaliseren voor interacties met lage latentie, waardoor het bijzonder geschikt is voor spraakassistenten, live chatsystemen en interactieve toepassingen waar snelle responstijden cruciaal zijn. Het ondersteunt zowel tekst- als audio-invoer en -uitvoer, wat meer natuurlijke en vloeiende gespreksinteracties mogelijk maakt vergeleken met traditionele modellen die alleen tekst verwerken. Het model bouwt voort op de GPT-4o-architectuur van OpenAI, die beeld-, audio- en tekstverwerking integreert in één uniform framework. De aanduiding "realtime-preview" geeft aan dat dit een experimentele versie is die bedoeld is om lopende ontwikkelingen in streaming en interactieve AI-mogelijkheden te demonstreren. Hoewel de precieze grootte van het contextvenster niet publiekelijk is gespecificeerd, behoudt het model standaard tekstgeneratiecapaciteiten naast zijn realtime-functies, waardoor het complexe redeneertaken, contentcreatie en gesprekken met meerdere beurten kan verwerken met contextueel bewustzijn. Binnen de modelreeks van OpenAI neemt GPT-4o-realtime-preview-2025-06-03 een gespecialiseerde niche in die zich richt op latentiegevoelige toepassingen in plaats van te fungeren als algemene vervanging voor andere GPT-4-varianten. Het vertegenwoordigt OpenAI's verkenning van responsievere AI-systemen die synchrone, bidirectionele communicatiekanalen kunnen ondersteunen. De preview-status suggereert dat het model actief wordt verfijnd, met mogelijke aanpassingen aan prestatiekenmerken en mogelijkheden terwijl OpenAI gebruiksdata en feedback verzamelt van ontwikkelaars die aan realtime AI-toepassingen werken.

Een gespecialiseerde variant binnen de GPT-4o-familie die zich volledig richt op realtime spraak- en tekstinteractie met minimale latentie.
— Tokonomix redactionele samenvatting

Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — gpt-4o-realtime-preview-2025-06-03

$5.00 per 1M input-tokens

$20.00 per 1M output-tokens

≈ $0.0070 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$5.00

per 1M output-tokens$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Zeer lage latentie bij interactieNative audio-input en -outputBidirectionele streaming ondersteuningNatuurlijke conversatieflowBehoudt GPT-4o redeneervermogenSterke meertalige spraakherkenningGeschikt voor multi-turn dialogenFunction calling tijdens gesprek

Zwakke punten

Preview-status zonder SLA-garantiesHogere kosten voor audiotokensOnbekende kennisafkapdatumContextvenster niet publiek gespecificeerd

Sectie 03

Veelgestelde vragen

Het is geoptimaliseerd voor realtime spraak- en tekstinteracties met lage latentie, zoals voice assistants, live klantondersteuning en interactieve applicaties waarbij directe respons cruciaal is.

Een sterke keuze voor teams die bidirectionele audio-interfaces bouwen, mits ze de preview-status en bijbehorende beperkingen accepteren. Voor klassieke batch- of tekstverwerking blijven andere GPT-4o-varianten geschikter.
— Tokonomix eindoordeel

Sectie 04

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 05

Tokonomix benchmark-oordelen

● 2026-05-24

Baseline vastgesteld voor GPT-4o Realtime Preview audiomodel

Deze eerste benchmark legt prestatie-uitgangspunten vast voor OpenAI's GPT-4o Realtime Preview, een model ontworpen voor audio- en tekstinteracties met lage latentie. Het model toont sterke capaciteiten in standaard taaltaken, met 83,2% op MMLU en 88,4% op GPQA Diamond, wat duidt op degelijk redeneervermogen en kennisbegrip. Wiskundige prestaties laten 74,6% zien op MATH-500 en 83,5% op GSM8K, waarmee het zich in het competitieve bereik van algemene modellen bevindt. De codegeneratiecapaciteiten zijn robuust met 81,0% op HumanEval, terwijl het volgen van instructies 63,8% scoort op IFEval. Het model verwerkt meertalige taken effectief met 77,8% op MGSM en toont praktisch redeneervermogen met 81,6% op MMMU. Deze resultaten positioneren deze realtime-geoptimaliseerde variant als een capabele uitvoerder over uiteenlopende benchmarks, hoewel niet noodzakelijk leidend in elke categorie. Gebruikers dienen op te merken dat deze previewversie prioriteit geeft aan streaminginteracties met lage latentie, wat andere optimalisatie-afwegingen kan inhouden vergeleken met standaard GPT-4o. De basisscores bieden een referentiepunt voor het volgen van toekomstige verbeteringen of variaties naarmate de realtime-modelfamilie evolueert.

Quality

—

Latency p50

—

Test runs

✓ Sterke MMLU-prestatie van 83,2%✓ Robuuste codegeneratie op HumanEval✓ Competitieve scores voor wiskundig redeneren✓ Eerste realtime modelbasislijn vastgesteld

Sectie 06

Volledig modelprofiel

gpt-4o-realtime-preview-2025-06-03: de volledige realtime-refresh van medio 2025

gpt-4o-realtime-preview-2025-06-03 is de juni 2025-snapshot van OpenAI's full-tier streaming spraakmodel. Zes maanden na de bevriezing van december 2024 had de lijn verbeteringen opgepikt in onderbreking-handling, latentie en detectie van conversationele back-channel.

Dit is de snapshot om naar te migreren wanneer die verbeteringen aantoonbaar helpen voor je live spraakagent zonder de dingen kapot te maken waar je in december gevalideerde deployment omheen getuned had.

Wat er is veranderd sinds december 2024

OpenAI publiceert geen gedetailleerde realtime-track changelog, maar het gedragsverschil is waarneembaar door beide snapshots tegen dezelfde gescripte live-conversatietests te draaien:

Soepelere onderbreking-handling. De december-snapshot bleef af en toe kort "vastzitten" wanneer een gebruiker midden in een reactie inviel; deze versie schakelt schoner over naar luisteren.
Lagere end-to-end latentie van einde-van-gebruikerssspraak tot start-van-modelreactie, toe te schrijven aan backend-infrastructuurwijzigingen in plaats van wijzigingen in modelarchitectuur.
Betere back-channel detectie. Het model behandelt korte bevestigingen ("juist", "uh-huh") minder snel als volledige gebruikersbeurten die om een reactie vragen.
Natuurlijker herstel van ongemakkelijke conversatiemomenten — lange stiltes, misvormde gebruikersinput, doorpraat-situaties.

Wat niet op een duidelijke manier is veranderd: het WebSocket-eventprotocol, de vooraf ingestelde stemopties, het basis-API-oppervlak, of de per-minuut factureringsstructuur.

Wanneer de upgrade de moeite waard is

Live spraakmodellen zijn ongebruikelijk gevoelig voor evaluatiemethodologie. Geaggregeerde metrieken missen vaak de specifieke dingen die ertoe doen. De vorm van een gedisciplineerde migratie:

Houd de december-pin in productie terwijl je evalueert.
Bouw of vernieuw een representatief testcorpus — opgenomen referentiegesprekken, synthetische onderbreking-scenario's, multi-turn redeneertests, meertalige gesprekken als je product die ondersteunt.
Draai beide snapshots door het testcorpus.
Laat mensen naar de opnames luisteren en conversationele kwaliteit beoordelen. Er is geen geautomatiseerde metriek die "dit voelt als een competente spraakagent" vangt.
Migreer wanneer de door mensen beoordeelde tests consistent in het voordeel van de juni-snapshot uitkomen, met name op de dimensies die voor jouw product van belang zijn.

Voor spraakagenten in gereguleerde domeinen, reken met de kosten van hervalidatie tegen compliance-vereisten. Een kleine kwaliteitsverbetering kan de validatie-overhead mogelijk niet overleven.

Waar deze snapshot vandaag staat

Medio 2026 is dit de meest recente gedateerde full-realtime snapshot waar de meeste teams naar verwijzen wanneer ze OpenAI's premium streaming spraak pakken zonder verdere kwalificatie. Het is de snapshot met het breedste productie-trackrecord binnen de GPT-4o realtime-lijn.

Voor nieuwe live spraakprojecten die in 2026 starten, is de keuze tussen deze snapshot, iets nieuwers dat OpenAI uitbrengt, en de uiteindelijke stabiele release van de realtime-lijn. Het argument om hier te pinnen is hetzelfde als voor elke gedateerde snapshot — voorspelbaarheid boven toegang tot toekomstige verbeteringen.

Waar het tekortschiet

Dezelfde beperkingen als de rest van de full-realtime lijn.

Workloads die niet echt streaming nodig hebben. De audio-preview lijn is eenvoudiger te integreren en goedkoper per minuut.

Kostengevoelige deployments met hoog volume. Mini-realtime bestaat voor gevallen waar full-tier per-minuut economie niet past.

Pure transcriptie. De transcribe-endpoints zijn goedkoper per minuut wanneer tekst-uit-audio-in de hele taak is.

Self-hosted deployment. WebSocket-verbinding naar OpenAI-infrastructuur vereist. Het /usecases/local-overzicht behandelt on-prem alternatieven.

Wanneer deze exacte snapshot te pinnen

Kies gpt-4o-realtime-preview-2025-06-03 wanneer:

Je de full-realtime lijn evalueerde medio tot eind 2025 en dit is de snapshot die won.
De verbeteringen in onderbreking-handling, latentie of back-channel ten opzichte van de december-snapshot belangrijk zijn voor je product.
Je een stabiel gedragsdoel nodig hebt terwijl je wacht tot de realtime-lijn preview-status verlaat.

Sla het over wanneer:

Een nieuwere snapshot beschikbaar is en je evaluatie heeft gewonnen.
Het uiteindelijke stabiele realtime-model uit preview is gepromoveerd.
Kosten de beperkende factor zijn — gebruik mini-realtime.
Streaming eigenlijk niet vereist is — gebruik de audio-preview lijn.

Alternatieven die het vergelijken waard zijn

De oudere december-snapshot wanneer consistentie met reeds gevalideerde deployments belangrijk is. Mini-realtime wanneer kosten meer uitmaken dan redeneer-capaciteit. De audio-preview lijn wanneer streaming niet de vereiste is. Het spraakmodel-overzicht op /usecases/voice behandelt concurrerende realtime-leveranciers.

Deployment-overwegingen

Hetzelfde WebSocket API-oppervlak als de rest van de realtime-lijn. De snapshot-pin is puur een modelnaam-keuze; het event-model en berichtformaat zijn onveranderd over snapshots heen.

Per-minuut facturering voor audio in en audio uit, plus per-token facturering voor het tekstequivalent. Streaming-overhead is ingebouwd in het per-minuut tarief. Capaciteitsplanning is concurrent-call gevormd.

Client-side integratiecode is herbruikbaar over snapshot-migraties omdat het protocol stabiel is. De gedragsveranderingen tussen snapshots zijn de dingen die deze gedateerde pin bevriest.

De pragmatische lezing. Dit is de juni 2025-bevriezing van full-tier realtime. Pin het wanneer je evaluatie laat zien dat de verbeteringen ten opzichte van de december-snapshot reëel zijn op jouw verkeer. Draai live-call vergelijkingen op /live-test voor elke migratiebeslissing.

Laatste technische review: 2026-05-22 — Tokonomix.ai

Laatste automatische test

24 mei 2026 · 04:41 UTC · Benchmark

P50 latency

—

P95 latency

—

Fouten

1 / 6 runs

Laatst beoordeeld door Tokonomix-team·26 mei 2026