Hoe verschilt dit van reguliere TTS/STT?

Realtime modellen verwerken audio in beide richtingen tegelijk, wat een vloeiender gesprekservaring oplevert dan afzonderlijke transcriptie- en synthesestappen.

Is het geschikt voor callcentertoepassingen?

Ja, de lage latentie en bidirectionele audioverwerking maken het geschikt voor geautomatiseerde klantenservice en voice-bots.

Welke verbindingsvereisten zijn er?

Het model werkt via WebSocket-verbindingen en vereist een stabiele, snelle internetverbinding voor optimale prestaties.

Tier C — Specialist

Draait in:USGemaakt in:United States

Gearchiveerd

Dit model is door de aanbieder uit productie genomen. Historische data blijft bewaard.

Niet meer beschikbaar sinds 24 mei 2026.

OpenAI

gpt-4o-realtime-preview-2024-12-17

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 26 mei 2026

GPT-4o Realtime Preview (2024-12-17) is een multimodaal AI-model ontwikkeld door OpenAI, ontworpen ter ondersteuning van realtime gesprekstoepassingen met verwerkingsmogelijkheden voor tekst en audio met lage latentie. Deze preview-versie maakt deel uit van OpenAI's GPT-4o-familie, die de nadruk legt op geoptimaliseerde prestaties voor interactieve gebruikssituaties waarbij directe responsiviteit cruciaal is. Het model voert standaard tekstgeneratietaken uit terwijl het is ontworpen om vertragingen in verwerking en responstijd te minimaliseren, waardoor het bijzonder geschikt is voor toepassingen zoals spraakassistenten, live klantenondersteuning en interactieve gespreksagenten. Het model integreert OpenAI's nieuwste architectonische verbeteringen voor het gelijktijdig verwerken van tekst- en audio-invoer en -uitvoer, hoewel de specifieke grootte van het contextvenster niet publiekelijk is bekendgemaakt. Het behoudt de algemene taalbegrips- en generatiecapaciteiten die kenmerkend zijn voor de GPT-4-serie, inclusief redeneren, creatief schrijven, codegeneratie en analysetaken. De aanduiding "realtime preview" geeft aan dat dit een experimentele release is bedoeld voor ontwikkelaartesten en feedback in plaats van een definitieve productieversie. Binnen OpenAI's modelaanbod staat GPT-4o Realtime Preview naast andere GPT-4o-varianten als een gespecialiseerde optie voor latentiegevoelige toepassingen. Het vormt een aanvulling op de standaard GPT-4o-modellen door snelheid van interactie te prioriteren boven maximale contextlengte of doorvoer, wat OpenAI's voortdurende expansie in realtime AI-toepassingen weerspiegelt. Als preview-release kunnen ontwikkelaars updates en verfijningen verwachten op basis van gebruikspatronen en prestatiewaarnemingen.

gpt-4o-realtime-preview-2024-12-17 maakt vloeiende, realtime spraakgesprekken mogelijk met minimale vertraging.
— Tokonomix benchmark-samenvatting

Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — gpt-4o-realtime-preview-2024-12-17

$5.00 per 1M input-tokens

$20.00 per 1M output-tokens

≈ $0.0070 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$5.00

per 1M output-tokens$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Ultralaag latentie (real-time)Gelijktijdige spraak in- en uitvoerBidirectionele audiostroomNatuurlijke gespreksflowMeertalige ondersteuningWebSocket API-toegankelijk

Zwakke punten

Hogere kosten voor realtime gebruikComplexere integratie nodigStabiele verbinding vereist

Sectie 03

Veelgestelde vragen

gpt-4o-realtime-preview-2024-12-17 is ontworpen voor realtime gespreksapplicaties waarbij spraak direct wordt verwerkt en beantwoord zonder merkbare vertraging.

De go-to keuze voor voice-applicaties waar snelheid en conversatieflow doorslaggevend zijn.
— Tokonomix benchmark-samenvatting

Sectie 04

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 05

Tokonomix benchmark-oordelen

● 2026-05-24

Baseline vastgesteld voor GPT-4o Realtime Preview, een audio-first model

Dit vormt de eerste benchmark voor GPT-4o Realtime Preview, OpenAI's audio-native model ontworpen voor spraakinteracties met lage latentie. Het model laat sterke prestaties zien op standaard benchmarks, met 86,3% op MMLU en 88,0% op GPQA, waarmee het in de bovenste laag van hedendaagse taalmodellen wordt geplaatst. Wiskundig redeneren toont capaciteit met 76,6% op GSM8K en 51,1% op MATH, wat duidt op solide maar niet uitzonderlijke prestaties bij complexe kwantitatieve taken. Het model vertoont sterke codeervaardigheden met 83,2% op HumanEval en behoudt competitieve meertalige prestaties met 85,8% op MGSM. Visuele capaciteiten zijn robuust met 69,1% op MMMU, hoewel dit het lagere segment vertegenwoordigt vergeleken met frontier multimodale modellen. Het model toont gebalanceerd redeneren met 82,0% op DROP en 78,5% op GPQA Diamond. Als audio-first model geoptimaliseerd voor realtime interactie, bieden deze benchmarks een uitgangspunt om te volgen hoe het model evolueert in toekomstige iteraties. Gebruikers dienen op te merken dat dit een previewversie is, wat wijst op doorlopende ontwikkeling en potentiële verbeteringen in latere releases.

Quality

—

Latency p50

—

Test runs

✓ Sterke MMLU-prestatie van 86,3%✓ Robuuste programmeervaardigheden op HumanEval✓ Concurrerende meertalige redeneerscores✗ Matige resultaten op de MATH-benchmark

Sectie 06

Volledig modelprofiel

gpt-4o-realtime-preview-2024-12-17: de december-pin voor full-realtime

gpt-4o-realtime-preview-2024-12-17 is de gedateerde snapshot van december 2024 van het full-tier streaming-spraakmodel van OpenAI. Het is de bevriezing van de rollende alias gpt-4o-realtime-preview zoals die er die maand uitzag, vergrendeld voor productie-spraakdeployments die op specifiek gedrag pinnen.

Voor live voice-agents op het full-tier-niveau zorgt deze snapshot-pin ervoor dat de gespreksflow, interruptie-afhandeling en redeneerstijl voorspelbaar blijven, terwijl OpenAI de preview-lijn blijft doorontwikkelen.

Wat deze snapshot vertegenwoordigt

In december 2024 had de full-realtime preview het volgende afgerond:

Het WebSocket-event-protocol was gestabiliseerd; latere snapshots erven dit protocol.
De kleine, vaste set vooraf gedefinieerde uitvoerstemmen — gedeeld met de rest van de audiofamilie — was vastgelegd.
De meer verstorende regressies in turn-detection uit de eerste preview-releases waren opgelost.

Wat de snapshot níét heeft, vergeleken met latere 2025-snapshots:

De verbeterde interruptie-afhandeling die medio 2025 landde en het model in staat stelde soepeler te herstellen wanneer gebruikers ertussendoor praten.
De latentie-verbeteringen door backend-infrastructuurwijzigingen gedurende Q2 2025.
De verfijnde back-channel-detectie die de conversatieflow gladstreek.

Live voice-agents die eind 2024 of begin 2025 zijn gevalideerd, zijn hoogstwaarschijnlijk getoetst tegen deze snapshot.

Waarom pinnen op full-tier realtime belangrijker is dan op mini-realtime

Het full-tier-model voert het gesprek in deployments waarin de redeneerkwaliteit de gebruikerservaring bepaalt. Gedragsverschuivingen op dit niveau beïnvloeden:

Hoe het model antwoorden formuleert op dubbelzinnige vragen.
Hoe agressief het model verduidelijkende vragen stelt versus intentie afleidt.
Hoe het model omgaat met randgeval-verzoeken die dicht tegen de weigeringsgrens aanliggen.
Hoe het model informatie integreert over meerdere gebruikersbeurten binnen één gesprek.

Al deze aspecten zijn zichtbaar voor eindgebruikers, en verschuivingen op elk van deze punten voelen aan als een andere voice-agent, ook al klinkt de stem aan de oppervlakte hetzelfde. Pinnen op 2024-12-17 betekent dat het conversatiegedrag dat je QA heeft gevalideerd hetzelfde conversatiegedrag blijft in productie.

De migratievraag

Live voice-agents zijn het slechtste soort systeem om op goed vertrouwen te upgraden. De contouren van een gedisciplineerde migratie:

Houd de december-pin in productie terwijl je evalueert.
Voer een representatieve set live-gespreksscenario's opnieuw uit tegen de kandidaat-snapshot die nieuwer is — opgenomen referentiegesprekken, synthetische interruptietests, multi-turn redeneerscenario's in de talen die je product ondersteunt.
Let op regressies in randgevallen die de oudere snapshot wél goed afhandelde. Geaggregeerde winst verbergt vaak specifieke scenario's die slechter zijn geworden.
Migreer wanneer de nieuwere snapshot wint op de metrieken die er voor jouw product toe doen, met menselijke evaluatie als doorslaggevende factor voor subjectieve gesprekskwaliteit.

Het deprecation-beleid van OpenAI geeft tijdig melding voordat gedateerde snapshots worden uitgefaseerd, maar dat beleid is de ondergrens. Behandel de gedateerde pin als een tijdelijk contract — migreer vooruit wanneer je evaluatie daartoe aanleiding geeft.

Waar het tekortschiet

Dezelfde beperkingen als de rest van de full-realtime-lijn.

Workloads die helemaal geen streaming nodig hebben. De audio-preview-lijn is de juiste keuze voor request/response-spraak.

Kostengevoelige deployments met hoog volume. Mini-realtime bestaat voor gevallen waarin de per-minuut-economie van full-tier niet past.

Pure transcriptie. De transcribe-endpoints zijn goedkoper per minuut als tekst-uit-audio de enige taak is.

Self-hosted deployment. Er is een WebSocket-verbinding met de OpenAI-infrastructuur vereist. Zie /usecases/local voor on-prem-opties.

Production-grade contractstabiliteit voorbij de snapshot-horizon. Preview-getagd betekent dat de categorie nog in beweging is. De gedateerde pin biedt snapshot-stabiliteit, geen categorie-stabiliteit.

Wanneer je exact deze snapshot moet pinnen

Kies gpt-4o-realtime-preview-2024-12-17 wanneer:

Je een live voice-product hebt uitgebracht op het full-realtime-gedrag van eind 2024 en het stabiel moet houden.
Een compliance-vereiste de modelversie op snapshot-niveau vastpint.
Je midden in de evaluatie van nieuwere snapshots zit en een stabiele productiebaseline nodig hebt terwijl die evaluatie loopt.

Sla het over wanneer:

Je opnieuw begint — evalueer dan de meest recente snapshot en pin die.
De verbeteringen in interruptie-afhandeling, latentie of back-channel uit latere snapshots aantoonbaar winnen in jouw evaluatie.
De realtime-lijn van preview naar stable promoveert — dat is het juiste doelwit voor nieuwe projecten.

Alternatieven die het vergelijken waard zijn

De nieuwere snapshot gpt-4o-realtime-preview-2025-06-03 wanneer de verbeteringen van juni 2025 aantoonbaar winnen. Mini-realtime wanneer kosten zwaarder wegen dan redeneercapaciteit. De audio-preview-lijn voor niet-streaming spraak. Het bredere voice-modeloverzicht op /usecases/voice behandelt concurrerende realtime-leveranciers.

Deployment-aandachtspunten

Het WebSocket-protocol is tot nu toe ongewijzigd gebleven over de realtime-snapshots heen. De snapshot-pin is puur een keuze van modelnaam; het eventmodel en messageformaat zijn identiek aan de rollende alias zoals die op de releasedatum was.

Per-minuut-facturering voor audio-in en audio-uit, plus per-token-facturering voor het tekst-equivalent dat door het model stroomt. Capaciteitsplanning is gevormd rond gelijktijdige gesprekken.

Client-side statemanagement is de integratiekost die je betaalt voor streaming. Niets van die integratie verandert tussen snapshots — het protocol is stabiel. De gedragsdetails die wél veranderen tussen snapshots zijn precies wat deze gedateerde pin voor je bevriest.

De pragmatische lezing. Dit is de december 2024-bevriezing van full-tier realtime. Pin het wanneer je live voice-product ertegen is gevalideerd en de kosten van hervalidatie tegen een nieuwere snapshot zwaarder wegen dan de baten. Voer live-gespreksvergelijkingen uit op /live-test voordat je migreert.

Laatste technische review: 22-05-2026 — Tokonomix.ai

Laatste automatische test

24 mei 2026 · 04:47 UTC · Benchmark

P50 latency

—

P95 latency

—

Fouten

1 / 6 runs

Laatst beoordeeld door Tokonomix-team·26 mei 2026