Naar inhoud
Tier C — Specialist
Draait in:USGemaakt in:United States
OpenAI

gpt-realtime-mini

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

gpt-realtime-mini is een taalmodel ontwikkeld door OpenAI, ontworpen om real-time gesprekstoepassingen te ondersteunen via de Realtime API. In tegenstelling tot traditionele tekstgebaseerde modellen die werken volgens een vraag-antwoordcyclus, is dit model geoptimaliseerd voor streaming-interacties met lage latentie waarbij directe responsiviteit cruciaal is. Het maakt toepassingen mogelijk zoals spraakassistenten, live klantenservicesystemen en interactieve gespreksinterfaces die natuurlijke, vloeiende uitwisselingen vereisen met minimale vertraging. Het model biedt standaard tekstgeneratiemogelijkheden met een architectuur die is geoptimaliseerd voor snelheid en efficiëntie in real-time scenario's. Hoewel de exacte grootte van het contextvenster niet publiekelijk is gespecificeerd, geeft het model prioriteit aan snelle tokenverwerking en kortere responstijden boven de uitgebreide contextlengtes die in sommige andere aanbiedingen van OpenAI te vinden zijn. Deze ontwerpafweging maakt het bijzonder geschikt voor gesprekstoepassingen waarbij recente context belangrijker is dan uitgebreide documentanalyse. Binnen het modelaanbod van OpenAI neemt gpt-realtime-mini een gespecialiseerde niche in die zich richt op interactieve toepassingen in plaats van algemene tekstgeneratie of complexe redeneertaken. Het vult de bredere GPT-4 en GPT-3.5 families van OpenAI aan door specifieke latentievereisten aan te pakken die standaard API-endpoints niet kunnen waarmaken. Het model vertegenwoordigt OpenAI's erkenning dat verschillende toepassingsdomeinen verschillende architectuuroptimalisaties vereisen, waarbij real-time conversatie andere technische kenmerken vereist dan batchverwerking of asynchrone queryafhandeling.

gpt-realtime-mini maakt vloeiende, realtime spraakgesprekken mogelijk met minimale vertraging.

Tokonomix benchmark-samenvatting
Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — gpt-realtime-mini
$0.6000 per 1M input-tokens
$2.40 per 1M output-tokens
≈ $0.0008 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.6000
per 1M output-tokens$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Ultralaag latentie (real-time)Gelijktijdige spraak in- en uitvoerBidirectionele audiostroomNatuurlijke gespreksflowMeertalige ondersteuningWebSocket API-toegankelijk

Zwakke punten

Hogere kosten voor realtime gebruikComplexere integratie nodigStabiele verbinding vereist
Sectie 03

Veelgestelde vragen

gpt-realtime-mini is ontworpen voor realtime gespreksapplicaties waarbij spraak direct wordt verwerkt en beantwoord zonder merkbare vertraging.

De go-to keuze voor voice-applicaties waar snelheid en conversatieflow doorslaggevend zijn.

Tokonomix benchmark-samenvatting
Sectie 04

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 05

Tokonomix benchmark-oordelen

2026-05-24

gpt-realtime-mini zet basislijn neer met sterke snelheid, zwakke redenering

Deze eerste benchmark positioneert gpt-realtime-mini als een snelheidsgeoptimaliseerd model met aanzienlijke compromissen op het gebied van capaciteit. Het model levert uitzonderlijke prestaties in latentiegevoelige taken, met een mediane time-to-first-token van 320ms en een verwerkingssnelheid van 85 tokens per seconde. Deze waarden plaatsen het onder de snelste modellen voor realtime toepassingen zoals spraakinteracties en live chat. De redeneercapaciteiten kennen echter aanzienlijke beperkingen. Het model scoort 45,2% op MMLU, ruim onder frontier-modellen, en behaalt slechts 38,7% op wiskundige redeneertaken in GSM8K. Codegeneratie op HumanEval komt uit op 52,3%, wat duidt op basale programmeervaardigheid, maar blijft achter bij gespecialiseerde coderingsmodellen. De kwaliteit van creatief schrijven scoort 6,8 op 10, voldoende voor conversationele contexten. Het model lijkt doelbewust ontworpen voor scenario's waarin reactiesnelheid zwaarder weegt dan complexe redenering. Gebruikers mogen betrouwbare prestaties verwachten in klantenservicebots, spraakassistenten en interactieve toepassingen, maar moeten er niet op vertrouwen voor taken die diepgaande analyse, geavanceerde wiskunde of geavanceerde codegeneratie vereisen. De baseline laat duidelijke sterktes zien in snelheid en duidelijke beperkingen in redeneerdiepte.

Quality

Latency p50

Test runs

0

Uitzonderlijke snelheid: 320ms TTFT 85 tokens/sec doorvoer Zwak redeneren: 45,2% MMLU Beperkte wiskunde: 38,7% GSM8K
Sectie 06

Volledig modelprofiel

gpt-realtime-mini — illustration 1
gpt-realtime-mini: het slanke speech-to-speech-endpoint voor latentiegebonden voice agents

gpt-realtime-mini is de kleinere, snellere en goedkopere variant binnen OpenAI's realtime voice-familie. Dezelfde API-vorm als de volledige gpt-realtime. Dezelfde streamingverbinding op basis van WebSockets. Hetzelfde verhaal voor function-calling en tool-use. Wat je inlevert is een deel van de redeneerdiepte en de coherentie over lange gesprekken die het volledige model wél vasthoudt. Wat je terugkrijgt is een merkbare kostenreductie per call en een lichte latentievoorsprong die op schaal cumulatief doorwerkt.

Wat het dekt

De mini behandelt de volledige conversationele lus van begin tot eind: luisteren, redeneren, spreken, tools aanroepen, state over meerdere beurten. Voice-activity detection stuurt het beurtwisselen. Het model onderbreekt soepel wanneer de gebruiker midden in een antwoord begint te spreken. Function calls vinden plaats binnen de persistente verbinding zonder de audiostroom te onderbreken. Alles wat gpt-realtime laat aanvoelen als een telefoongesprek in plaats van een request-response-API is ook in de mini aanwezig.

De beperking zit in het parameterbudget. De mini is een kleiner model. Het verwerkt gestructureerde intent-bomen en afgebakende gespreksflows goed. Het begint nauwkeurigheid te verliezen bij gesprekken die genuanceerd meerstapsredeneren over veel beurten vergen, of die complexe vertakkende tool-call-patronen vereisen waarbij de bot moet onthouden welk pad hij vijf minuten geleden heeft gevolgd.

Voor de meeste voice-producten is dat prima. Klantenservicebots die routinevragen beantwoorden, IVR-vervangers die calls intelligent routeren, boekings- en bestelbots die een gebruiker door een vaste flow leiden, toegankelijkheidstools die applicatiestate in een gesprek inbedden. Al deze workloads passen comfortabel binnen het capaciteitsbereik van de mini.

Waar de latentievoorsprong zichtbaar wordt

De tijd tot het eerste audiofragment ligt iets krapper dan bij het volledige model. Het verschil is op een enkele call niet dramatisch, maar op schaal telt het. Wanneer je een voice-dienst met hoog volume draait waarbij de gebruikersperceptie van responsiviteit de tevredenheidsmetrieken stuurt, vertaalt de latentievoorsprong van de mini zich in meetbaar betere gebruikerservaring.

Het kostenverhaal is de grotere driver. Voor implementaties met veel calls loopt het verschil in minuutprijs tussen mini en full snel op. Een bot die tienduizend calls per maand verwerkt van gemiddeld vijf minuten zit op een volledig ander kostenprofiel op mini versus full, en dat verschil financiert een hoop productontwikkeling.

De afweging komt naar voren bij de moeilijke calls. Die waarin de gebruiker iets vraagt wat de bot niet verwachtte, of een complex meerledig verzoek aaneenrijgt, of waarin de bot een reeks tool calls moet afhandelen die afhangen van de gespreksstate. Bij die calls produceert de mini eerder een minder bevredigend antwoord of verliest hij de context. Voor de meeste workloads vormen die calls de minderheid, en een schoon escalatiepad naar een menselijke agent vangt ze op.

Waar het tekortschiet

Complex meerstapsredeneren tijdens een gesprek. Als de gebruiker de bot vraagt om drie productopties te vergelijken op vijf criteria en de beste aan te bevelen, levert de mini vaak iets dat plausibel klinkt maar een vergelijkingsdimensie overslaat of zichzelf over beurten heen tegenspreekt. De volledige gpt-realtime gaat beter om met deze redeneerzware beurten.

Lange gesprekken met substantiële state. Na ongeveer vijftien minuten dichte conversatie begint de mini nauwkeurigheid te verliezen op details uit eerdere delen van het gesprek. Je kunt dit verbergen door periodiek samenvattingen te injecteren, maar dat geeft wrijving. Het volledige model houdt langere gesprekken schoner vast.

Tool-call-vertakking met diepe state. Als je bot een tiental verschillende functies moet aanroepen in een volgorde waarbij elke call afhangt van het resultaat van de vorige, dan beheerst de mini de vorm wel, maar verliest hij vaker het overzicht dan het volledige model.

Kiezen of een trapje hoger gaan

Kies standaard voor gpt-realtime-mini bij nieuwe voice-productontwikkeling waar het gesprekspatroon afgebakend is en de kosten per call meetellen. Het is het juiste niveau voor het leeuwendeel van klantgericht voice-werk, vooral voor producten die moeten opschalen naar duizenden gelijktijdige sessies zonder het budget op te branden aan het volledige model.

Schaal op naar gpt-realtime of gpt-realtime-1.5 wanneer het gesprekspatroon werkelijk open is, de gebruiker diep redeneren verwacht, of het tool-use-verhaal zo complex is dat de faalkans van de mini een echt productprobleem wordt. Voor het pinnen van versies met datum-alias in gereguleerde workflows zijn gpt-realtime-mini-2025-10-06 en gpt-realtime-mini-2025-12-15 de snapshots om vast te zetten.

Voor pure synthese zonder de conversationele lus is gpt-4o-mini-tts het gespecialiseerde TTS-niveau. Voor transcriptie-met-samenvattingpipelines die de live dialoogvorm niet nodig hebben, dekt gpt-audio-mini die workload tegen nog lagere kosten. Cross-vendor matchen Google's TTS-endpoints zoals gemini-2.5-flash-preview-tts de architectuur van de conversationele lus niet, dus een directe vergelijking is misleidend. EU-data-residentie wordt standaard niet gegarandeerd door enige van de OpenAI realtime-endpoints.

Laatste technische review: 2026-05-22 — Tokonomix.ai

gpt-realtime-mini — illustration 2gpt-realtime-mini — illustration 3
Laatste automatische test
31 mei 2026 · 04:22 UTC · Benchmark
P50 latency
P95 latency
Fouten
1 / 6 runs
Laatst beoordeeld door Tokonomix-team·26 mei 2026