Naar inhoud
Tier C — Specialist
Draait in:USGemaakt in:United States
OpenAI

gpt-4o-mini-realtime-preview-2024-12-17

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

GPT-4o-mini-realtime-preview-2024-12-17 is een variant van OpenAI's GPT-4o-mini model, specifiek geconfigureerd om real-time interactiemogelijkheden te ondersteunen. Dit model is ontworpen voor toepassingen die gesprekservaringen met lage latentie vereisen, zoals stemassistenten, live klantenondersteuningssystemen en interactieve AI-agenten. De aanduiding "realtime-preview" geeft aan dat dit een ontwikkelingsversie is, bedoeld om real-time verwerkingsfuncties te demonstreren en te testen voorafgaand aan bredere uitrol. Als onderdeel van de GPT-4o familie erft dit model de multimodale architectuur die kenmerkend is voor OpenAI's "o"-serie, hoewel specifieke details over het contextvenster niet bekendgemaakt zijn. De aanduiding "mini" geeft aan dat het een kleinere, efficiëntere variant is vergeleken met het volledige GPT-4o model, geoptimaliseerd voor snellere responstijden en verminderde rekenbelasting, terwijl sterke prestaties op standaard tekstgeneratietaken behouden blijven. Dit maakt het bijzonder geschikt voor gebruikssituaties waar snelheid en efficiëntie geprioriteerd worden naast kwaliteitsoutput. Binnen OpenAI's modelaanbod neemt GPT-4o-mini-realtime-preview een gespecialiseerde niche in. Het staat onder het vlaggenschip GPT-4o wat betreft schaal en mogelijkheden, maar biedt duidelijke voordelen voor real-time toepassingen waar de latentiekenmerken van het volledige model mogelijk suboptimaal zijn. De preview-status suggereert dat dit model een experimentele tak van OpenAI's ontwikkelingsinspanningen vertegenwoordigt, waardoor ontwikkelaars real-time AI-interactiepatronen kunnen verkennen terwijl de technologie blijft evolueren richting productierijpe versies.

gpt-4o-mini-realtime-preview-2024-12-17 maakt vloeiende, realtime spraakgesprekken mogelijk met minimale vertraging.

Tokonomix benchmark-samenvatting
Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — gpt-4o-mini-realtime-preview-2024-12-17
$0.6000 per 1M input-tokens
$2.40 per 1M output-tokens
≈ $0.0008 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.6000
per 1M output-tokens$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Ultralaag latentie (real-time)Gelijktijdige spraak in- en uitvoerBidirectionele audiostroomNatuurlijke gespreksflowMeertalige ondersteuningWebSocket API-toegankelijk

Zwakke punten

Hogere kosten voor realtime gebruikComplexere integratie nodigStabiele verbinding vereist
Sectie 03

Veelgestelde vragen

gpt-4o-mini-realtime-preview-2024-12-17 is ontworpen voor realtime gespreksapplicaties waarbij spraak direct wordt verwerkt en beantwoord zonder merkbare vertraging.

De go-to keuze voor voice-applicaties waar snelheid en conversatieflow doorslaggevend zijn.

Tokonomix benchmark-samenvatting
Sectie 04

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 05

Tokonomix benchmark-oordelen

2026-05-24

Basislijn vastgesteld voor real-time previewmodel met sterke prestaties

Dit oordeel legt het basisprestatieprofiel vast voor GPT-4o Mini Realtime Preview. Het model toont sterke capaciteiten in meerdere benchmarkcategorieën, met name opvallende resultaten op het gebied van wiskundig redeneren en algemene kennis. De prestaties op SimpleQA bereiken 15,5%, wat wijst op een solide feitelijke nauwkeurigheid, terwijl het model 81,9% behaalt op MMLU, wat brede kennis over diverse academische vakgebieden aantoont. De wiskundige capaciteiten zijn robuust met 72,8% op MGSM en 84,3% op GSM8K, wat duidt op betrouwbare reken- en probleemoplossende vaardigheden. Het opvolgen van instructies, gemeten op 64,2% bij IFEval, toont competente maar niet uitzonderlijke naleving van complexe aanwijzingen. De MUSR-benchmarkresultaten laten gemengde redeneerprestaties zien, met Murder Mysteries op 47,8% en Object Placements op 59,3%, terwijl Team Allocation achterblijft op 25,2%. Deze basismetingen bakenen het prestatievenster af voor deze realtime preview-variant en bieden een referentiepunt voor toekomstige evaluaties. Gebruikers kunnen rekenen op betrouwbare prestaties bij standaard taaltaken, met bijzondere kracht in wiskundige bewerkingen, hoewel complexe meerstapsredeneringen uitdagingen kunnen opleveren.

Quality

Latency p50

Test runs

0

Sterk wiskundig redeneren vastgesteld Solide MMLU-kennisbasislijn Redeneren bij teamtoewijzing moet verbeterd worden Goede feitelijke nauwkeurigheid op SimpleQA
Sectie 06

Volledig modelprofiel

gpt-4o-mini-realtime-preview-2024-12-17 — illustration 1
gpt-4o-mini-realtime-preview-2024-12-17: de december mini-realtime pin

gpt-4o-mini-realtime-preview-2024-12-17 is de gedateerde snapshot van december 2024 van OpenAI's kleine streaming spraakmodel. Dezelfde op WebSocket gebaseerde realtime-architectuur als de rollende alias, bevroren op dat releasepunt zodat productie-spraakimplementaties kunnen vastpinnen tegen gekend gedrag.

De gedateerde pin is wat voorkomt dat een live spraakagent stilletjes anders gaat gedragen op de ochtend nadat OpenAI een preview-line update uitbrengt.

Waarom vastpinnen belangrijker is voor realtime spraak dan voor tekst

Streaming spraakagenten hebben een groter gedragsoppervlak dan tekstmodellen. Naast de antwoorden die het model genereert, ben je ook afhankelijk van:

  • Precies wanneer het model een gebruikersbeurt als compleet beschouwt en begint te reageren.
  • Hoe agressief het model omgaat met onderbrekingen wanneer de gebruiker begint te praten terwijl het model aan het woord is.
  • Het latentieprofiel vanaf einde-van-gebruikerssspraak tot start-van-modelrespons.
  • Hoe het model omgaat met back-channel geluiden en korte stiltes.

Al deze aspecten kunnen verschuiven tussen preview-snapshots, en verschuivingen op deze dimensies voelen als een ander product voor de eindgebruiker, zelfs wanneer de onderliggende redenering onveranderd blijft. Vastpinnen op 2024-12-17 betekent dat de live-call ervaring die QA heeft doorstaan dezelfde live-call ervaring blijft die wordt uitgerold.

Wat deze snapshot vertegenwoordigt

Bij de december 2024 release had de mini-realtime preview:

  • Het WebSocket-eventprotocol vastgelegd dat nieuwere snapshots overnemen.
  • De kleine vaste set vooraf ingestelde output-stemmen vergrendeld die worden gedeeld met de rest van de audiolijn.
  • De meer verstorende turn-detection regressies uit de initiële preview-drops opgelost.

Wat het niet heeft, ten opzichte van latere 2025 snapshots:

  • De verbeterde interrupt-handling die medio 2025 werd geïntroduceerd.
  • De latentieverbeteringen uit backend-infrastructuurwijzigingen.
  • De verfijnde back-channel detectie die de conversational flow vloeiender maakte.

Spraakagenten die eind 2024 of begin 2025 zijn gevalideerd, zijn hoogstwaarschijnlijk getest tegen deze snapshot.

De migratievraag

Realtime spraakmodellen zijn het slechtste type om blind te upgraden. De vorm van een gedisciplineerde migratie:

  • Houd de december-pin in productie terwijl je evalueert.
  • Voer opnieuw een representatieve set live-conversatiescenario's uit tegen de kandidaat-nieuwere snapshot — opgenomen gesprekken, synthetische onderbrekingstests, meertalige turn-taking.
  • Let op regressies bij edge cases die de oudere snapshot wel goed afhandelde. Gemiddelde verbeteringen kunnen specifieke scenario's maskeren die slechter zijn geworden.
  • Migreer wanneer de nieuwere snapshot aantoonbaar wint op de metrics die belangrijk zijn voor je product.

OpenAI's deprecation policy geeft vooraf een melding, maar het beleid is de ondergrens. Behandel de gedateerde pin als overgangsfase — migreer voorwaarts wanneer je evaluatie dat aangeeft.

Waar het tekortschiet

Dezelfde beperkingen als de rest van de mini-realtime lijn.

Zwaar redeneren midden in een gesprek. Mini is het kleine model. De volledige realtime preview is de juiste escalatie wanneer redeneren het knelpunt wordt.

Workloads die niet daadwerkelijk streaming nodig hebben. De audio-preview lijn is eenvoudiger te integreren en goedkoper per minuut voor request/response spraak.

Zelf-gehoste deployment. De realtime API vereist een WebSocket-verbinding naar OpenAI-infrastructuur. Het /usecases/local overzicht behandelt wat beschikbaar is wanneer die beperking geldt.

Production-grade contractstabiliteit voorbij de snapshot-horizon. Preview-getagd betekent dat de lijn als geheel nog in ontwikkeling is. De gedateerde pin geeft je snapshot-niveau stabiliteit, geen categorie-niveau stabiliteit.

Wanneer deze exacte snapshot vast te pinnen

Kies gpt-4o-mini-realtime-preview-2024-12-17 wanneer:

  • Je een live spraakproduct hebt uitgebracht op het late-2024 mini-realtime gedrag en het stabiel moet houden.
  • Een compliance-vereiste de modelversie vastpint op snapshot-niveau.
  • Je midden in een evaluatie zit van nieuwere snapshots en een stabiele productie-baseline nodig hebt terwijl de evaluatie loopt.

Sla het over wanneer:

  • Je helemaal opnieuw begint — evalueer de meest recente snapshot en pin die.
  • De verbeteringen in latere snapshots hebben gewonnen bij je evaluatie.
  • De realtime lijn uiteindelijk afstudeert van preview naar stable — dat is het juiste doel voor nieuwe projecten.

Deployment-opmerkingen

WebSocket-protocol onveranderd tussen mini-realtime snapshots tot nu toe. De snapshot-pin is puur een modelnaamkeuze; het eventmodel en berichtformaat zijn identiek aan de rollende alias zoals die stond op de releasedatum.

Per-minuut facturering voor audio-in en audio-out, plus per-token tekstfacturering voor het tekstequivalent dat door het model stroomt. Realtime overhead is ingebouwd in het per-minuut tarief. Capaciteitsplanning ligt dichter bij "gelijktijdige actieve gesprekken" dan "requests per seconde."

Client-side state management is de integratiekost die je betaalt voor streaming. Mobiele clients hebben vooral zorgvuldige afhandeling nodig van WebSocket-reconnects, audiobuffering en turn-state transities. Niets daarvan verandert tussen snapshots — het protocol is stabiel. De gedragsdetails die wel veranderen tussen snapshots zijn precies de dingen die deze gedateerde pin voor je bevriest.

De pragmatische lezing. Dit is de december 2024 bevriezing van mini-realtime. Pin het vast wanneer je live spraakproduct ertegen is gevalideerd. Migreer wanneer je eigen evaluatie aantoont dat de volgende snapshot de juiste keuze is. Voer live-call vergelijkingen uit op /live-test voordat je je committeert.

Laatste technische review: 2026-05-22 — Tokonomix.ai

gpt-4o-mini-realtime-preview-2024-12-17 — illustration 2
Laatste automatische test
24 mei 2026 · 04:47 UTC · Benchmark
P50 latency
P95 latency
Fouten
1 / 6 runs
Laatst beoordeeld door Tokonomix-team·26 mei 2026