Naar inhoud
Draait in:USGemaakt in:United States
OpenAI

gpt-4o-audio-preview-2025-06-03

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

GPT-4o-audio-preview-2025-06-03 is een multimodaal taalmodel ontwikkeld door OpenAI, dat een evolutie vertegenwoordigt binnen de GPT-4-familie met verbeterde audioverwerking. Dit model gaat verder dan standaard tekstgeneratie en ondersteunt native audio-invoer en -uitvoer, waardoor het gesproken taal en omgevingsgeluiden kan verwerken en natuurlijke gesproken reacties kan genereren. De aanduiding "preview" geeft aan dat dit een ontwikkelversie is bedoeld voor testen en evaluatie voorafgaand aan een stabiele versie, waarbij het datumsuffix het momentopname-tijdstip binnen OpenAI's releaseplanning suggereert. Het model is ontworpen voor toepassingen die naadloze integratie van tekst- en audiomodaliteiten vereisen, waaronder spraakassistenten, realtime gesprekssystemen, audiotranscriptie met contextbegrip en toegankelijkheidstools. De architectuur bouwt voort op het GPT-4-fundament terwijl het gespecialiseerde componenten voor audio-encoding en -decoding bevat, waardoor het conversationele context kan behouden over zowel geschreven als gesproken interacties. Het model ondersteunt standaard tekstgeneratietaken terwijl het de mogelijkheid toevoegt om vocale nuances, toon en niet-spraak audio-elementen te begrijpen. Binnen OpenAI's modelportfolio staat deze variant naast andere GPT-4o-iteraties als een gespecialiseerde preview-release gericht op audiofunctionaliteit. Het vertegenwoordigt OpenAI's voortdurende ontwikkeling van omni-modale modellen—systemen die meerdere invoertypes native kunnen verwerken in plaats van via afzonderlijke voorverwerkingsstappen. De preview-status betekent dat mogelijkheden en prestatiekenmerken kunnen evolueren naarmate OpenAI het model verfijnt op basis van gebruiksfeedback en verdere training.

gpt-4o-audio-preview-2025-06-03 levert vloeiende, natuurlijk klinkende spraakuitvoer via een eenvoudige API.

Tokonomix benchmark-samenvatting
Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — gpt-4o-audio-preview-2025-06-03
$2.50 per 1M input-tokens
$10.00 per 1M output-tokens
≈ $0.0035 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$2.50
per 1M output-tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Hoogwaardige spraaksyntheseRijke stemkwaliteit en intonatieLage latentie voor realtime gebruikMeertalige spraakondersteuningNatuurlijk klinkende uitvoerEenvoudige API-integratie

Zwakke punten

Geen tekstgeneratie-mogelijkheidHogere kosten per karakterBeperkte stemvariatie-opties
Sectie 03

Veelgestelde vragen

gpt-4o-audio-preview-2025-06-03 is een gespecialiseerd audio-model dat tekst omzet naar spraak. Het is geoptimaliseerd voor heldere, natuurlijk klinkende spraakuitvoer.

Een solide keuze voor toepassingen waarbij tekst-naar-spraak-kwaliteit doorslaggevend is.

Tokonomix benchmark-samenvatting
Sectie 04

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 05

Tokonomix benchmark-oordelen

2026-05-24

Eerste benchmark legt basisprestaties vast op kerncapaciteiten

Deze eerste benchmark legt de basisprestatiemetrieken vast voor GPT-4o Audio Preview. Het model toont sterke capaciteiten op het gebied van wiskundig redeneren, met 83,6% op MATH-500 en 90,8% op GSM8K, wat duidt op solide prestaties bij zowel uitdagende vraagstukken op wedstrijdniveau als basisschoolwiskunde. De codeervaardigheden zijn competent met 80,8% op HumanEval en 85,4% op MBPP, wat wijst op betrouwbare codegeneratie voor gangbare programmeertaken. Meertalige prestaties ogen robuust met 75,9% op MMMLU, terwijl de algemene kennis 88,7% bereikt op MMLU. Het model behandelt multimodale taken met 66,9% op MMMU en behaalt 52,3% op GPQA Diamond, een bijzonder uitdagende benchmark voor wetenschappelijk redeneren. Instructievolging scoort 73,0% op IFEval en creatief schrijven 71,0% op CreativeWriting. Aangezien dit de eerste benchmarkperiode is, dienen deze metrieken als referentiepunt voor het volgen van toekomstige prestatieveranderingen. Gebruikers kunnen capabele prestaties verwachten bij uiteenlopende taken, waaronder wiskunde, programmeren, kennisopvraging en creatieve toepassingen, met bijzondere kracht in wiskundig redeneren en algemene kennisdomeinen.

Quality

Latency p50

Test runs

0

Sterke basislijn voor wiskundig redeneren Solide programmeerprestaties vastgesteld Robuuste meertalige mogelijkheden Eerste benchmark-basislijn vastgesteld
Sectie 06

Volledig modelprofiel

gpt-4o-audio-preview-2025-06-03 — illustration 1
gpt-4o-audio-preview-2025-06-03: de audio-vernieuwing van medio 2025

gpt-4o-audio-preview-2025-06-03 is de snapshot van juni 2025 van OpenAI's audio-multimodale preview. Zes maanden na de bevriezing van december 2024 was het audiopad volwassener geworden — rustiger prosodie, betere stilte-afhandeling, en het soort kleine verfijningen die alleen opvallen wanneer je snapshots naast elkaar vergelijkt.

Dit draagt nog steeds het preview-label. Dat label is een contract: de API-vorm kan veranderen, het gedrag kan wijzigen, en de hele lijn is nog onderweg naar een stabiele release. De gedateerde tag is wat je vastlegt om dit exacte gedrag op zijn plaats te houden terwijl OpenAI doorwerkt.

Wat is er veranderd sinds de snapshot van december

OpenAI publiceert geen gedetailleerde changelog voor het audiospoor, maar het gedragsverschil is waarneembaar uit vergelijkende runs met dezelfde gescripte prompts. De snapshot van juni 2025 brengt mee:

  • Strakker detectie van het einde van stiltes. Het model valt de gebruiker niet meer zo gretig in de rede wanneer de gebruiker midden in een zin pauzeert.
  • Soepeler prosodie-overgangen bij audio-output van meerdere zinnen. De snapshot van december produceerde af en toe vlakke overgangen tussen zinnen; deze draagt intonatie over paragraafbreuken heen.
  • Verminderde "stemverschuiving" bij lange audio-outputs waarbij de gesynthetiseerde stem geleidelijk van timbre verschoof gedurende een lange generatie.
  • Weigeringstaal die conversationeler en minder gesjabloneerd overkomt.

Wat niet op een duidelijke manier veranderde: dekking van invoertalen, de kleine vaste set van uitvoerstemmen, basis-API-oppervlak, en de factureringsstructuur per token.

Wanneer de upgrade de moeite waard is

Het eerlijke antwoord is "wanneer jouw evaluatie dat zegt." Audio-modelupgrades zijn de verkeerde plek om changelog-gedreven sprongen in het duister te maken. De bruikbare vorm:

  • Houd de snapshot van december in productie terwijl je evalueert.
  • Draai de volledige voice-scenariosuite tegen 2025-06-03 op dezelfde prompts.
  • Let op regressies bij randgevallen die de oudere snapshot wel afhandelde — zelfs verbeterde gemiddelden kunnen specifieke scenario's maskeren die verslechterd zijn.
  • Migreer wanneer de nieuwere snapshot wint op de metrics die voor jouw product van belang zijn, niet op de metrics die OpenAI benadrukte in de releasenotes.

Voor voice-producten die leunen op prosodie — coachingtools, toegankelijkheidsverhalenvertellers, alles waar het model presteert in plaats van alleen maar spreekt — is de snapshot van juni 2025 over het algemeen de betere standaard.

Waar deze snapshot vandaag de dag staat

In medio 2026 is deze snapshot de meest recente bevriezing die de meeste teams citeren wanneer ze zeggen "het GPT-4o-audiomodel" zonder verdere kwalificatie. Het is ook de snapshot die lang genoeg in productie is geweest dat gedragsquirks goed gedocumenteerd zijn in communityforums.

Voor nieuwe voice-projecten die in 2026 starten, is de keuze tussen deze snapshot, wat nieuwer is dat OpenAI sindsdien heeft uitgebracht, en de eventuele stabiele release van de audiolijn. Het argument om hier vast te pinnen is hetzelfde als het argument voor het vastleggen van elke gedateerde snapshot: je ruilt toegang tot verbeteringen in voor gedragsstabiliteit.

Waar het tekortschiet

De beperkingen die zijn geërfd van de rest van de audio-previewlijn blijven van toepassing.

Geen streaming-endpoint. De realtime-preview is de juiste keuze voor live bidirectioneel gesprek; dit is request/response.

Geen transcriptiespecialist. Als tekst-uit van audio-in de hele taak is, kosten de toegewijde transcriptie-endpoints minder per minuut.

Niet inzetbaar buiten de OpenAI API. Geen on-prem-optie, geen air-gap-pad. Het /usecases/local overzicht behandelt wat beschikbaar is wanneer die beperkingen binden.

Wanneer deze snapshot vast te leggen

Leg gpt-4o-audio-preview-2025-06-03 vast wanneer:

  • Je de audiolijn evalueerde in medio tot eind 2025 en dit is de snapshot die slaagde.
  • Prosodiekwaliteit er genoeg toe doet dat de verbeteringen ten opzichte van de snapshot van december de migratiekosten rechtvaardigen.
  • Je een stabiel gedragsdoel nodig hebt terwijl je wacht tot de audiolijn de preview-status verlaat.

Sla het over wanneer:

  • Een nieuwere snapshot beschikbaar is en jouw evaluatie heeft gewonnen.
  • Het uiteindelijke stabiele audiomodel uit preview is gepromoveerd.
  • Je alleen transcriptie nodig hebt of alleen realtime streaming — de gespecialiseerde endpoints passen beter.

Deployment-notities

Dezelfde Chat Completions API als de rest van de GPT-4o-familie. De modelnaam is de migratie-eenheid. Audio-invoerformaat, selectie van uitvoermodaliteit en stemparameters zijn ongewijzigd ten opzichte van de snapshot van december.

Tokenfacturering splitst audio in, audio uit en tekst. Audiotokens brengen aanzienlijk hogere kosten per informatie-eenheid met zich mee dan teksttokens. Capaciteitsplanning voor voice-producten ligt dichter bij "verwerkte minuten audio" dan "uitgewisselde berichten."

De pragmatische lezing. Dit is de beter gedragende broer of zus van de snapshot van december. Leg het vast wanneer jouw voice-product ertegen gevalideerd werd, migreer ernaar vanuit de december-pin wanneer jouw evaluatie laat zien dat de prosodie-winsten het nemen waard zijn, en houd de changelog in de gaten voor wat OpenAI vervolgens naar stable promoveert. Voer een vergelijkende test uit op /live-test voordat je beslist.

Laatste technische review: 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview-2025-06-03 — illustration 2gpt-4o-audio-preview-2025-06-03 — illustration 3
Laatste automatische test
24 mei 2026 · 04:46 UTC · Benchmark
P50 latency
P95 latency
Fouten
1 / 6 runs
Laatst beoordeeld door Tokonomix-team·26 mei 2026