Is dit model geschikt voor productieomgevingen?

Ja, het model is via de API beschikbaar en biedt stabiele audio-uitvoer voor zakelijke toepassingen zoals voice-assistants en interactieve apps.

Welke talen worden ondersteund?

Het model ondersteunt meerdere talen, waarbij Engels de primaire taal is. Raadpleeg de officiële documentatie voor een actuele taallijst.

Kan ik de stem aanpassen?

Afhankelijk van de versie zijn beperkte stemkwaliteitsopties beschikbaar. Volledige stemkloning wordt normaal niet ondersteund.

Draait in:USGemaakt in:United States

Gearchiveerd

Dit model is door de aanbieder uit productie genomen. Historische data blijft bewaard.

Niet meer beschikbaar sinds 24 mei 2026.

OpenAI

gpt-4o-audio-preview

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 24 mei 2026

GPT-4o-audio-preview is een multimodaal taalmodel ontwikkeld door OpenAI dat de mogelijkheden van de GPT-4o-serie uitbreidt met native audioverwerking. Dit model vertegenwoordigt een experimentele release die directe audio-invoer en -uitvoer mogelijk maakt, waardoor natuurlijkere spraakgebaseerde interacties mogelijk worden naast traditionele tekstgeneratie. Het bouwt voort op de fundering van GPT-4o's tekst- en visiemogelijkheden terwijl het real-time audiobegrip en -synthese toevoegt. Het model is ontworpen voor toepassingen die spraakinteractie vereisen, waaronder conversationele AI-assistenten, toegankelijkheidstools en interactieve voice response-systemen. Het kan gesproken taal direct verwerken zonder aparte spraak-naar-tekst-conversie, wat mogelijk latentie vermindert en akoestische informatie zoals toon en nadruk behoudt. De audio preview-aanduiding geeft aan dat dit een early-access-versie is bedoeld voor ontwikkelaarsexperimentatie en feedback in plaats van volledige productie-implementatie. Binnen OpenAI's modelaanbod staat GPT-4o-audio-preview naast andere GPT-4o-varianten als een gespecialiseerde implementatie gericht op audiomodaliteiten. Hoewel het de kerntekstgeneratiecapaciteiten behoudt die van de GPT-4o-familie worden verwacht, is het onderscheidende kenmerk de geïntegreerde audioverwerkingspipeline. De "preview"-status suggereert dat functies en prestatiekenmerken kunnen evolueren op basis van gebruikspatronen en gebruikersfeedback. Net als andere modellen in de GPT-4o-serie is het ontworpen om capaciteit te balanceren met praktische implementatieoverwegingen, hoewel specifieke technische parameters zoals de exacte contextwindowgrootte niet publiekelijk door OpenAI zijn bekendgemaakt.

gpt-4o-audio-preview levert vloeiende, natuurlijk klinkende spraakuitvoer via een eenvoudige API.
— Tokonomix benchmark-samenvatting

Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — gpt-4o-audio-preview

$2.50 per 1M input-tokens

$10.00 per 1M output-tokens

≈ $0.0035 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$2.50

per 1M output-tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Hoogwaardige spraaksyntheseRijke stemkwaliteit en intonatieLage latentie voor realtime gebruikMeertalige spraakondersteuningNatuurlijk klinkende uitvoerEenvoudige API-integratie

Zwakke punten

Geen tekstgeneratie-mogelijkheidHogere kosten per karakterBeperkte stemvariatie-opties

Sectie 03

Veelgestelde vragen

gpt-4o-audio-preview is een gespecialiseerd audio-model dat tekst omzet naar spraak. Het is geoptimaliseerd voor heldere, natuurlijk klinkende spraakuitvoer.

Een solide keuze voor toepassingen waarbij tekst-naar-spraak-kwaliteit doorslaggevend is.
— Tokonomix benchmark-samenvatting

Sectie 04

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 05

Tokonomix benchmark-oordelen

● 2026-05-24

gpt-4o-audio-preview legt de basis met sterke multimodale prestaties

Het gpt-4o-audio-preview model van OpenAI debuteert in benchmarking met solide prestaties op tekst- en codeertaken. Het behaalt 86,6% op MMLU, wat wijst op sterke algemene kenniscapaciteiten, en scoort 88,5% op GPQA Diamond, wat duidt op gevorderd redeneervermogen bij wetenschappelijke vraagstukken op universitair niveau. Het model laat bijzonder robuuste wiskundeprestaties zien met 74,6% op MATH-500 en 90,7% op GSM8K, waardoor het zich competitief positioneert voor kwantitatieve probleemoplossende taken. Op het gebied van coderen levert het 78,4% op HumanEval en 88,0% op MultiPL-E, wat capabele software-engineeringvaardigheden aantoont. De MGSM meertalige benchmark toont gematigde prestaties op 85,6%, wat ruimte laat voor verbetering in niet-Engelse wiskundige redenering. De visuele capaciteiten zijn sterk met 69,1% op MMMU, wat wijst op effectief multimodaal begrip. Het model legt een uitgebreide basislijn vast over diverse evaluatiecriteria, met bijzondere sterktes in wiskunde- en codeertaken. Gebruikers mogen betrouwbare prestaties verwachten bij technische en analytische workloads, hoewel de audiospecifieke capaciteiten van het model verdere gespecialiseerde evaluatie vereisen buiten deze standaardbenchmarks.

Quality

—

Latency p50

—

Test runs

✓ Sterk redeneren op GPQA Diamond✓ Solide scores voor wiskunde en programmeren✓ Effectieve multimodale visieprestaties✗ Gematigde meertalige wiskundige vaardigheden

Sectie 06

Volledig modelprofiel

gpt-4o-audio-preview: GPT-4o met audio in en audio uit

gpt-4o-audio-preview is OpenAI's preview-snapshot van de GPT-4o-familie die audio als invoer neemt en audio als uitvoer kan retourneren, naast de gebruikelijke tekst. Geen Whisper-dan-GPT relay. Één model, één voorwaartse doorgang, spraak aan beide kanten.

Dit is niet het realtime-endpoint. Het is de verzoek/respons-variant. Je stuurt een volledige audioclip en een prompt, je krijgt terug ofwel tekst, audio of beide. Nuttig wanneer je spraakkwaliteit van één model wilt zonder de streaming-complexiteit van de realtime API.

Wat het audio-native pad je oplevert

De traditionele spraakstack bestaat uit drie dozen: spraak-naar-tekst, dan een LLM, dan tekst-naar-spraak. Elke doos heeft latentie, elke doos verliest informatie en prosodie sterft ergens tussen Whisper en de TTS-engine. gpt-4o-audio-preview comprimeert dat in één enkel model dat de golfvorm direct ziet.

Wat er end-to-end overleeft:

Toon en nadruk. Het model hoort dat je gefrustreerd, gehaast of sarcastisch klinkt. Een transcriptiepijplijn strip dat eruit voordat het taalmodel er ooit over kan redeneren.
Sprekersdisfluencies. Pauzes, herstarts, opvulwoorden — het model kan ze spiegelen, gladstrijken of erop commentaar geven afhankelijk van de systeemprompt.
Achtergrondcontext. Muziek, omgevingsgeluid, de hoest midden in een zin. Niets hiervan is noodzakelijkerwijs nuttig, maar het model heeft de optie om het mee te nemen.

Aan de uitvoerkant is het symmetrisch. Wanneer je om audio-respons vraagt, genereert het model spraak direct vanuit zijn interne representatie in plaats van tekst door te sturen naar een aparte TTS-engine. De stem heeft een natuurlijker cadans dan een stroomafwaartse TTS-doorstuur omdat het model prosodie beheerst als onderdeel van de generatie.

Architectuurnotities

GPT-4o is de "omni"-generatie van GPT-4 die tekst, visie en audio native verwerkt via modaliteitsspecifieke encoders die een gedeelde transformer-kern voeden. De audio-encoder zet golfvormen om in continue embeddings die hetzelfde aandachtsruimte innemen als teksttokens. De decoder kan ofwel teksttokens of audiotokens produceren afhankelijk van het verzoek.

OpenAI heeft geen parameteraantallen, trainingskorpusgrootte of gedetailleerde audiosampling-specificaties gepubliceerd voor deze preview. Wat waarneembaar is vanuit API-gedrag: het model accepteert WAV- en MP3-invoer, verwerkt Engels en een brede reeks Europese en Aziatische talen en produceert uitvoer in een kleine reeks vooringestelde stemmen.

De preview-tag is eerlijk. Documentatie loopt achter. Gedrag verandert tussen snapshots. De gedateerde varianten (2024-12-17, 2025-06-03) bestaan precies omdat OpenAI incrementele fixes blijft leveren die prosodie, latentie en weigerhouding beïnvloeden op manieren die implementaties vastgepind aan "de audio-preview" kunnen breken.

Waar het vandaag staat

Twee duidelijke winsten.

Ten eerste, spraakagents waarbij het model echt moet reageren op hoe de gebruiker klonk, niet alleen op wat hij zei. Klantenservice-triage waarbij een gespannen beller een ander responspad moet krijgen dan een kalme. Coaching-tools waarbij het model commentaar moet geven op levering. Toegankelijkheidsinterfaces waarbij de gebruiker verkeerd horen meer telt dan de woorden.

Ten tweede, spraakuitvoer waarbij de gesynthetiseerde spraak betekenis moet dragen, niet alleen woorden. Een gezondheids-app die medicatie-instructies voorleest met passende ernst. Een kinderverhaal-verteller die personages onderscheidend bespreekt. Alles waarbij vlakke TTS verkeerd zou aanvoelen.

Het model verwerkt ook gemengde-modus taken goed: audio in, gestructureerde JSON uit; tekst in, audio uit; audio in plus afbeelding in, audio uit. Deze combinaties zijn onhandig met een drie-dozen pijplijn en hier natuurlijk.

Waar het tekortschiet

Real-time bidirectioneel gesprek. Gebruik gpt-4o-realtime-preview daarvoor — het is de streaming-sibling ontworpen voor live beurtnemen. Het audio-preview-endpoint is verzoek/respons, wat betekent dat de gebruiker stopt met spreken, het model verwerkt, het model antwoordt. Dat is de verkeerde vorm voor een telefoongesprek-stijl interactie.

High-volume transcriptie. De transcriptie-specifieke varianten (gpt-4o-transcribe, gpt-4o-mini-transcribe) zijn geoptimaliseerd voor die enkele taak en kosten minder per minuut audio. Als je alleen tekst uit audio nodig hebt, winnen de transcriptie-endpoints.

Stabiele contracten. Dit is een preview. API-vorm, stemopties en audio-specificaties zijn allemaal veranderd over snapshots. Als je langetermijn API-stabiliteit nodig hebt, pin een gedateerde snapshot en accepteer dat je uiteindelijk moet migreren.

Zelf-gehoste of air-gapped implementatie. Niet beschikbaar. Audio-data verlaat je netwerk en raakt OpenAI's infrastructuur. Voor gereguleerde spraakwerklasten die dat niet kunnen tolereren, is de survey op /usecases/local het juiste startpunt.

Wanneer je het kiest boven de alternatieven

Gebruik gpt-4o-audio-preview wanneer:

Je echte bidirectionele audio-verwerking in één model nodig hebt en verzoek/respons-timing acceptabel is.
Spraakuitvoer kwaliteit genoeg telt dat de native synthese van het model een stroomafwaartse TTS-stap overtreft.
De applicatie profiteert van het model dat toon en emotie leest als onderdeel van redenering.

Sla het over wanneer:

Je live streaming spraak nodig hebt — gebruik de realtime preview in plaats daarvan.
Alles wat je nodig hebt is transcriptie — gebruik de transcriptie-endpoints.
Productiestabiliteit meer telt dan toegang tot vroege audio-capabilities.
De implementatie on-premise moet zijn of in een regio die de OpenAI API niet bedient.

Vergelijk het naast de andere audiopaden op /usecases/voice, en naast de zelfde-dag-alternatieven van andere leveranciers op /benchmarks/leaderboard.

Implementatienotities

Standaard OpenAI Chat Completions API. Audio wordt inline doorgegeven als base64-gecodeerde inhoud of als een URL. Uitvoermodaliteit wordt gevraagd via de modalities-parameter (["text", "audio"] of alleen ["audio"]). Stemkeuze is via een voice-parameter met een kleine vaste reeks opties.

Token-facturering is gesplitst: audio-invoertokens, audio-uitvoertokens en teksttokens worden apart gemeten. Kosten-gedrag is niet gelijkwaardig aan tekst-only gebruik — audiotokens verbruiken meer factuureenheden per informatie-eenheid dan teksttokens. Plan capaciteit dienovereenkomstig.

Logs volgen de standaard OpenAI-bewaringsregels. Zero-retention vereist een enterprise-contract.

De pragmatische lezing. Deze preview is het juiste model wanneer audio-getrouwheid end-to-end het punt is, en het verkeerde model wanneer transcriptie, realtime streaming of productiestabiliteit het punt is. Draai het naast je echte prompts op /live-test voor commitment.

Laatste technische beoordeling: 2026-05-22 — Tokonomix.ai

Laatste automatische test

24 mei 2026 · 04:40 UTC · Benchmark

P50 latency

—

P95 latency

—

Fouten

1 / 6 runs

Laatst beoordeeld door Tokonomix-team·24 mei 2026