Welk AI-model klinkt het meest menselijk in een gesprek?
Voice en conversatie-AI is het workload-type dat elke zwakte van een model het snelst blootlegt. Toon die wegdrijft, latency, geheugen dat hapert, persona-collaps, de kleine stoterelementen die een mensklinkende agent plotseling robotachtig maken — ze vallen allemaal al in de eerste minuut van een echt gesprek op. Deze gids zet uiteen welke dimensies bepalen welk model een voice-product draagt, en noemt de vijf die wij vandaag een telefoongesprek zouden insturen.

Waarom dialoog het workload-type is waarop modellen het zichtbaarst falen
Tekst geeft een model tijd. Gebruiker stuurt, model leest, denkt, schrijft, gebruiker leest, denkt na, antwoordt. Trage redenering valt in dat ritme niet op. Voice schrapt die buffer. Een pauze langer dan een seconde leest als verwarring; langer dan twee seconden als een fout. Wie het model voor een voice-product kiest, kiest op een latency-budget dat elk ander workload agressief zou vinden.
De architectuurkeuze die volgt is of je een audio-native model end-to-end laat draaien, of een keten stapelt — spraak naar tekst, dan taalmodel, dan tekst naar spraak. De audio-native route is onovertroffen op latency en paralinguïstisch bewustzijn: het model hoort wanneer de gebruiker aarzelt, kan onderbreken en onderbroken worden, en neemt een register aan dat je in de prompt niet hebt omschreven. De gestapelde route is makkelijker te debuggen, goedkoper te schalen, en geeft je volledige controle over stemkeuze en merksound.
Persona-consistentie telt hier zwaarder dan bijna overal elders. In tekst gaat een toonverschuiving tussen beurten onopgemerkt; in voice klinkt het alsof een ander persoon het gesprek overneemt. Modellen die tussen beurten wegdrijven zijn ongeschikt voor voice, ook als ze voor chat prima zouden werken. Test er expliciet op — minimaal twintig beurten, met opzettelijk afleidende input van de gebruiker.
Vijf constraints bepalen het werk: end-to-end latency, persona-stabiliteit over beurten heen, audiokwaliteit waar van toepassing, meertalige spraakdekking en tool-call-discipline midden in een gesprek. Een voice agent die alle vijf soepel aankan klinkt als een persoon; wie er ook maar één laat vallen klinkt als een chatbot die hardop voorleest.

De vijf dimensies die bepalen welk model wint
Dit zijn de assen waarop onze scorekaart elk model weegt dat in een voice-product terechtkomt. Hun relatieve gewicht verschuift naargelang je een telefoonlijn-agent bouwt of een langdurige companion-app — maar elke kandidaat haalt een minimum op alle vijf.
- 01 — End-to-end latency
Hoort de gebruiker binnen een hartslag een antwoord?
De klok start zodra de gebruiker stopt met praten en eindigt zodra hij het eerste hoorbare woord terugkrijgt. Audio-native modellen halen dat budget; gestapelde pipelines moeten elke laag apart optimaliseren. Meet op het netwerk waarop je gaat deployen, niet op de demo-regio van de leverancier.
- 02 — Persona-stabiliteit over beurten
Klinkt beurt twintig nog als beurt één?
Wegdrijven is het enige faalpatroon dat de illusie van een persoon aan de andere kant breekt. Modellen die terugvallen op hun standaardstem zodra de prompt aan salience verliest, zijn onbruikbaar voor elke voice-product met een merkidentiteit. Test altijd met adversariale gebruikers die de persona midden in een gesprek proberen te veranderen.
- 03 — Audiokwaliteit en paralinguïstisch bewustzijn
Hoort het hóé de gebruiker iets zei, niet alleen wát?
Frustratie, aarzeling, sarcasme, urgentie — mensen dragen betekenis over via toon die pure-text modellen niet kunnen waarnemen. Audio-native modellen lezen die signalen en passen zich aan; gestapelde pipelines verliezen ze volledig bij de STT-stap. De juiste architectuur hangt af van of je product die nuance nodig heeft.
- 04 — Meertalige spraakdekking
Volgt het code-switching midden in een zin?
Echt voice-verkeer bevat accenten, dialecten en gebruikers die midden in een utterance van taal wisselen. Het model moet volgen zonder de draad kwijt te raken. Test op opnames van je eigen klantenbasis, niet op de uitspraakreferentie van de leverancier.
- 05 — Tool-calls midden in een gesprek
Kan het iets opzoeken zonder de flow te breken?
Voice agents moeten CRM's bevragen, voorraad checken, afspraken boeken. Het lastige is dat natuurlijk doen — de wachttijd opvullen met een gesproken bevestiging, netjes herstellen als de tool faalt. Modellen getuned voor chat-tool-use geven vaak ongemakkelijke filler die de immersie breekt.
Tokonomix top 5 picks voor voice en dialoog vandaag
Dit zijn de vijf die wij vandaag op een live kanaal zouden zetten. Een voice-product draait bijna nooit op één model; de architectuur die werkt is gelaagd — een audio-native model op de gesproken laag voor latency en paralinguïstisch bewustzijn, en een sterker tekstmodel eronder dat de planning, tool-calls en kenniswerk doet die de audiolayer doorgeeft.
Claude Sonnet 4.6
via Anthropic
Audio in, audio out, lage latency end-to-end. De juiste keuze voor telefonie, browser voice agents en elke toepassing waarbij de gebruiker verwacht dat een onderbreking binnen een hartslag landt. Native verwerking van paralinguïstische signalen — pauzes, toon, urgentie — die tekst-plus-TTS-pipelines niet aankunnen.
- Input / 1M tokens
- $3.00
- Output / 1M tokens
- $15.00
- Context
- 1M
Gemini 2.5 Pro
via Google Gemini
Het model voor achter een tekst-first voice agent die naar een TTS-laag streamt. Sonnet 4.6 houdt persona over lange sessies beter vast dan de meeste alternatieven en matcht betrouwbaar het register dat je in de prompt beschrijft. Goedkoper dan audio-native modellen en makkelijker te verwisselen naarmate TTS-kwaliteit blijft verbeteren.
- Input / 1M tokens
- $1.25
- Output / 1M tokens
- $10.00
- Context
- 1.048576M
Claude Haiku 4.5
via Anthropic
Een miljoen token context maakt de volledige sessie — en willekeurig grote geschiedenis — beschikbaar zonder truncatie. De juiste keuze voor companion-apps, coaching-agents en elk voice-product dat baat heeft bij het onthouden van wat de gebruiker vorige week zei.
- Input / 1M tokens
- $1.00
- Output / 1M tokens
- $5.00
- Context
- 200K
Meta-Llama-3_3-70B-Instruct
via OVH AI Endpoints (GRA)
Korte beurten, snelle first-token, lage kosten. De juiste keuze als het gesprek gestructureerd is — boeken, opzoeken, statuscheck — en de latency-budget de bottleneck is. Combineer met een sterk systeem-prompt en dezelfde TTS-laag die je voor Sonnet-escalaties gebruikt.
- Input / 1M tokens
- $0.6700
- Output / 1M tokens
- $0.6700
- Context
- —
Output-prijs per miljoen tokens
Bij voice domineren de outputkosten — het grootste deel van de tokens is het gesproken antwoord. De grafiek toont de tekst-tier listprice voor de bovenstaande modellen met gepubliceerde tarieven; audio-native modellen worden apart geprijsd, per audiominuut in plaats van per token, en vallen buiten het model dat hier getoond wordt.

Veldgids: welk model voor welk voice-patroon
De mapping hieronder is hoe wij een team zouden adviseren dat een nieuw voice-product bouwt. Zie het als een vertrekpunt, geen eindoordeel — één weekend testen op echte opnames slaat elk algemeen advies.
Realtime telefoonlijn-agent
Inbound support-calls, outbound sales, boekingslijnen. Latency wint alles. gpt-realtime end-to-end, met Sonnet 4.6 als planner waar het realtime-model naar terugvalt als het gesprek onverwacht verloopt.
Browser voice agent met merkstem
In-product assistent waarbij de stem onderdeel is van de identiteit. Gestapelde pipeline — Sonnet 4.6 stuurt het gesprek, een gekozen TTS-engine produceert de audio. Wat latency inleveren voor volledige controle over hoe de agent klinkt.
Langdurige companion of coach
Sessies van een uur of langer die baat hebben bij geheugen over sessies heen. Gemini 2.5 Pro voor het context-venster; bewaar gespreksgeschiedenis per gebruiker en voer die elke sessie terug in het systeem-prompt.
Self-hosted voice agent
Zorg, finance, gereguleerde sectoren waarbij opnames een bepaalde jurisdictie niet mogen verlaten. Self-host Llama 3.3 70B met Whisper voor STT en een open-weight TTS-engine. Langzamere iteratiesnelheid, volledige controle over de data.

Benchmark op je eigen gesprekken voordat je kiest
Wat je nodig hebt leer je niet van een leveranciersdemo of een statische prompt-set. Neem twintig echte gesprekken op — gebruikers die je echt hebt, scenario's die je echt draait — en speel ze end-to-end af met elke kandidaat. Synthetische transcripten brengen de faalpatronen die er toe doen niet naar boven; de ongemakkelijke pauzes, de vijandige gebruikers, het gepraat door elkaar leven in echte audio.
Luister, lees alleen het transcript niet. Landde het eerste woord voordat de gebruiker afhakers? Klonk de agent bij minuut tien nog steeds als zichzelf? Pakte het de frustratie in de derde beurt op, of praatte het er dwars overheen? Landde de tool-call natuurlijk in de flow van het gesprek, of liet het een gat dat de gebruiker opmerkte? Kies het model dat je eigen oor vertrouwt aan het einde van de terugluister, niet het model dat een benchmark aanbeveelt.
Open de live testool →