Naar inhoud
Use cases/Klantenservice

Welk AI-model pakt klantenservice het beste aan?

Klantenservice automatiseren lijkt eenvoudig: beantwoord een vraag, sluit een ticket, ga verder. In de praktijk is het een van de moeilijkste taken die je een taalmodel kunt geven. De verkeerde keuze frustreert gebruikers en vreet marge op elk gesprek — dag en nacht, op industriële schaal. Deze gids ontleedt de dimensies die bepalen welk model wint voor support-workloads, en noemt de vijf waaraan we vandaag een live queue zouden toevertrouwen.

Dashboard klantenservice-operaties — conceptafbeelding
Support draait of valt op consistentie onder belasting.

Waarom klantenservice anders is dan elk ander LLM-werk

De meeste taalmodel-benchmarks belonen precies het omgekeerde van wat goede support vraagt. Testsets vieren creativiteit, lange redeneerketens, onverwachte wendingen. Een klantenservice-workflow beloont het tegenovergestelde: voorspelbaarheid, terughoudendheid, toon-consistentie en de discipline om niet te improviseren buiten de kennis die je hebt meegegeven.

Een frontier-redeneermodel dat op een academische testset in het vijfennegentigste percentiel scoort, kan nog steeds een zwakke support-assistent zijn. Het verzint een retourbeleid dat niet bestaat. Het wisselt van toon halverwege een thread. Het schrijft vier alinea's waar één zin genoeg was. Geen van die fouten duikt op in een typisch leaderboard, maar elk ervan kost een echte gebruiker een echte minuut.

Vijf beperkingen definiëren de taak: toon-consistentie over miljoenen antwoorden, responsetijden onder de seconde, harde kennisafbakeningen, geheugen over meerdere berichten binnen één ticket, en stukskosteneconomie die bij volume oploopt. Een model dat drie van die vijf wint maar twee verliest, is de verkeerde keuze. Wie beslist over je support-stack moet naar het volledige plaatje kijken.

De economie verdient extra aandacht. Een verschil van twee cent per ticket klinkt verwaarloosbaar in een demo, maar oogt rampzalig op een jaarfactuur. De meeste support-teams die op enige schaal draaien verwerken meer gesprekken dan ze intuïtief inschatten — een mid-market SaaS met tienduizend tickets per dag verbrandt geruisloos zes cijfers per jaar op het verschil tussen het goedkoopste en het op-één-na-goedkoopste geloofwaardige model. De prijsvergelijking is geen voetnoot; het is vaak de beslissing.

AI gespreksroutering stroom — conceptafbeelding
Routing is een model-selectieprobleem, niet alleen een UI-probleem.

De vijf dimensies die bepalen welk model wint

Dit zijn de assen waarop onze interne scorecard elk model beoordeelt dat in de buurt van een productie-support-queue komt. De relatieve weging verschuift per bedrijf — een luxemerk zet toonaansturing boven kale kosten, een high-volume SaaS keert die rangschikking om — maar elk model moet een minimumdrempel halen op alle vijf.

  1. 01 — Instruction-following discipline

    Blijft het binnen de lijnen die je trok?

    Een support-model krijgt een systeemprompt met regels: beloof geen terugbetalingen, citeer nooit prijzen buiten de actieve prijslijst, sluit altijd af met een ticketreferentie. De beste voorspeller van geschiktheid is hoe consequent het model die regels naleeft onder druk — vage prompts, vijandige gebruikers, lange gesprekken. Redeneervermogens telt veel minder dan de weigering om dingen te verzinnen.

  2. 02 — Tone steerability

    Klinkt het als jouw merk, niet als zichzelf?

    Elk frontier-model heeft een standaardstem. Sommige klinken als een enthousiaste consultant, andere als een voorzichtige jurist, weer andere als een kwieke stagiair. De vraag is niet welke stem het model prefereert, maar of het een andere stem vasthoudt voor de duur van een dienst. Een model dat bij elk vijfde bericht terugvalt op zijn fabriekstoon, is onbruikbaar voor elk merk dat heeft geïnvesteerd in voice.

  3. 03 — Cost-per-resolved-ticket

    Wat betaal je voor het resultaat, niet voor de token?

    Tokenprijzen vergelijken in isolatie is een valstrik. Het zinvolle getal is de totale kosten van het oplossen van één ticket: tokens verbruikt over de hele thread, plus het percentage dat toch naar een mens geëscaleerd wordt. Een model dat half zo duur is maar je escalatiepercentage verdubbelt, is de duurdere keuze. Meet altijd van begin tot eind.

  4. 04 — Latency and time-to-first-token

    Ziet de gebruiker binnen een seconde dat er getypt wordt?

    Support is een ervaren-tijd-probleem. Gebruikers wachten enkele seconden op een volledig antwoord, als de typindicator binnen één seconde actief is. Modellen met hoge TTFT verliezen de gebruiker nog voor ze klaar zijn met genereren; gebruikers verlaten de sessie en schrijven toch de mail die ze probeerden te vermijden. Stream altijd, meet altijd first-token-tijd per regio, vertrouw nooit op gemiddelde end-to-end-latency.

  5. 05 — Multilingual coverage

    Hoe goed werkt het buiten het Engels?

    De meeste productlanceringen hebben op dag één minstens zes talen nodig. Frontier-modellen ondersteunen er nominaal vijftig of meer, maar de kwaliteit buiten de top zes verschilt sterk. Test in elke taal die je queue echt ontvangt, niet de talen die de leverancier adverteert. Een model dat vloeiend Engels spreekt en behoorlijk Duits kan belachelijk zwak zijn in Turks of Bahasa.

Tokonomix top 5 picks voor klantenservice vandaag

De shortlist hieronder zijn de modellen waaraan we een echte support-queue nu zouden toevertrouwen. Geen enkel model is op alles het beste; elk verdient zijn plek op een specifieke afweging. Het juiste antwoord voor jouw stack zijn bijna altijd twee van hen: een werkpaard dat het grootste deel afhandelt, en een escalatiemodel waarnaar de router kan terugvallen als het vertrouwen zakt of de inzet stijgt.

#1 · WerkpaardTier A

Claude Haiku 4.5

via Anthropic

High-volume support-queues waarbij elk antwoord goed doorgedacht moet klinken. Instructiediscipline is het sterkst in deze klasse — Haiku improviseert zelden als je een kennisafbakening hebt meegegeven.

Input / 1M tokens
$1.00
Output / 1M tokens
$5.00
Context
200K
Volledig benchmark-profiel →
#2 · BudgetkampioenTier A

Gemini 2.5 Flash

via Google Gemini

Tier-1 triage, FAQ-deflectie en taaldetectie op schaal. De goedkoopste geloofwaardige optie op het bord, met first-token-latency onder één seconde in de meeste regio's.

Input / 1M tokens
$0.3000
Output / 1M tokens
$2.50
Context
1.048576M
Volledig benchmark-profiel →
#3 · Vertrouwde standaardTier C

gpt-4.1-mini

via OpenAI

Teams die al op de OpenAI-stack werken. Ingetogen toon, voorspelbare opmaak en een function-calling-interface die schoon integreert met de meeste ticketsystemen.

Input / 1M tokens
$0.4000
Output / 1M tokens
$1.60
Context
1.047576M
Volledig benchmark-profiel →
#4 · EscalatieniveauTier A

Claude Sonnet 4.6

via Anthropic

Complexe tickets, gereguleerde sectoren en elk gesprek waarbij een fout antwoord echte kosten heeft. Gebruik als tweede-lijnmodel waarnaar de router terugvalt.

Input / 1M tokens
$3.00
Output / 1M tokens
$15.00
Context
1M
Volledig benchmark-profiel →
#5 · Self-hosted optie

Meta-Llama-3_3-70B-Instruct

via OVH AI Endpoints (GRA)

Data-residency of soevereiniteitsvereisten waarbij klanttranscripten een bepaald rechtsgebied niet mogen verlaten. Open gewichten, voorspelbare kosten en concurrerende kwaliteit voor dit formaat.

Input / 1M tokens
$0.6700
Output / 1M tokens
$0.6700
Context
Volledig benchmark-profiel →

Outputprijs per miljoen tokens

De grootste kostenpost voor een support-model is de outputprijs. Een typisch opgelost ticket verbruikt veel meer output dan input — de assistent legt uit, vat samen, stelt verduidelijkende vragen. De grafiek hieronder toont de actuele lijstprijs van elke provider voor de vijf modellen hierboven.

Prijs per 1M output-tokens, USD. Bron: live providerprijzen bijgehouden door Tokonomix.
Support analytics-dashboard — conceptafbeelding
De cijfers die ertoe doen leven in de queue, niet in het leaderboard.

Veldgids: welk model voor welk support-patroon

De koppeling hieronder is wat we zouden gebruiken om een team te adviseren dat een nieuwe support-assistent from scratch bouwt. Beschouw het als een startpunt, niet als een vonnis — je eigen benchmark op je eigen tickets gaat altijd boven een algemene aanbeveling.

Pattern A

Hoog volume, lage complexiteit

Bestelstatus, wachtwoordresets, verzend-ETAs. Latency en kosten zijn doorslaggevend. Begin met Gemini 2.5 Flash voor de laagste kosten, val terug op Claude Haiku 4.5 als toon belangrijker is dan prijs.

Pattern B

Merkgevoelig premium

Luxe, gereguleerde sectoren, B2B-accounts met vaste aanspreekpunten. Zet Claude Sonnet 4.6 op kop voor toon-discipline en instructieopvolging onder druk. Houd een lage drempel aan voor doorgeleiding naar een mens.

Pattern C

Data-residency of soevereiniteit

Zorg, finance, publieke sector, EU-burgerdata met grensoverschrijdende beperkingen. Host Meta Llama 3.3 70B zelf bij een regionale provider. Iteratiesnelheid gaat omlaag, maar transcripten verlaten het rechtsgebied nooit.

Pattern D

Vastgezet op een bestaande stack

Je bouwt al op OpenAI en integraties herschrijven staat niet op de roadmap. GPT-4.1 mini is de veiligste in-family upgrade van oudere 3.5-klasse-deployments — zelfde SDK, scherpere toon, lagere outputkosten.

Operationeel team — conceptafbeelding
Een model gekozen in de theorie is een model dat in productie faalt.

Benchmark op je eigen workload voor je beslist

Elke aanbeveling op deze pagina is per definitie generiek. Die van jou is dat niet. Het waardevolste uur dat je kunt besteden voor je een klantenservice-model kiest, is het opbouwen van een kleine, representatieve promptset op basis van je eigen historische tickets — twintig gevallen is genoeg om te starten — en elk kandidaat-model er zij aan zij doorheen te halen.

Beoordeel op de vijf dimensies hierboven: hield het de systeemprompt, de merkstem, loste het de zaak op of escaleerde het netjes, bleef het binnen het latency-budget, werkte het in elke taal op de lijst? Het model dat op jouw data wint, is het model dat je moet shippen — ook als het niet het model is dat deze gids aanbeveelt.

Een praktische noot over het uitvoeren van de test: laat de assistent de oplossing uit het originele ticket niet zien. Geef het model alleen wat de oorspronkelijke klant schreef en de systeemprompt die je live agents zouden ontvangen. Vergelijk het antwoord zij aan zij met de menselijke oplossing. Het verschil tussen het model dat indrukwekkend oogt in een demo en het model dat productie overleeft, is bijna altijd zichtbaar in die head-to-head reviews — en bijna nooit zichtbaar in de geaggregeerde benchmarkscore die de leverancier publiceert.

Open de live-testtool →

Gerelateerde use cases