
gpt-4o-transcribe-diarize is de diarisatie-variant van het full-tier transcribe-model van OpenAI. Audio erin, tekst eruit — met sprekerlabels gekoppeld aan elk segment. Het basale gpt-4o-transcribe-endpoint geeft getranscribeerde tekst terug zonder sprekerattributie; deze variant voegt de "wie zei wat"-laag toe die gespreksanalyse-pipelines nodig hebben.
Voor audio met meerdere sprekers waarbij de identiteit van de spreker deel uitmaakt van de downstream-taak, is diarize het juiste endpoint om naar te grijpen in plaats van een afzonderlijk diarisatiemodel bovenop basistranscriptie te leggen.
Wat diarisatie toevoegt
De standaard transcriptie-output is een reeks tekstsegmenten met tijdstempels. Bruikbaar voor ondertiteling, indexering en basale zoekfuncties. Ontoereikend voor elke taak die moet redeneren over wie wat zei.
De diarize-variant geeft dezelfde getranscribeerde tekst terug, plus een sprekerlabel per segment. De labels zijn anonieme identificatoren (Speaker 1, Speaker 2, enz.) — het model weet niet wie de sprekers zijn, alleen dat er onderscheidbare stemmen zijn en welke segmenten bij elk horen. Het aantal sprekers wordt automatisch uit de audio gedetecteerd.
Wat dit mogelijk maakt in downstream-pipelines:
- Gespreksanalyse die specifieke uitingen toeschrijft aan specifieke deelnemers.
- Kwaliteitsmonitoring voor klantenservice waarbij uitingen van agent en beller afzonderlijk geanalyseerd moeten worden.
- Vergadersamenvattingen die actiepunten per spreker produceren in plaats van een platte lijst.
- Transcripten van podcasts en uitzendingen met meerdere sprekers, waar de luisterervaring van de lezer afhangt van weten wie er spreekt.
- Compliance-opnames waarbij attributie deel uitmaakt van de auditvereiste.
Waar de geïntegreerde aanpak wint
De traditionele stack voor gediariseerde transcriptie bestaat uit twee stappen: een transcriptiemodel produceert tekst en tijdstempels, een afzonderlijk diarisatiemodel produceert spreker-grenzen, en een nabewerkingsstap brengt ze op één lijn.
Dat werkt, maar heeft zwakke punten. De transcriptie- en diarisatiemodellen delen geen audiocontext. Wanneer het transcriptiemodel onzeker is over een woord, kan het geen informatie over sprekerwisselingen gebruiken om onduidelijkheid weg te nemen. Wanneer het diarisatiemodel onzeker is over een spreker-grens, kan het de getranscribeerde inhoud niet gebruiken om te verfijnen.
De geïntegreerde diarize-variant heeft beide signalen in één model. Sprekerwisselingen informeren transcriptiebeslissingen en getranscribeerde inhoud informeert beslissingen over spreker-grenzen. Voor overlappende spraak en snelle sprekerwisselingen behandelt de geïntegreerde aanpak randgevallen die de tweetraps-pipeline mist.
Architectuurnotities
Dezelfde onderliggende GPT-4o "omni"-architectuur als het basale transcribe-model. De diarize-variant heeft een uitgebreide decoder die zowel teksttokens als sprekerlabel-tokens uitstuurt in één enkele uitvoerstroom.
OpenAI heeft geen parameterdetails per variant gepubliceerd. Waarneembaar gedrag:
- Sprekersaantallen tot een redelijke conversationele limiet worden goed afgehandeld — gesprekken tussen twee partijen, kleine vergaderopnames, podcasts met meerdere hosts.
- Sprekerlabels zijn stabiel binnen één enkel audiobestand, maar niet over bestanden heen. Dezelfde spreker krijgt in twee aparte opnames onafhankelijke labels.
- Het model probeert geen voice-print-identificatie of sprekerherkenning over opnames heen. Dat is een andere taak met andere privacy- en nauwkeurigheidsoverwegingen.
- Cross-talk en overlappende spraak worden beter afgehandeld dan in tweetraps-pipelines, hoewel zware overlap de nauwkeurigheid nog altijd vermindert.
Waar het tekortschiet
Sprekersidentificatie over opnames heen. Diarize-labels zijn per bestand. Voor sprekersmatching over opnames heen heb je een voice-print-model nodig dat erbovenop wordt gelegd.
Zware menigte-audio. Conferentieopnames met veel sprekers, snelle beurtwisselingen en aanzienlijk achtergrondgeluid belasten het model. De conversationele sweet spot is grofweg 2-6 verschillende sprekers bij matige audiokwaliteit.
Latency-kritische workloads. Diarize-verwerking is per minuut trager dan basistranscriptie. Voor realtime of bijna-realtime ondertiteling kunnen de latency-kosten onaanvaardbaar zijn.
Zelf-gehoste deployment. Alleen via de OpenAI API. Het overzicht op /usecases/local behandelt on-prem alternatieven, waaronder zelf-gehoste Whisper plus open-weight diarisatiemodellen.
Kostengevoelige bulktranscriptie waarbij sprekers geen prioriteit hebben. Gebruik base transcribe of mini-transcribe — de diarize-premie weegt niet op tegen de kosten wanneer sprekerlabels niet nodig zijn.
Wanneer ernaar te grijpen
Kies voor gpt-4o-transcribe-diarize wanneer:
- De downstream-taak sprekerattributie nodig heeft en je anders een tweetraps-pipeline zou bouwen.
- De audiomix conversationeel is met een matig aantal sprekers — gesprekken, vergaderingen, interviews, podcasts.
- Geïntegreerde transcriptie-plus-diarisatie-nauwkeurigheid de voorkeur verdient boven tweetraps-pipelinenauwkeurigheid op jouw verkeer.
Sla het over wanneer:
- Sprekerlabels niet vereist zijn — gebruik het basale transcribe-model.
- Kostengevoelige transcriptie met hoog volume de workload is — gebruik mini-transcribe.
- Sprekersidentificatie over opnames heen vereist is — leg er een voice-print-model bovenop.
- Live-ondertiteling-latency de beperking is — de diarize-verwerkingstijd kan te lang zijn.
Alternatieven die de moeite van het vergelijken waard zijn
Base gpt-4o-transcribe plus een afzonderlijk diarisatiemodel wanneer je de fases onafhankelijk wilt beheren. Mini-transcribe zonder diarisatie wanneer kosten zwaarder wegen dan sprekerlabels. Zelf-gehoste Whisper plus open diarisatie (Pyannote en vergelijkbare) wanneer on-prem-werking vereist is. Het bredere overzicht van transcriptiemodellen op /usecases/voice behandelt concurrerende leveranciers.
Deployment-notities
OpenAI Audio API met een diarize-specifiek requestformaat. Output bevat de getranscribeerde tekst, tijdstempels en sprekerlabels per segment. Het responseformaat is configureerbaar voor downstream consumptiebehoeften.
Facturering per minuut voor verwerkte audio tegen een hoger tarief dan base transcribe, wat het extra modelwerk weerspiegelt om sprekerlabels te produceren. Capaciteitsplanning is totale verwerkte audiominuten maal het diarize-tarief per minuut.
De pragmatische lezing. Diarize is het juiste model wanneer sprekerattributie deel uitmaakt van de taak en geïntegreerde nauwkeurigheid op jouw audio beter scoort dan tweetraps-pipelines. Het is het verkeerde model wanneer sprekers niet vereist zijn, wanneer kostengevoelige bulktranscriptie de workload is, of wanneer live-latency de beperking is. Probeer het uit op je echte audio met meerdere sprekers op /live-test.
Laatste technische review: 2026-05-22 — Tokonomix.ai
