
gpt-4o-mini-transcribe est le point de terminaison de conversion parole-texte plus petit et plus rapide d'OpenAI. Il fait une seule chose : accepte de l'audio en entrée, produit du texte en sortie. Pas d'entrée visuelle, pas de complétion de conversation, pas d'utilisation d'outils. Si vous cherchez un modèle mini multimodal, ce n'est pas celui-ci. Il est conçu spécifiquement pour les charges de travail de transcription.
La lignée complète se présente ainsi. Il y a gpt-4o-transcribe (le frère plus grand et plus précis), gpt-4o-transcribe-diarize (même famille mais avec étiquetage natif des locuteurs), et cette version mini qui sacrifie la précision au profit du débit et du coût. La version que vous appelez gpt-4o-mini-transcribe est l'alias continu ; les versions datées spécifiques (gpt-4o-mini-transcribe-2025-03-20, gpt-4o-mini-transcribe-2025-12-15) vous permettent de fixer le comportement si votre pipeline est sensible à la dérive du modèle.
Ce qu'il fait bien
L'audio de courte durée est le point optimal. Notes vocales, extraits d'appels de support client, segments de podcasts de moins de quinze minutes, messagerie vocale. Le modèle renvoie du texte propre suffisamment rapidement pour que vous puissiez l'intégrer directement dans une interface utilisateur sans que les utilisateurs le remarquent. Pour un petit fichier audio, l'aller-retour se situe bien dans ce qu'un utilisateur final qualifierait d'« instantané ».
Il gère une large gamme de qualités audio. Audio de qualité téléphonique à 8 kHz, flux WebRTC enregistrés dans un navigateur, compression avec perte qui a subi trois cycles de réencodage sur les réseaux sociaux. Aucune de ces situations n'est idéale, mais le modèle se dégrade progressivement plutôt que d'échouer complètement. La transcription que vous obtenez d'un audio de mauvaise qualité est utilisable pour le tri ; vous ne la publieriez pas sans révision.
La couverture linguistique est large. Le modèle gère bien les principales langues européennes : anglais, espagnol, français, allemand, italien, portugais, néerlandais, polonais. Les performances avec les langues asiatiques sont inégales ; les transcriptions en mandarin et en japonais sont bonnes, mais nettement moins bonnes pour les langues moins dotées en ressources. L'alternance de codes au sein d'un même énoncé (quelqu'un qui parle espagnol et utilise des termes techniques anglais) est gérée proprement plus souvent qu'autrement.
Ce qu'il ne fait pas
Pas de diarisation des locuteurs. Si vous avez besoin d'étiqueter « qui a dit quoi » dans la sortie, vous voulez plutôt gpt-4o-transcribe-diarize, ou une passe de diarisation post-traitement en plus de la transcription brute. La version mini renvoie un seul bloc de texte continu.
Pas de diffusion en temps réel de résultats partiels. L'audio entre sous forme de fichier complet (ou de fragment terminé), le texte sort. Pour le sous-titrage en direct où vous avez besoin de mises à jour d'hypothèses partielles toutes les quelques centaines de millisecondes, ce n'est pas le bon outil. Un système ASR axé sur la diffusion en continu l'est.
Pas d'horodatages au niveau des mots par défaut. Les horodatages au niveau des segments sont disponibles ; le minutage par mot ne l'est pas. Si vous créez des fichiers de sous-titres ou effectuez un alignement audio-texte serré pour le montage, cela compte.
Pas de génération audio native. Ce modèle lit uniquement l'audio. Pour la synthèse vocale, vous voulez l'un des modèles étiquetés TTS de la même famille.
Attentes en matière de précision
Le taux d'erreur de mots dépend fortement de l'audio que vous lui donnez. Sur une narration anglaise propre de qualité studio, la version mini se rapproche de son grand frère. Sur des enregistrements de terrain bruyants, l'écart s'élargit : le gpt-4o-transcribe complet est nettement plus robuste au bruit de fond, à l'accent et à la parole qui se chevauche.
La règle empirique qui mérite d'être intériorisée : choisissez la version mini pour un volume élevé, une qualité audio prévisible et des cas d'utilisation en aval tolérants. Choisissez le modèle de transcription complet lorsque l'audio est difficile, que les enjeux sont élevés ou que la transcription sera lue telle quelle par des humains. Pour une comparaison WER en conditions égales entre fournisseurs et conditions audio, le /benchmarks/leaderboard continu est la source.
Le facteur temps réel (à quelle vitesse le modèle traite l'audio par rapport au temps réel) se situe confortablement en dessous de 1,0 sur les entrées standard, ce qui le rend économique à exécuter à grande échelle. Un enregistrement d'une heure se transcrit en bien moins d'une heure de temps réel. Pour la vue coût-vitesse sur les modèles audio, consultez /benchmarks/speed.
Formats de fichiers et intégration
Le point de terminaison accepte les formats de fichiers auxquels vous vous attendez : mp3, mp4, mpeg, mpga, m4a, wav, webm, plus quelques autres. La taille maximale du fichier se situe à 25 Mo par requête via l'API standard. Pour un audio plus long, découpez-le en morceaux. La façon naturelle de le faire est sur les limites de silence plutôt que sur des intervalles de temps fixes ; couper au milieu d'un mot produit des transcriptions avec des continuations hallucinées.
L'intégration se fait via REST plus téléchargement multipartite. Il n'existe pas de variante avec entrée en streaming sur ce point de terminaison ; le fichier se télécharge en une seule fois, la transcription revient lorsque le traitement est terminé. Si vous construisez quelque chose qui doit commencer à afficher du texte avant que le locuteur ait fini de parler, regardez les modèles audio-preview de la même famille (gpt-4o-audio-preview), ou un fournisseur ASR en streaming dédié.
Où il s'intègre dans un pipeline
Les modèles courants que nous observons en production :
- Messagerie vocale vers texte dans les outils de support client. L'appelant laisse un message, mini-transcribe le traite, le texte arrive dans la file d'attente de l'agent. Le fichier vocal reste disponible pour la réécoute si nécessaire. Suffisamment économique en volume pour que vous puissiez le faire pour chaque appel, pas seulement les appels escaladés.
- Transcription de notes vocales dans les applications de messagerie. L'utilisateur maintient le micro, le relâche, le texte transcrit apparaît à côté de l'audio. La version mini est suffisamment rapide pour que l'attente semble naturelle.
- Transcriptions de première passe de podcasts et de réunions. La transcription brute passe par le modèle mini, un éditeur humain la nettoie. Associer cela à une passe de diarisation séparée et une passe de nettoyage de texte via un petit LLM produit des transcriptions publiables à une fraction du coût d'un service de transcription entièrement géré.
- Champs de formulaire qui acceptent la dictée. Utile comme étape audio-texte d'un pipeline plus long où l'étape suivante est un modèle d'extraction de données structurées.
Pour le paysage plus large des surfaces de produits pilotées par la voix, consultez /usecases/voice. Pour les pipelines qui combinent ASR avec extraction de données en aval, /usecases/data-extraction est la vue d'ensemble pertinente.
Le choisir
Utilisez gpt-4o-mini-transcribe lorsque vous voulez la pile de transcription d'OpenAI à l'extrémité économique de la courbe prix-vitesse, et que l'audio que vous traitez est raisonnablement propre. La précision est suffisante pour la plupart des cas d'utilisation de transcription grand public. La latence est suffisamment faible pour l'intégrer directement dans une interface utilisateur.
Évitez-le lorsque vous avez besoin de diarisation, de résultats partiels en temps réel, d'horodatages au niveau des mots ou de robustesse sur un audio véritablement difficile. Passez au gpt-4o-transcribe ou gpt-4o-transcribe-diarize complet, ou choisissez un fournisseur ASR spécialisé dont le métier est la transcription plutôt que les API de modèles à usage général.
Le piège caché qui mérite d'être signalé : la détection de langue est automatique. Si votre entrée est en langue mixte ou commence par une longue pause, le modèle devine parfois la mauvaise langue dans laquelle se trouve l'audio et produit une transcription dans la mauvaise cible. Passer l'indice de langue explicitement dans la requête évite cela entièrement. C'est une correction gratuite qui vaut la peine d'être faite à chaque appel où vous connaissez la langue à l'avance.
Essayez-le sur votre propre audio sur /live-test.
Dernière révision technique : 2026-05-22 — Tokonomix.ai
