
gpt-4o-mini-audio-preview est le modèle audio-multimodal de petite taille d'OpenAI. Même architecture audio-entrée, audio-sortie que la version complète gpt-4o-audio-preview, distillée dans la classe de taille mini. Moins cher par minute d'audio, plus rapide sur les requêtes chaudes, et d'une qualité adaptée aux charges de travail vocales qui n'ont pas besoin d'un raisonnement de pointe derrière la parole.
Il reste étiqueté en aperçu (preview). Le comportement change entre les snapshots. Épinglez la variante datée pour la stabilité en production.
À quoi sert mini-audio
L'aperçu audio complet est surdimensionné pour beaucoup de travaux vocaux. Un SVI de service client qui doit aiguiller un appelant vers la bonne file d'attente n'a pas besoin d'un raisonnement de classe GPT-4o — il a besoin d'entendre clairement l'appelant, d'analyser quelques intentions, et de répondre avec une voix naturelle. C'est précisément le point idéal de mini-audio.
Charges de travail qui correspondent :
- Classification d'intention pilotée par la voix où le modèle choisit l'une parmi un petit ensemble d'actions selon ce que l'utilisateur a dit et la manière dont il l'a dit.
- Outils d'accessibilité qui lisent du texte à voix haute ou qui répondent à des commandes de navigation vocales.
- Résumé de notes vocales où la qualité audio de l'entrée est le facteur limitant de la précision, pas la capacité de raisonnement du modèle.
- Agents vocaux sensibles au coût pour lesquels l'économie par minute de l'aperçu audio complet ne tiendrait pas face au volume.
La distillation mini abandonne la marge de raisonnement multi-étapes du modèle audio complet. Pour les boucles d'aiguillage et de réponse, ce n'est pas cette marge qui fait fonctionner l'agent vocal.
Là où le tableau des coûts compte
Les tokens audio sont chers partout. La remise du niveau mini par rapport à l'aperçu audio complet est significative lorsque vous tournez à grande échelle — déploiements SVI à fort volume, services d'accessibilité avec un trafic constant, fonctionnalités vocales dans des applications grand public.
L'arbitrage est simple. Mini-audio répond à la plupart des prompts presque aussi bien que l'aperçu complet. Sur les prompts difficiles où le modèle doit raisonner soigneusement sur ce qui a été dit avant de répondre, l'aperçu complet prend l'avantage. Si les prompts difficiles sont rares dans votre mix de trafic, mini-audio est le bon équilibre coût-qualité.
Notes d'architecture
Famille GPT-4o « omni ». L'encodeur audio alimente la même couche d'attention partagée que les encodeurs texte et vision. Le décodeur émet soit des tokens texte soit des tokens audio selon la modalité de la requête. La variante mini est un transformeur plus petit que le GPT-4o complet, distillé plutôt qu'entraîné depuis zéro, avec la même architecture de gestion des modalités.
OpenAI n'a pas publié les comptages de paramètres pour mini-audio. Comportement observable : mêmes formats audio en entrée que l'aperçu complet, même ensemble fixe de voix de sortie prédéfinies, couverture linguistique comparable avec quelques dégradations marginales sur les langues moins dotées.
Là où il échoue
Conversation bidirectionnelle en streaming. Utilisez le frère realtime mini (gpt-4o-mini-realtime-preview) pour cela. La ligne audio-preview est conçue en mode requête/réponse.
Raisonnement lourd sur ce qui a été dit. Mini est le petit modèle. Si l'agent vocal doit enchaîner des inférences sur plusieurs tours ou raisonner soigneusement sur des énoncés utilisateur ambigus, l'aperçu audio complet est le bon choix.
Charges de transcription uniquement. Si toute la tâche est audio en entrée, texte en sortie, la ligne dédiée gpt-4o-mini-transcribe est conçue à cet effet et coûte moins par minute.
Stabilité contractuelle de niveau production. Étiqueté preview. Épinglez à un snapshot daté si votre produit ne peut pas tolérer une dérive comportementale.
Quand y recourir
Choisissez gpt-4o-mini-audio-preview quand :
- La charge vocale est sensible au coût à grande échelle et l'économie par minute de l'aperçu audio complet ne convient pas.
- La charge de raisonnement derrière la voix est légère — aiguillage, classification, tours conversationnels courts.
- Vous voulez un seul modèle qui gère à la fois l'audio en entrée et l'audio en sortie sans pipeline TTS séparé.
Passez votre chemin quand :
- L'application nécessite du streaming vocal en direct — utilisez la variante mini-realtime.
- Le raisonnement lourd fait partie de la boucle vocale — escaladez vers l'aperçu audio complet.
- La transcription est la seule tâche — les endpoints de transcription coûtent moins.
- Un déploiement air-gapped ou sur site est requis — voir /usecases/local.
Alternatives à vérifier
Le frère realtime mini pour la voix en streaming. Les endpoints de transcription quand vous n'avez besoin que de la conversion parole-texte. Le gpt-4o-audio-preview complet quand le raisonnement compte plus que l'économie par minute. Et — pour les équipes non verrouillées dans l'écosystème OpenAI — l'aperçu plus large des modèles vocaux sur /usecases/voice couvre ce qui est disponible chez les fournisseurs concurrents à ce niveau.
Notes de déploiement
API Chat Completions standard. L'entrée audio est un contenu inline encodé en base64 ou une référence URL. La modalité de sortie est sélectionnée par requête via le paramètre modalities. Les options de voix forment une petite liste fixe de préréglages partagée à travers la ligne audio-preview.
La facturation par token sépare l'audio en entrée, l'audio en sortie, et le texte. Les tokens audio coûtent significativement plus par unité d'information que les tokens texte — la planification de capacité vocale ressemble plus à des « minutes traitées » qu'à des « messages échangés ».
Le statut preview signifie que la surface d'API, les options de voix et les détails comportementaux peuvent évoluer entre les snapshots. Épinglez la variante datée si la stabilité comportementale est la priorité.
La lecture pragmatique. Mini-audio est le bon modèle quand la qualité vocale compte et que la charge de travail n'a pas besoin de raisonnement de pointe. C'est le mauvais modèle quand le streaming, la transcription uniquement, ou le raisonnement lourd est le vrai besoin. Testez-le contre votre audio réel sur /live-test.
Dernière revue technique : 2026-05-22 — Tokonomix.ai

