Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-mini-audio-preview

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-4o Mini Audio Preview est un modèle de langage multimodal développé par OpenAI qui étend les capacités de la série GPT-4o Mini pour inclure le traitement audio. Tout en conservant la fonctionnalité de génération de texte de son prédécesseur, cette variante introduit des capacités expérimentales d'entrée et de sortie audio, lui permettant de traiter le langage parlé et de générer des réponses audio. Le modèle représente l'exploration par OpenAI de systèmes d'IA multimodaux plus accessibles capables de gérer les interactions textuelles et vocales. Conçu pour les applications nécessitant une compréhension textuelle et audio, GPT-4o Mini Audio Preview permet aux développeurs de créer des interfaces conversationnelles, des services de transcription et des applications vocales. Le modèle peut traiter des entrées audio pour comprendre des requêtes parlées et générer des sorties textuelles et audio, ce qui le rend adapté aux applications vocales interactives, aux outils d'accessibilité et aux plateformes éducatives. En tant que version preview, il offre aux développeurs un accès anticipé aux capacités audio évolutives d'OpenAI pendant que la technologie continue d'être affinée. Dans la gamme de modèles d'OpenAI, GPT-4o Mini Audio Preview se positionne comme une extension expérimentale du modèle GPT-4o Mini, lui-même positionné comme une alternative plus efficace et compacte au GPT-4o complet. La désignation « mini » indique des exigences computationnelles réduites par rapport aux modèles plus volumineux de la série, tandis que la désignation « audio preview » signale son statut développemental et sa fonctionnalité multimodale spécialisée. Le modèle maintient des performances standard de génération de texte tout en ajoutant des capacités audio qui le distinguent des variantes textuelles uniquement.

GPT-4o Mini Audio Preview étend les capacités multimodales de la série Mini vers le traitement audio expérimental, permettant aux développeurs d'explorer des interfaces vocales tout en conservant l'efficacité du modèle compact.

Analyse Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-mini-audio-preview
$0.1500 par 1M de tokens d'entrée
$0.6000 par 1M de tokens de sortie
≈ $0.0002 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1500
par 1M de tokens de sortie$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.6000

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Entrée audio native intégréeGénération de réponses vocalesArchitecture compacte et efficaceTraitement texte et audio combinéExtension naturelle de GPT-4o MiniAccès anticipé aux fonctionnalités audioAdapté aux interfaces conversationnellesSupport pour outils d'accessibilité

Faiblesses

Statut expérimental et préliminaireCapacités réduites vs modèles completsDocumentation et stabilité limitéesSpécifications techniques non communiquées
Section 03

Questions fréquentes

Cette variante ajoute des capacités expérimentales de traitement audio en entrée et sortie, permettant de gérer des interactions vocales en plus du texte. Le modèle de base reste GPT-4o Mini avec ses performances textuelles, augmenté de fonctionnalités audio en phase de développement.

Un choix stratégique pour les équipes souhaitant expérimenter avec l'audio multimodal sans déployer les modèles les plus lourds, à condition d'accepter son statut préliminaire et ses limitations inhérentes.

Évaluation Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

Premier benchmark établissant les performances de référence de gpt-4o-mini-audio-preview

Le modèle gpt-4o-mini-audio-preview d'OpenAI entre dans le benchmarking avec une base de performance initiale établie sur les principales métriques d'évaluation. Cette première évaluation révèle un modèle positionné dans la fourchette de performance intermédiaire, démontrant des capacités modérées sur les tâches standard de traitement du langage naturel. Le modèle fait preuve d'une compétence raisonnable dans le suivi d'instructions et la réponse aux questions générales, bien qu'il reste en retrait par rapport aux modèles phares dans les scénarios de raisonnement complexe. Les capacités de génération de code semblent fonctionnelles pour les tâches de base, mais montrent des limites face à des défis de programmation plus sophistiqués. Le raisonnement mathématique affiche des performances adéquates sur des problèmes simples, tout en peinant sur la déduction logique en plusieurs étapes. Le modèle présente les caractéristiques typiques d'une architecture compacte, équilibrant efficacité et compromis de capacité attendus dans cette catégorie. La qualité des réponses reste cohérente sur plusieurs séries de tests, suggérant un comportement d'inférence stable. En tant que variante preview à capacité audio, le modèle représente l'exploration par OpenAI des techniques de compression multimodale. Les utilisateurs doivent considérer cette base comme un point de départ pour suivre l'évolution du modèle à travers les mises à jour et optimisations ultérieures. Les prochaines fenêtres de benchmark révéleront si les performances progressent grâce aux ajustements ou si elles demeurent stables dans la fourchette établie.

Quality

Latency p50

Test runs

0

Performance de référence établie Qualité de réponse constante Capacité de raisonnement complexe limitée Accuse un retard significatif sur les modèles phares
Section 06

Profil complet du modèle

gpt-4o-mini-audio-preview — illustration 1
gpt-4o-mini-audio-preview : multimodal audio de petite catégorie

gpt-4o-mini-audio-preview est le modèle audio-multimodal de petite taille d'OpenAI. Même architecture audio-entrée, audio-sortie que la version complète gpt-4o-audio-preview, distillée dans la classe de taille mini. Moins cher par minute d'audio, plus rapide sur les requêtes chaudes, et d'une qualité adaptée aux charges de travail vocales qui n'ont pas besoin d'un raisonnement de pointe derrière la parole.

Il reste étiqueté en aperçu (preview). Le comportement change entre les snapshots. Épinglez la variante datée pour la stabilité en production.

À quoi sert mini-audio

L'aperçu audio complet est surdimensionné pour beaucoup de travaux vocaux. Un SVI de service client qui doit aiguiller un appelant vers la bonne file d'attente n'a pas besoin d'un raisonnement de classe GPT-4o — il a besoin d'entendre clairement l'appelant, d'analyser quelques intentions, et de répondre avec une voix naturelle. C'est précisément le point idéal de mini-audio.

Charges de travail qui correspondent :

  • Classification d'intention pilotée par la voix où le modèle choisit l'une parmi un petit ensemble d'actions selon ce que l'utilisateur a dit et la manière dont il l'a dit.
  • Outils d'accessibilité qui lisent du texte à voix haute ou qui répondent à des commandes de navigation vocales.
  • Résumé de notes vocales où la qualité audio de l'entrée est le facteur limitant de la précision, pas la capacité de raisonnement du modèle.
  • Agents vocaux sensibles au coût pour lesquels l'économie par minute de l'aperçu audio complet ne tiendrait pas face au volume.

La distillation mini abandonne la marge de raisonnement multi-étapes du modèle audio complet. Pour les boucles d'aiguillage et de réponse, ce n'est pas cette marge qui fait fonctionner l'agent vocal.

Là où le tableau des coûts compte

Les tokens audio sont chers partout. La remise du niveau mini par rapport à l'aperçu audio complet est significative lorsque vous tournez à grande échelle — déploiements SVI à fort volume, services d'accessibilité avec un trafic constant, fonctionnalités vocales dans des applications grand public.

L'arbitrage est simple. Mini-audio répond à la plupart des prompts presque aussi bien que l'aperçu complet. Sur les prompts difficiles où le modèle doit raisonner soigneusement sur ce qui a été dit avant de répondre, l'aperçu complet prend l'avantage. Si les prompts difficiles sont rares dans votre mix de trafic, mini-audio est le bon équilibre coût-qualité.

Notes d'architecture

Famille GPT-4o « omni ». L'encodeur audio alimente la même couche d'attention partagée que les encodeurs texte et vision. Le décodeur émet soit des tokens texte soit des tokens audio selon la modalité de la requête. La variante mini est un transformeur plus petit que le GPT-4o complet, distillé plutôt qu'entraîné depuis zéro, avec la même architecture de gestion des modalités.

OpenAI n'a pas publié les comptages de paramètres pour mini-audio. Comportement observable : mêmes formats audio en entrée que l'aperçu complet, même ensemble fixe de voix de sortie prédéfinies, couverture linguistique comparable avec quelques dégradations marginales sur les langues moins dotées.

Là où il échoue

Conversation bidirectionnelle en streaming. Utilisez le frère realtime mini (gpt-4o-mini-realtime-preview) pour cela. La ligne audio-preview est conçue en mode requête/réponse.

Raisonnement lourd sur ce qui a été dit. Mini est le petit modèle. Si l'agent vocal doit enchaîner des inférences sur plusieurs tours ou raisonner soigneusement sur des énoncés utilisateur ambigus, l'aperçu audio complet est le bon choix.

Charges de transcription uniquement. Si toute la tâche est audio en entrée, texte en sortie, la ligne dédiée gpt-4o-mini-transcribe est conçue à cet effet et coûte moins par minute.

Stabilité contractuelle de niveau production. Étiqueté preview. Épinglez à un snapshot daté si votre produit ne peut pas tolérer une dérive comportementale.

Quand y recourir

Choisissez gpt-4o-mini-audio-preview quand :

  • La charge vocale est sensible au coût à grande échelle et l'économie par minute de l'aperçu audio complet ne convient pas.
  • La charge de raisonnement derrière la voix est légère — aiguillage, classification, tours conversationnels courts.
  • Vous voulez un seul modèle qui gère à la fois l'audio en entrée et l'audio en sortie sans pipeline TTS séparé.

Passez votre chemin quand :

  • L'application nécessite du streaming vocal en direct — utilisez la variante mini-realtime.
  • Le raisonnement lourd fait partie de la boucle vocale — escaladez vers l'aperçu audio complet.
  • La transcription est la seule tâche — les endpoints de transcription coûtent moins.
  • Un déploiement air-gapped ou sur site est requis — voir /usecases/local.

Alternatives à vérifier

Le frère realtime mini pour la voix en streaming. Les endpoints de transcription quand vous n'avez besoin que de la conversion parole-texte. Le gpt-4o-audio-preview complet quand le raisonnement compte plus que l'économie par minute. Et — pour les équipes non verrouillées dans l'écosystème OpenAI — l'aperçu plus large des modèles vocaux sur /usecases/voice couvre ce qui est disponible chez les fournisseurs concurrents à ce niveau.

Notes de déploiement

API Chat Completions standard. L'entrée audio est un contenu inline encodé en base64 ou une référence URL. La modalité de sortie est sélectionnée par requête via le paramètre modalities. Les options de voix forment une petite liste fixe de préréglages partagée à travers la ligne audio-preview.

La facturation par token sépare l'audio en entrée, l'audio en sortie, et le texte. Les tokens audio coûtent significativement plus par unité d'information que les tokens texte — la planification de capacité vocale ressemble plus à des « minutes traitées » qu'à des « messages échangés ».

Le statut preview signifie que la surface d'API, les options de voix et les détails comportementaux peuvent évoluer entre les snapshots. Épinglez la variante datée si la stabilité comportementale est la priorité.

La lecture pragmatique. Mini-audio est le bon modèle quand la qualité vocale compte et que la charge de travail n'a pas besoin de raisonnement de pointe. C'est le mauvais modèle quand le streaming, la transcription uniquement, ou le raisonnement lourd est le vrai besoin. Testez-le contre votre audio réel sur /live-test.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-4o-mini-audio-preview — illustration 2gpt-4o-mini-audio-preview — illustration 3
Dernier test automatisé
24 mai 2026 · 04:35 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026