Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-mini-audio-preview-2024-12-17

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-4o-mini-audio-preview-2024-12-17 est un modèle de langage multimodal développé par OpenAI qui étend les capacités de la série GPT-4o mini pour inclure le traitement audio. Ce modèle représente une version expérimentale préliminaire qui combine la génération de texte avec la compréhension audio et potentiellement des capacités de sortie audio. Il est conçu pour des applications nécessitant à la fois le traitement du langage naturel et l'interaction audio, permettant aux développeurs de créer des interfaces conversationnelles capables de traiter les entrées vocales parallèlement aux interactions textuelles traditionnelles. Le modèle conserve les capacités de génération de texte attendues de la famille GPT-4o mini tout en incorporant des modalités audio. En tant que version préliminaire, il sert de terrain d'essai pour les technologies multimodales d'OpenAI, permettant aux développeurs d'expérimenter avec des applications audio avant un déploiement commercial plus large. La taille spécifique de la fenêtre de contexte n'a pas été divulguée publiquement, bien qu'elle devrait s'aligner sur d'autres modèles de la série GPT-4o. Le modèle traite les invites textuelles standard et peut gérer les entrées audio, le rendant adapté aux assistants vocaux, services de transcription, outils d'accessibilité et autres applications où la compréhension audio améliore l'expérience utilisateur. Au sein de la gamme de modèles d'OpenAI, cette variante occupe une position spécialisée en tant que version expérimentale avec capacité audio de l'architecture légère GPT-4o mini. Elle offre une alternative plus économe en ressources au modèle GPT-4o complet tout en fournissant une fonctionnalité audio que les modèles standard à texte uniquement ne possèdent pas. La désignation préliminaire indique un développement continu, avec des fonctionnalités et des caractéristiques de performance susceptibles d'évoluer selon les retours utilisateurs et le perfectionnement technique.

GPT-4o-mini-audio-preview apporte des capacités audio dans le format compact mini de la famille GPT-4o.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-mini-audio-preview-2024-12-17
$0.1500 par 1M de tokens d'entrée
$0.6000 par 1M de tokens de sortie
≈ $0.0002 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1500
par 1M de tokens de sortie$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.6000

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Format compact et efficaceTraitement audio natifLatence réduite vs variantes complètesCoût d opération moindreIntégration API standard

Faiblesses

Statut preview, instabilité possibleCapacités audio moindres vs version complèteFenêtre de contexte non documentéeFonctionnalités en développement
Section 03

Questions fréquentes

La variante mini est optimisée pour l efficacité et la vitesse, avec des ressources computationnelles réduites au prix d une légère diminution des capacités.

L efficacité du modèle mini avec des capacités audio pour les applications vocales légères.

Synthèse benchmark Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

Référence établie pour le modèle audio-preview multimodal

Ce benchmark établit la référence initiale de performance pour gpt-4o-mini-audio-preview-2024-12-17, le modèle multimodal d'OpenAI doté de capacités audio. Le modèle affiche de solides performances en raisonnement mathématique, atteignant 85.4% sur MATH-500 et 88.0% sur GSM8K, ce qui témoigne de capacités robustes pour la résolution de problèmes quantitatifs. En programmation, il obtient 72.5% sur HumanEval et 79.9% sur MBPP, le situant dans la fourchette compétente pour l'assistance au code. Le raisonnement de niveau supérieur atteint 58.9% sur GPQA Diamond, tandis que la compréhension multilingue s'établit à 74.3% sur MGSM, suggérant des performances correctes dans divers contextes linguistiques. Le modèle obtient 86.0% sur MMLU, démontrant une couverture étendue des connaissances académiques. Le suivi d'instructions atteint 66.0% sur IFEval, indiquant une marge de progression pour respecter précisément des directives complexes. En tant que variante audio-preview, ce modèle étend la série mini avec des capacités multimodales tout en maintenant son efficacité computationnelle. Ces métriques de référence serviront de point de comparaison pour suivre les évolutions, régressions ou améliorations de performance lors des prochaines fenêtres de benchmark. Les utilisateurs devraient prendre en compte ces scores pour évaluer le modèle sur des tâches mathématiques, de programmation et de raisonnement nécessitant le traitement d'entrées audio.

Quality

Latency p50

Test runs

0

Solide raisonnement mathématique établi Base de performance solide en programmation Large couverture des connaissances confirmée Le suivi des instructions doit être amélioré
Section 06

Profil complet du modèle

gpt-4o-mini-audio-preview-2024-12-17 — illustration 1
gpt-4o-mini-audio-preview-2024-12-17 : le pin mini-audio de décembre

gpt-4o-mini-audio-preview-2024-12-17 est l'instantané daté de décembre 2024 de la preview multimodale audio en petit format. Même architecture que l'alias glissant gpt-4o-mini-audio-preview tel qu'il existait à ce moment-là, figé afin que les déploiements en production puissent s'y épingler.

Le pin daté est précisément ce qui rend les produits vocaux prévisibles pendant qu'OpenAI continue d'itérer sur la ligne preview.

Ce qu'apporte l'épinglage d'un instantané mini-audio

Les produits vocaux sont inhabituellement sensibles à la dérive de version du modèle. Un petit changement dans la détection des silences signifie que l'agent coupe la parole de l'utilisateur différemment. Un petit changement de prosodie signifie que les prompts enregistrés et les réponses en direct ne donnent plus l'impression d'être la même voix. Un petit changement dans le langage de refus signifie que des scénarios scriptés qui fonctionnaient se terminent désormais par un refus poli.

La ligne mini-audio preview a livré plusieurs instantanés tout au long de 2025, chacun avec de petits décalages de comportement. S'épingler sur 2024-12-17 signifie :

  • Vous renoncez à l'accès aux améliorations de gestion des silences et de prosodie arrivées dans l'instantané de juin 2025 de la ligne audio preview complète (et qui se sont largement propagées au mini-audio).
  • Vous conservez le comportement exact qu'a validé votre évaluation de décembre 2024.

Pour des déploiements vocaux soumis à des contraintes de QA, ce compromis en vaut généralement la peine.

Ce que représente cet instantané

À décembre 2024, la preview mini-audio avait :

  • Stabilisé la surface d'API pour l'entrée audio via du contenu base64 inline.
  • Verrouillé le petit ensemble fixe de voix de sortie prédéfinies partagées avec la ligne audio preview complète.
  • Résolu les régressions prosodiques les plus perturbatrices des premières versions de la preview.

Ce qu'il n'a pas encore, par rapport aux instantanés ultérieurs :

  • Les raffinements dans la détection de fin de silence qui ont lissé le comportement de coupure de parole.
  • La réduction de la dérive vocale sur les longues sorties audio arrivée mi-2025.
  • Le langage de refus plus conversationnel que livrent les instantanés plus récents.

Si votre agent vocal a passé la QA fin 2024 ou début 2025, c'est très probablement contre cet instantané qu'il l'a passée.

La question de la migration

Le chemin honnête pour quitter cet instantané passe par un gel daté plus récent dans la même ligne, évalué contre vos scénarios. La marche à suivre :

  • Maintenez le pin de décembre en production pendant que vous évaluez.
  • Réexécutez la suite complète de scénarios vocaux contre l'instantané plus récent candidat.
  • Comparez sur les dimensions qui comptent pour votre produit — prosodie, gestion des silences, comportement de refus, couverture linguistique sur votre mix de trafic.
  • Migrez quand l'instantané plus récent l'emporte sur votre évaluation, pas sur le changelog.

C'est la même discipline de migration qui s'applique à tout pin d'instantané daté. Les produits audio amplifient le coût d'une mauvaise décision, c'est pourquoi cette discipline mérite d'être suivie plus strictement ici que pour les modèles texte.

Ses points faibles

Des contraintes héritées du reste de la ligne mini-audio preview.

Pas de streaming. La preview mini-realtime est le bon frère pour la voix bidirectionnelle en direct ; ceci relève du requête/réponse.

Pas un spécialiste de la transcription. Si la sortie texte à partir d'une entrée audio est l'ensemble de la tâche, la ligne dédiée gpt-4o-mini-transcribe coûte moins cher à la minute.

Pas déployable en dehors de l'API OpenAI. L'étude /usecases/local couvre ce qui est disponible lorsque cette contrainte s'impose.

Pas le bon tier pour du raisonnement difficile dans la voix. Mini-audio est le petit modèle. Si l'agent vocal a besoin d'un raisonnement de frontière derrière la parole, montez en gamme vers la preview audio complète.

Quand épingler cet instantané précis

Choisissez gpt-4o-mini-audio-preview-2024-12-17 quand :

  • Vous avez livré un produit vocal sur le comportement mini-audio de fin 2024 et devez le maintenir stable.
  • Une exigence de conformité ou d'audit veut que la version du modèle soit épinglée au niveau de l'instantané.
  • Vous exécutez un test A/B où le bras de contrôle doit rester constant sur plusieurs mois d'évaluation.

Sautez-le quand :

  • Vous démarrez de zéro sur la ligne mini-audio — évaluez plutôt l'instantané le plus récent.
  • Les améliorations de gestion des silences et de prosodie des instantanés ultérieurs l'ont démontrablement emporté sur votre trafic.
  • La ligne du modèle audio sort de la preview vers le stable — c'est là que les nouveaux projets doivent atterrir.

Notes de déploiement

Même API Chat Completions que le reste de la ligne mini-audio. Le pin d'instantané est purement un choix de nom de modèle ; la surface d'API est identique d'un instantané à l'autre.

Le format d'entrée audio, la sélection de modalité de sortie via le paramètre modalities et les options de voix prédéfinies sont restés constants à travers les instantanés jusqu'à présent. Les changements de comportement entre instantanés portent sur la façon dont le modèle gère l'audio, pas sur la façon dont vous l'appelez.

La facturation par tokens scinde audio en entrée, audio en sortie et texte. Les tokens audio portent un coût-par-unité-d'information significativement plus élevé que les tokens texte. La planification de capacité vocale s'apparente davantage à des « minutes traitées » qu'à des « appels API servis ».

La lecture pragmatique. Il s'agit du gel de décembre 2024 du mini-audio. Épinglez-le quand votre produit vocal a été validé contre lui. Migrez vers l'avant quand votre propre évaluation indique que l'instantané plus récent est le bon mouvement. Lancez des comparaisons côte à côte sur /live-test avant de vous engager.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-4o-mini-audio-preview-2024-12-17 — illustration 2
Dernier test automatisé
24 mai 2026 · 04:41 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026