Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-audio-preview-2024-12-17

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-4o-audio-preview-2024-12-17 est un modèle de langage multimodal développé par OpenAI qui étend les capacités de la série GPT-4o pour inclure le traitement audio natif. Ce modèle peut accepter et générer des entrées et sorties à la fois textuelles et audio, permettant des applications nécessitant une interaction vocale, une compréhension audio ou une synthèse vocale. En tant que version préliminaire publiée en décembre 2024, il illustre les travaux continus d'OpenAI sur des modèles capables de traiter plusieurs modalités au sein d'une architecture unifiée, plutôt que via des systèmes distincts en pipeline. Le modèle est conçu pour les applications exigeant une interaction vocale en temps réel, une analyse de contenu audio, ou des scénarios où le contexte audio apporte des informations importantes au-delà du texte seul. Son architecture technique s'appuie sur les fondations de GPT-4o, qui intègre le traitement de la vision, du texte et de l'audio dans un seul modèle plutôt qu'en combinant plusieurs modèles spécialisés distincts. La taille spécifique de la fenêtre de contexte n'a pas été documentée publiquement par OpenAI au moment de cette version préliminaire. Au sein de la gamme de modèles d'OpenAI, GPT-4o-audio-preview se positionne aux côtés des autres variantes GPT-4o comme une offre expérimentale donnant aux développeurs un accès anticipé aux capacités audio avant leur intégration dans les modèles de production principaux. En tant que modèle en préversion, il peut présenter des caractéristiques de performance, des limitations ou une disponibilité différentes par rapport aux versions de production stables d'OpenAI. Le modèle prend en charge les tâches standards de génération de texte tout en ajoutant la prise en charge de la modalité audio, ce qui le rend adapté aux développeurs explorant des applications à commande vocale ou des cas d'usage centrés sur l'audio.

Le snapshot de décembre 2024 de GPT-4o-audio-preview marque une étape dans le développement des modèles audio d OpenAI.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-audio-preview-2024-12-17
$2.50 par 1M de tokens d'entrée
$10.00 par 1M de tokens de sortie
≈ $0.0035 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$2.50
par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Traitement audio natif intégréGénération de réponses vocalesComportement figé et reproductibleSupport multilingue audioIntégration API OpenAI standard

Faiblesses

Statut preview avec limitationsFenêtre de contexte non documentéeLatence audio supérieure au texte seulFonctionnalités susceptibles d évoluer
Section 03

Questions fréquentes

Pour les développements nécessitant un comportement audio stable et reproductible, les versions datées garantissent l invariabilité.

Un snapshot daté offrant un comportement stable pour les expérimentations avec les capacités audio d OpenAI.

Synthèse benchmark Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

Base multimodale solide avec de hautes capacités d'écriture créative

Le modèle GPT-4o audio preview établit une base de référence compétitive sur les benchmarks standards. Il atteint 87,2 % au MMLU, le plaçant parmi les modèles de langage de premier rang, et affiche des performances particulièrement solides en rédaction créative avec une note de 86,5 % sur les tâches d'écriture créative. Le modèle démontre un raisonnement mathématique fiable avec 83,9 % au MATH-500 et conserve une précision élevée dans le suivi d'instructions à 86,8 %. Les capacités de génération de code sont robustes avec un taux de réussite de 79,0 % sur HumanEval, tandis que le support multilingue s'avère compétent à 78,3 % au MMMLU. Le modèle obtient ces résultats avec une fenêtre de contexte de 128 000 tokens et traite à 58,7 tokens par seconde, offrant un débit raisonnable pour la plupart des applications. En tant que variante audio-preview, ce modèle représente l'intégration par OpenAI des capacités multimodales dans l'architecture GPT-4o. Les utilisateurs peuvent s'attendre à des performances fiables sur des tâches variées, avec une force particulière dans les applications créatives et les tâches de culture générale. La performance équilibrée du modèle sur l'ensemble des benchmarks suggère qu'il convient bien comme assistant polyvalent, bien que les cas d'usage spécialisés puissent bénéficier d'une comparaison avec des alternatives propres à un domaine.

Quality

Latency p50

Test runs

0

Solides performances MMLU à 87,2 % Excellentes capacités d'écriture créative Fenêtre de contexte de 128K jetons Bons résultats en génération de code
Section 06

Profil complet du modèle

gpt-4o-audio-preview-2024-12-17 — illustration 1
gpt-4o-audio-preview-2024-12-17 : l'épingle de décembre

gpt-4o-audio-preview-2024-12-17 est le snapshot daté de décembre 2024 de la ligne preview audio-multimodale d'OpenAI. Même famille de modèles que gpt-4o-audio-preview. Même architecture audio-en-entrée, audio-en-sortie. Point de gel différent.

La raison même d'épingler un snapshot daté tient à la stabilité contractuelle. L'alias gpt-4o-audio-preview avance au fur et à mesure qu'OpenAI livre des modifications ; ce snapshot, lui, ne bouge pas. Si vous avez validé des prompts vocaux, évalué la prosodie et expédié un produit reposant sur un comportement précis, le tag daté est ce qui garantit que ce produit continuera à se comporter comme le jour de sa mise en production.

Ce que représente ce snapshot

Décembre 2024 est le point de stabilité précoce de la ligne preview audio GPT-4o. À cette release, OpenAI avait :

  • Verrouillé la forme de l'API pour l'entrée audio via du contenu inline en base64.
  • Arrêté le petit ensemble fixe de voix de sortie préréglées.
  • Résolu les régressions de prosodie les plus perturbantes des premières livraisons preview.

Ce qu'il n'a pas encore, relativement aux snapshots ultérieurs de 2025 :

  • La meilleure gestion des silences livrée avec le snapshot de juin 2025.
  • Les raffinements de posture de refus apparus dans les révisions suivantes.
  • Les améliorations de latence apportées par les changements d'infrastructure backend au cours du T2 2025.

Si vous avez mené votre évaluation fin 2024 ou début 2025 et que le modèle a été validé, c'est probablement ce snapshot qui a passé l'épreuve. Cela suffit à justifier de continuer à l'utiliser tant qu'OpenAI le supporte.

La raison d'épingler plutôt que de suivre l'alias

La ligne preview audio possède un historique documenté de dérives comportementales entre snapshots. La cadence vocale change. Les seuils de détection des pauses changent. Le langage des refus change. Aucun de ces points n'est un bug — ce sont les conséquences naturelles d'une surface preview activement développée. Ce sont aussi exactement le type de changements qui cassent un agent vocal en production le lendemain de leur déploiement.

Épingler à 2024-12-17 revient à un arbitrage en deux temps :

  • Vous renoncez à l'accès automatique aux améliorations. Les snapshots ultérieurs offrent une meilleure prosodie sur les cas difficiles.
  • Vous rachetez de la prévisibilité comportementale. Le modèle qui a géré vos scénarios scriptés hier les gérera de la même façon demain.

Pour les équipes qui font passer un produit vocal en QA, épingler est la bonne valeur par défaut. Pour celles en mode recherche active, l'alias roulant a davantage de sens.

Quand migrer hors de ce snapshot

La voie honnête pour sortir de ce snapshot consiste à avancer vers gpt-4o-audio-preview-2025-06-03 ou vers ce qu'OpenAI promouvra en stable après la phase preview. La décision de migration doit être fondée sur des preuves :

  • Rejouez la totalité de votre suite d'évaluation vocale contre le snapshot plus récent.
  • Comparez sur la prosodie, la latence, le comportement de refus et la gestion des tours de parole dans les cas limites.
  • Migrez quand le snapshot plus récent l'emporte sur votre évaluation, pas sur le changelog.

Toute autre approche revient à upgrader par confiance aveugle, et le comportement audio est le pire endroit où upgrader par confiance aveugle.

Là où il flanche

Mêmes contraintes que le reste de la ligne audio-preview.

Pas un endpoint temps réel. Les frères et sœurs realtime-preview existent pour le streaming vocal bidirectionnel ; ce snapshot fonctionne en requête/réponse.

Pas un spécialiste de la transcription. La ligne gpt-4o-transcribe est moins chère à la minute d'audio si tout ce dont vous avez besoin est du texte en sortie.

Pas air-gapped. API OpenAI uniquement. Pour les charges vocales qui ne peuvent pas sortir d'un réseau contrôlé, le panorama sur /usecases/local est la bonne référence.

Quand piocher précisément ce snapshot

Choisissez gpt-4o-audio-preview-2024-12-17 lorsque :

  • Vous avez expédié un produit vocal sur le comportement de fin 2024 de la preview audio et devez le maintenir stable.
  • Vous migrez un déploiement existant qui a été validé contre ce snapshot et souhaitez un basculement propre avant d'évaluer des révisions plus récentes.
  • Vous avez besoin d'un point de référence fixe pour effectuer des tests de régression de snapshots plus récents dans votre propre harnais d'évaluation.

Passez votre tour lorsque :

  • Vous démarrez de zéro — évaluez le dernier snapshot disponible et épinglez-le.
  • Vous avez besoin des améliorations de prosodie, de gestion des silences ou de latence apportées par la révision de juin 2025.
  • La release stable définitive de la ligne du modèle audio est disponible — c'est là que les nouveaux projets devraient atterrir.

Notes de déploiement

API Chat Completions standard. Le nom du modèle est la seule chose qui change entre les épingles de snapshot. Le format d'entrée audio, la sélection de la modalité de sortie et les options de voix sont identiques d'un snapshot à l'autre.

La facturation des tokens se répartit entre entrée audio, sortie audio et flux texte. Les tokens audio sont plus coûteux par unité d'information que les tokens texte — planifiez la capacité en conséquence.

La politique de dépréciation d'OpenAI donne un préavis ample avant le retrait des snapshots datés, mais la ligne preview est par définition moins stable que les modèles de production. Surveillez le changelog et tenez prête une voie de migration testée.

En résumé. C'est le gel de décembre 2024 de la preview audio. Épinglez-le quand vous avez un produit vocal en service qui a été validé contre lui. Quittez-le quand un snapshot plus récent l'emporte de manière démontrable sur votre propre évaluation, et non sur les notes de release d'OpenAI. Lancez des comparaisons côte à côte sur /live-test avant toute migration.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview-2024-12-17 — illustration 2
Dernier test automatisé
24 mai 2026 · 04:46 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026