Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-audio-preview

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-4o-audio-preview est un modèle de langage multimodal développé par OpenAI qui étend les capacités de la série GPT-4o pour inclure le traitement audio natif. Ce modèle représente une version expérimentale qui permet l'entrée et la sortie audio directes, facilitant des interactions vocales plus naturelles parallèlement à la génération de texte traditionnelle. Il s'appuie sur les fondations des capacités textuelles et visuelles de GPT-4o tout en ajoutant la compréhension et la synthèse audio en temps réel. Le modèle est conçu pour des applications nécessitant une interaction vocale, notamment les assistants IA conversationnels, les outils d'accessibilité et les systèmes de réponse vocale interactive. Il peut traiter le langage parlé directement sans nécessiter de conversion parole-texte séparée, réduisant potentiellement la latence et préservant les informations acoustiques telles que le ton et l'emphase. La désignation audio preview indique qu'il s'agit d'une version en accès anticipé destinée à l'expérimentation des développeurs et à la collecte de retours plutôt qu'à un déploiement en production complet. Au sein de la gamme de modèles OpenAI, GPT-4o-audio-preview se positionne aux côtés d'autres variantes GPT-4o comme une implémentation spécialisée axée sur les modalités audio. Bien qu'il conserve les capacités de génération de texte attendues de la famille GPT-4o, sa caractéristique distinctive est le pipeline de traitement audio intégré. Le statut « preview » suggère que les fonctionnalités et caractéristiques de performance peuvent évoluer en fonction des schémas d'utilisation et des retours utilisateurs. Comme pour les autres modèles de la série GPT-4o, il est conçu pour équilibrer capacité et considérations pratiques de déploiement, bien que les paramètres techniques spécifiques tels que la taille exacte de la fenêtre contextuelle n'aient pas été divulgués publiquement par OpenAI.

GPT-4o-audio-preview étend la famille GPT-4o avec des capacités de traitement audio natif en mode preview.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-audio-preview
$2.50 par 1M de tokens d'entrée
$10.00 par 1M de tokens de sortie
≈ $0.0035 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$2.50
par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Traitement audio natifEntrée et sortie vocaleInteraction vocale naturelleSupport multilingue audioArchitecture GPT-4o intégrée

Faiblesses

Statut preview, instabilité possibleFenêtre de contexte non documentéeFonctionnalités en évolutionNon recommandé pour production critique
Section 03

Questions fréquentes

Preview indique un accès anticipé avant la version stable, avec des performances susceptibles d évoluer et une disponibilité pouvant être limitée.

Un aperçu des futures interfaces vocales unifiées dans l écosystème OpenAI.

Synthèse benchmark Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

gpt-4o-audio-preview établit une référence avec de solides performances multimodales

Le modèle gpt-4o-audio-preview d'OpenAI entre en lice avec des performances solides sur les tâches textuelles et de programmation. Il atteint 86,6 % au MMLU, démontrant de fortes capacités de connaissances générales, et obtient 88,5 % au GPQA Diamond, indiquant un raisonnement avancé sur des questions scientifiques de niveau universitaire supérieur. Le modèle affiche des performances particulièrement robustes en mathématiques avec 74,6 % au MATH-500 et 90,7 % au GSM8K, le positionnant de manière compétitive pour les tâches de résolution de problèmes quantitatifs. En programmation, il livre 78,4 % au HumanEval et 88,0 % au MultiPL-E, témoignant de compétences solides en ingénierie logicielle. Le benchmark multilingue MGSM affiche une performance modérée à 85,6 %, suggérant une marge de progression pour le raisonnement mathématique en langues autres que l'anglais. Les capacités visuelles sont fortes avec 69,1 % au MMMU, indiquant une compréhension multimodale efficace. Le modèle établit une base de référence complète sur divers critères d'évaluation, avec des atouts particuliers en mathématiques et en programmation. Les utilisateurs peuvent s'attendre à des performances fiables sur des charges techniques et analytiques, bien que les capacités audio spécifiques du modèle nécessitent une évaluation spécialisée plus poussée au-delà de ces benchmarks standards.

Quality

Latency p50

Test runs

0

Raisonnement solide sur GPQA Diamond Bons résultats en mathématiques et en programmation Performance multimodale visuelle efficace Capacités modérées en mathématiques multilingues
Section 06

Profil complet du modèle

gpt-4o-audio-preview — illustration 1
gpt-4o-audio-preview : GPT-4o avec entrée et sortie audio

gpt-4o-audio-preview est l'instantané de prévisualisation d'OpenAI de la famille GPT-4o qui accepte l'audio en entrée et peut renvoyer de l'audio en sortie, en plus du texte habituel. Aucun relais Whisper-puis-GPT. Un seul modèle, une seule passe avant, voix aux deux extrémités.

Il ne s'agit pas du point de terminaison temps réel. C'est la variante requête/réponse. Vous envoyez un clip audio complet et une invite, vous recevez soit du texte, soit de l'audio, soit les deux. Utile lorsque vous souhaitez la qualité vocale d'un modèle unique sans la complexité de streaming de l'API temps réel.

Ce que le chemin audio natif vous apporte réellement

La pile vocale traditionnelle se compose de trois boîtes : parole-vers-texte, puis un LLM, puis texte-vers-parole. Chaque boîte ajoute de la latence, chaque boîte perd de l'information, et la prosodie meurt quelque part entre Whisper et le moteur TTS. gpt-4o-audio-preview condense tout cela en un modèle unique qui voit directement la forme d'onde.

Ce qui survit de bout en bout :

  • Ton et emphase. Le modèle entend que vous semblez frustré, ou pressé, ou sarcastique. Un pipeline de transcription supprime cela avant que le modèle de langage n'ait l'occasion de raisonner dessus.
  • Disfluences du locuteur. Pauses, redémarrages, mots de remplissage — le modèle peut choisir de les reproduire, de les lisser ou de les commenter selon l'invite système.
  • Contexte de fond. Musique, bruit ambiant, la toux au milieu d'une phrase. Rien de tout cela n'est nécessairement utile, mais le modèle a la possibilité d'en tenir compte.

Le côté sortie est symétrique. Lorsque vous demandez une réponse audio, le modèle génère la parole directement à partir de sa représentation interne plutôt que de transmettre du texte à un moteur TTS séparé. La voix a une cadence plus naturelle qu'un transfert TTS en aval parce que le modèle contrôle la prosodie dans le cadre de la génération.

Notes d'architecture

GPT-4o est la génération « omni » de GPT-4 qui gère nativement le texte, la vision et l'audio via des encodeurs spécifiques à chaque modalité alimentant un noyau de transformateur partagé. L'encodeur audio transforme les formes d'onde en embeddings continus qui occupent le même espace d'attention que les jetons de texte. Le décodeur peut émettre soit des jetons de texte soit des jetons audio selon la requête.

OpenAI n'a pas publié le nombre de paramètres, la taille du corpus d'entraînement ou les spécifications détaillées d'échantillonnage audio pour cette prévisualisation. Ce qui est observable depuis le comportement de l'API : le modèle accepte les entrées WAV et MP3, gère l'anglais et un large ensemble de langues européennes et asiatiques, et produit une sortie dans un petit ensemble de voix prédéfinies.

L'étiquette de prévisualisation est honnête. La documentation est en retard. Le comportement change entre les instantanés. Les variantes datées (2024-12-17, 2025-06-03) existent précisément parce qu'OpenAI continue de livrer des corrections incrémentielles qui affectent la prosodie, la latence et la posture de refus de manières susceptibles de casser les déploiements épinglés à « la prévisualisation audio ».

Où il se situe aujourd'hui

Deux victoires claires.

Premièrement, les agents vocaux qui ont besoin que le modèle réagisse véritablement à la façon dont l'utilisateur sonnait, pas seulement à ce qu'il a dit. Le triage du service client où un appelant stressé devrait recevoir un chemin de réponse différent d'un appelant calme. Les outils de coaching où le modèle doit commenter la livraison. Les interfaces d'accessibilité où mal entendre l'utilisateur compte plus que mal entendre les mots.

Deuxièmement, la sortie vocale où la parole synthétisée doit porter du sens, pas seulement des mots. Une application de santé lisant des instructions de médicaments avec la gravité appropriée. Un narrateur d'histoires pour enfants qui donne une voix distincte aux personnages. Tout ce pour quoi un TTS plat semblerait inapproprié.

Le modèle gère également les tâches en mode mixte avec élégance : audio en entrée, JSON structuré en sortie ; texte en entrée, audio en sortie ; audio en entrée plus image en entrée, audio en sortie. Ces combinaisons sont maladroites avec un pipeline à trois boîtes et naturelles ici.

Où il échoue

Conversation bidirectionnelle en temps réel. Utilisez gpt-4o-realtime-preview pour cela — c'est le frère de streaming conçu pour la prise de tour en direct. Le point de terminaison audio-preview est requête/réponse, ce qui signifie que l'utilisateur termine de parler, le modèle traite, le modèle répond. C'est la mauvaise forme pour une interaction de type appel téléphonique.

Transcription à haut volume. Les variantes spécifiques à la transcription (gpt-4o-transcribe, gpt-4o-mini-transcribe) sont optimisées pour cette tâche unique et coûtent moins cher par minute d'audio. Si tout ce dont vous avez besoin est du texte à partir d'audio en entrée, les points de terminaison de transcription gagnent.

Contrats stables. Ceci est une prévisualisation. La forme de l'API, les options de voix et les spécifications audio ont toutes changé d'un instantané à l'autre. Si vous avez besoin de stabilité API à long terme, épinglez un instantané daté et acceptez que vous devrez éventuellement migrer.

Déploiement auto-hébergé ou isolé. Non disponible. Les données audio quittent votre réseau et atteignent l'infrastructure d'OpenAI. Pour les charges de travail vocales réglementées qui ne peuvent tolérer cela, l'enquête sur /usecases/local est le bon point de départ.

Le choisir par rapport aux alternatives

Optez pour gpt-4o-audio-preview lorsque :

  • Vous avez besoin d'une gestion audio bidirectionnelle véritable dans un modèle unique et le timing requête/réponse est acceptable.
  • La qualité de sortie vocale compte suffisamment pour que la synthèse native du modèle surpasse une étape TTS en aval.
  • L'application bénéficie de la lecture du ton et de l'émotion par le modèle dans le cadre du raisonnement.

Évitez-le lorsque :

  • Vous avez besoin de voix en streaming en direct — utilisez plutôt la prévisualisation temps réel.
  • Tout ce dont vous avez besoin est la transcription — utilisez les points de terminaison de transcription.
  • La stabilité de production compte plus que l'accès aux capacités audio précoces.
  • Le déploiement doit être sur site ou dans une région que l'API OpenAI ne dessert pas.

Comparez-le aux autres chemins audio sur /usecases/voice, et aux alternatives du même jour d'autres fournisseurs sur /benchmarks/leaderboard.

Notes de déploiement

API standard OpenAI Chat Completions. L'audio est transmis en ligne sous forme de contenu encodé en base64 ou en tant qu'URL. La modalité de sortie est demandée via le paramètre modalities (["text", "audio"] ou juste ["audio"]). La sélection de voix se fait via un paramètre voice avec un petit ensemble fixe d'options.

La facturation des jetons est divisée : les jetons d'entrée audio, les jetons de sortie audio et les jetons de texte sont comptabilisés séparément. Le comportement des coûts n'est pas équivalent à l'utilisation texte uniquement — les jetons audio consomment plus d'unités de facturation par unité d'information que les jetons de texte. Planifiez la capacité en conséquence.

Les journaux suivent les règles de rétention standard d'OpenAI. La rétention zéro nécessite un contrat entreprise.

La lecture pragmatique. Cette prévisualisation est le bon modèle lorsque la fidélité audio de bout en bout est le point crucial, et le mauvais modèle lorsque la transcription, le streaming en temps réel ou la stabilité de production est le point crucial. Testez-le avec vos invites réelles sur /live-test avant de vous engager.

Dernière révision technique : 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview — illustration 2gpt-4o-audio-preview — illustration 3
Dernier test automatisé
24 mai 2026 · 04:40 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026