Ce modèle peut-il traiter la tonalité émotionnelle dans la voix ?

Les modèles audio avancés tendent à mieux préserver les nuances vocales comme le ton, mais les capacités exactes dépendent des spécifications officielles.

Convient-il à la création de doublages automatiques ?

Les capacités de synthèse vocale naturelle le rendent intéressant pour ce cas d usage, bien que des solutions spécialisées puissent offrir plus de contrôle.

Ce modèle gère-t-il le bruit de fond dans les entrées audio ?

Les LLM multimodaux modernes ont une robustesse améliorée face aux conditions audio imparfaites, mais la qualité sonore reste un facteur.

Comment s intègre-t-il dans un pipeline de traitement vocal ?

Via l API OpenAI standard avec les paramètres appropriés pour les entrées et sorties audio dans votre workflow de traitement.

Fonctionne en :USCréé en :United States

Archivé

Ce modèle a été retiré par le fournisseur. Les données historiques sont conservées.

Plus disponible depuis le 24 mai 2026.

OpenAI

gpt-4o-audio-preview-2025-06-03

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

GPT-4o-audio-preview-2025-06-03 est un modèle de langage multimodal développé par OpenAI, représentant une évolution dans la famille GPT-4 avec des capacités améliorées de traitement audio. Ce modèle dépasse la génération de texte standard pour prendre en charge nativement l'entrée et la sortie audio, lui permettant de traiter le langage parlé, les sons environnementaux et de générer des réponses vocales naturelles. La mention « preview » indique qu'il s'agit d'une version de développement destinée aux tests et à l'évaluation avant une version stable, le suffixe de date suggérant son moment de capture dans le pipeline de publication d'OpenAI. Le modèle est conçu pour des applications nécessitant une intégration fluide des modalités texte et audio, notamment les assistants vocaux, les systèmes de conversation en temps réel, la transcription audio avec compréhension contextuelle et les outils d'accessibilité. Son architecture s'appuie sur la base GPT-4 tout en intégrant des composants spécialisés pour l'encodage et le décodage audio, lui permettant de maintenir un contexte conversationnel à travers les interactions écrites et orales. Le modèle prend en charge les tâches standard de génération de texte tout en ajoutant la capacité de comprendre les nuances vocales, le ton et les éléments audio non verbaux. Dans la gamme de modèles d'OpenAI, cette variante se positionne aux côtés d'autres itérations GPT-4o en tant que version preview spécialisée axée sur la fonctionnalité audio. Elle reflète le développement continu par OpenAI de modèles omni-modaux — des systèmes capables de traiter nativement plusieurs types d'entrées plutôt que par des étapes de prétraitement séparées. Le statut preview signifie que les capacités et les caractéristiques de performance pourront évoluer à mesure qu'OpenAI affine le modèle en fonction des retours d'utilisation et d'un entraînement complémentaire.

GPT-4o-audio-preview de juin 2025 apporte les dernières améliorations audio d OpenAI dans un snapshot daté.
— Synthèse benchmark Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — gpt-4o-audio-preview-2025-06-03

$2.50 par 1M de tokens d'entrée

$10.00 par 1M de tokens de sortie

≈ $0.0035 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$2.50

par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Traitement audio et texte natifsGénération de parole naturelleSupport multilingueSnapshot stable de juin 2025Améliorations vs versions antérieures

Faiblesses

Encore en statut previewFenêtre de contexte non documentéeFonctionnalités susceptibles d évoluerRessources audio supérieures au texte seul

Section 03

Questions fréquentes

Comme snapshot plus récent, il intègre les améliorations apportées depuis décembre 2024, notamment en qualité audio et gestion des nuances vocales.

La version juin 2025 offre les améliorations les plus récentes des capacités audio dans la famille GPT-4o.
— Synthèse benchmark Tokonomix

Section 04

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

● 2026-05-24

Le premier benchmark établit une performance de référence sur les capacités fondamentales

Ce benchmark inaugural établit les mesures de performance de référence pour GPT-4o Audio Preview. Le modèle démontre de solides capacités en raisonnement mathématique, atteignant 83,6 % sur MATH-500 et 90,8 % sur GSM8K, indiquant une performance robuste tant sur des problèmes de niveau compétition que sur les mathématiques élémentaires. Les compétences en programmation affichent une bonne maîtrise avec 80,8 % sur HumanEval et 85,4 % sur MBPP, suggérant une génération de code fiable pour les tâches courantes. La performance multilingue apparaît solide à 75,9 % sur MMMLU, tandis que les capacités de connaissances générales atteignent 88,7 % sur MMLU. Le modèle gère les tâches multimodales avec 66,9 % sur MMMU et obtient 52,3 % sur GPQA Diamond, un benchmark de raisonnement scientifique particulièrement exigeant. Le suivi d'instructions obtient 73,0 % sur IFEval, et l'écriture créative récolte 71,0 % sur CreativeWriting. S'agissant de la première fenêtre de benchmark, ces métriques servent de référence pour suivre les évolutions futures. Les utilisateurs peuvent s'attendre à des performances solides sur des tâches variées incluant les mathématiques, la programmation, la recherche de connaissances et les applications créatives, avec une force particulière en raisonnement mathématique et connaissances générales.

Quality

—

Latency p50

—

Test runs

✓ Base solide en raisonnement mathématique✓ Performances solides établies en programmation✓ Capacités multilingues robustes✓ Première référence de benchmark établie

Section 06

Profil complet du modèle

gpt-4o-audio-preview-2025-06-03 : la mise à jour audio de mi-2025

gpt-4o-audio-preview-2025-06-03 est l'instantané de juin 2025 de la prévisualisation audio-multimodale d'OpenAI. Six mois après le gel de décembre 2024, la trajectoire audio avait mûri — prosodie plus sobre, meilleure gestion des silences, et ce type de raffinements subtils qui ne se révèlent que lors d'une comparaison côte à côte des instantanés.

Il s'agit toujours d'une version marquée « preview ». Cette étiquette constitue un contrat : la forme de l'API peut évoluer, le comportement peut changer, et la ligne dans son ensemble est encore en chemin vers une version stable. La balise datée est ce à quoi vous vous accrochez pour maintenir ce comportement exact en place pendant qu'OpenAI poursuit le développement.

Ce qui a changé depuis l'instantané de décembre

OpenAI ne publie pas de journal de modifications détaillé pour la piste audio, mais la différence comportementale est observable à partir d'exécutions côte à côte sur les mêmes invites scriptées. L'instantané de juin 2025 est livré avec :

Une détection de fin de silence plus précise. Le modèle n'interrompt plus aussi promptement l'utilisateur lorsque celui-ci marque une pause en milieu de phrase.
Des transitions prosodiques plus fluides sur les sorties audio multi-phrases. L'instantané de décembre produisait occasionnellement des transitions plates entre les phrases ; celui-ci maintient l'intonation à travers les sauts de paragraphe.
Une réduction de la « dérive vocale » sur les sorties audio longues où la voix synthétisée changeait progressivement de timbre au cours d'une longue génération.
Un langage de refus qui semble plus conversationnel et moins formaté.

Ce qui n'a pas changé de manière évidente : la couverture des langues en entrée, le petit ensemble fixe de voix de sortie, la surface de l'API de base et la structure de facturation par jeton.

Quand la mise à niveau vaut la peine d'être effectuée

La réponse honnête est « lorsque votre évaluation le dit ». Les mises à niveau de modèles audio sont le mauvais endroit pour faire des sauts de foi guidés par le journal de modifications. La forme opérationnelle :

Maintenez l'instantané de décembre en production pendant que vous évaluez.
Exécutez la suite complète de scénarios vocaux contre 2025-06-03 sur les mêmes invites.
Surveillez les régressions sur les cas limites que l'ancien instantané gérait — même des moyennes améliorées peuvent masquer des scénarios spécifiques qui se sont dégradés.
Migrez lorsque l'instantané plus récent l'emporte sur les métriques qui comptent pour votre produit, et non sur celles qu'OpenAI a mises en avant dans les notes de version.

Pour les produits vocaux qui s'appuient sur la prosodie — outils de coaching, narrateurs d'accessibilité, tout ce où le modèle est en représentation plutôt que simplement en train de parler — l'instantané de juin 2025 est généralement le meilleur choix par défaut.

Où se situe cet instantané aujourd'hui

À la mi-2026, cet instantané est le gel le plus récent que la plupart des équipes citent lorsqu'elles disent « le modèle audio GPT-4o » sans qualification supplémentaire. C'est également l'instantané qui est resté en production suffisamment longtemps pour que ses particularités comportementales soient bien documentées dans les forums communautaires.

Pour les nouveaux projets vocaux qui démarrent en 2026, le choix se situe entre cet instantané, tout ce qui est plus récent qu'OpenAI a publié depuis, et l'éventuelle version stable de la ligne audio. Le cas d'usage pour l'ancrage ici est le même que le cas d'usage pour l'ancrage de n'importe quel instantané daté : vous échangez l'accès aux améliorations contre la stabilité comportementale.

Où il présente des lacunes

Les contraintes héritées du reste de la ligne audio-preview s'appliquent toujours.

Pas un point de terminaison en streaming. La prévisualisation temps réel est le bon choix pour une conversation bidirectionnelle en direct ; celle-ci est requête/réponse.

Pas un spécialiste de la transcription. Si la sortie texte à partir d'une entrée audio constitue la totalité de la tâche, les points de terminaison de transcription dédiés coûtent moins cher par minute.

Pas déployable en dehors de l'API OpenAI. Pas d'option sur site, pas de chemin en environnement isolé. L'enquête /usecases/local couvre ce qui est disponible lorsque ces contraintes s'appliquent.

Quand ancrer cet instantané

Ancrez gpt-4o-audio-preview-2025-06-03 lorsque :

Vous avez évalué la ligne audio entre mi et fin 2025 et c'est l'instantané qui a réussi les tests.
La qualité de la prosodie compte suffisamment pour que les améliorations par rapport à l'instantané de décembre justifient le coût de migration.
Vous avez besoin d'une cible comportementale stable en attendant que la ligne audio sorte du statut de prévisualisation.

Ignorez-le lorsque :

Un instantané plus récent est disponible et a remporté votre évaluation.
Le modèle audio stable final a été promu hors du statut de prévisualisation.
Vous avez uniquement besoin de transcription ou uniquement besoin de streaming en temps réel — les points de terminaison spécialisés sont le meilleur choix.

Notes de déploiement

Même API Chat Completions que le reste de la famille GPT-4o. Le nom du modèle constitue l'unité de migration. Le format d'entrée audio, la sélection de modalité de sortie et les paramètres vocaux sont inchangés par rapport à l'instantané de décembre.

La facturation par jeton distingue l'audio entrant, l'audio sortant et le texte. Les jetons audio comportent un coût par unité d'information sensiblement plus élevé que les jetons texte. La planification de capacité pour les produits vocaux se rapproche davantage de « minutes d'audio traitées » que de « messages échangés ».

La lecture pragmatique. Il s'agit du frère mieux élevé de l'instantané de décembre. Ancrez-le lorsque votre produit vocal a été validé contre celui-ci, migrez vers lui depuis l'ancrage de décembre lorsque votre évaluation montre que les gains de prosodie valent la peine d'être saisis, et surveillez le journal de modifications pour ce qu'OpenAI promouvra en stable ensuite. Effectuez une comparaison côte à côte sur /live-test avant de décider.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

24 mai 2026 · 04:46 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026