Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-audio-preview-2025-06-03

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-4o-audio-preview-2025-06-03 est un modèle de langage multimodal développé par OpenAI, représentant une évolution dans la famille GPT-4 avec des capacités améliorées de traitement audio. Ce modèle dépasse la génération de texte standard pour prendre en charge nativement l'entrée et la sortie audio, lui permettant de traiter le langage parlé, les sons environnementaux et de générer des réponses vocales naturelles. La mention « preview » indique qu'il s'agit d'une version de développement destinée aux tests et à l'évaluation avant une version stable, le suffixe de date suggérant son moment de capture dans le pipeline de publication d'OpenAI. Le modèle est conçu pour des applications nécessitant une intégration fluide des modalités texte et audio, notamment les assistants vocaux, les systèmes de conversation en temps réel, la transcription audio avec compréhension contextuelle et les outils d'accessibilité. Son architecture s'appuie sur la base GPT-4 tout en intégrant des composants spécialisés pour l'encodage et le décodage audio, lui permettant de maintenir un contexte conversationnel à travers les interactions écrites et orales. Le modèle prend en charge les tâches standard de génération de texte tout en ajoutant la capacité de comprendre les nuances vocales, le ton et les éléments audio non verbaux. Dans la gamme de modèles d'OpenAI, cette variante se positionne aux côtés d'autres itérations GPT-4o en tant que version preview spécialisée axée sur la fonctionnalité audio. Elle reflète le développement continu par OpenAI de modèles omni-modaux — des systèmes capables de traiter nativement plusieurs types d'entrées plutôt que par des étapes de prétraitement séparées. Le statut preview signifie que les capacités et les caractéristiques de performance pourront évoluer à mesure qu'OpenAI affine le modèle en fonction des retours d'utilisation et d'un entraînement complémentaire.

GPT-4o-audio-preview de juin 2025 apporte les dernières améliorations audio d OpenAI dans un snapshot daté.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-audio-preview-2025-06-03
$2.50 par 1M de tokens d'entrée
$10.00 par 1M de tokens de sortie
≈ $0.0035 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$2.50
par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Traitement audio et texte natifsGénération de parole naturelleSupport multilingueSnapshot stable de juin 2025Améliorations vs versions antérieures

Faiblesses

Encore en statut previewFenêtre de contexte non documentéeFonctionnalités susceptibles d évoluerRessources audio supérieures au texte seul
Section 03

Questions fréquentes

Comme snapshot plus récent, il intègre les améliorations apportées depuis décembre 2024, notamment en qualité audio et gestion des nuances vocales.

La version juin 2025 offre les améliorations les plus récentes des capacités audio dans la famille GPT-4o.

Synthèse benchmark Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

Le premier benchmark établit une performance de référence sur les capacités fondamentales

Ce benchmark inaugural établit les mesures de performance de référence pour GPT-4o Audio Preview. Le modèle démontre de solides capacités en raisonnement mathématique, atteignant 83,6 % sur MATH-500 et 90,8 % sur GSM8K, indiquant une performance robuste tant sur des problèmes de niveau compétition que sur les mathématiques élémentaires. Les compétences en programmation affichent une bonne maîtrise avec 80,8 % sur HumanEval et 85,4 % sur MBPP, suggérant une génération de code fiable pour les tâches courantes. La performance multilingue apparaît solide à 75,9 % sur MMMLU, tandis que les capacités de connaissances générales atteignent 88,7 % sur MMLU. Le modèle gère les tâches multimodales avec 66,9 % sur MMMU et obtient 52,3 % sur GPQA Diamond, un benchmark de raisonnement scientifique particulièrement exigeant. Le suivi d'instructions obtient 73,0 % sur IFEval, et l'écriture créative récolte 71,0 % sur CreativeWriting. S'agissant de la première fenêtre de benchmark, ces métriques servent de référence pour suivre les évolutions futures. Les utilisateurs peuvent s'attendre à des performances solides sur des tâches variées incluant les mathématiques, la programmation, la recherche de connaissances et les applications créatives, avec une force particulière en raisonnement mathématique et connaissances générales.

Quality

Latency p50

Test runs

0

Base solide en raisonnement mathématique Performances solides établies en programmation Capacités multilingues robustes Première référence de benchmark établie
Section 06

Profil complet du modèle

gpt-4o-audio-preview-2025-06-03 — illustration 1
gpt-4o-audio-preview-2025-06-03 : la mise à jour audio de mi-2025

gpt-4o-audio-preview-2025-06-03 est l'instantané de juin 2025 de la prévisualisation audio-multimodale d'OpenAI. Six mois après le gel de décembre 2024, la trajectoire audio avait mûri — prosodie plus sobre, meilleure gestion des silences, et ce type de raffinements subtils qui ne se révèlent que lors d'une comparaison côte à côte des instantanés.

Il s'agit toujours d'une version marquée « preview ». Cette étiquette constitue un contrat : la forme de l'API peut évoluer, le comportement peut changer, et la ligne dans son ensemble est encore en chemin vers une version stable. La balise datée est ce à quoi vous vous accrochez pour maintenir ce comportement exact en place pendant qu'OpenAI poursuit le développement.

Ce qui a changé depuis l'instantané de décembre

OpenAI ne publie pas de journal de modifications détaillé pour la piste audio, mais la différence comportementale est observable à partir d'exécutions côte à côte sur les mêmes invites scriptées. L'instantané de juin 2025 est livré avec :

  • Une détection de fin de silence plus précise. Le modèle n'interrompt plus aussi promptement l'utilisateur lorsque celui-ci marque une pause en milieu de phrase.
  • Des transitions prosodiques plus fluides sur les sorties audio multi-phrases. L'instantané de décembre produisait occasionnellement des transitions plates entre les phrases ; celui-ci maintient l'intonation à travers les sauts de paragraphe.
  • Une réduction de la « dérive vocale » sur les sorties audio longues où la voix synthétisée changeait progressivement de timbre au cours d'une longue génération.
  • Un langage de refus qui semble plus conversationnel et moins formaté.

Ce qui n'a pas changé de manière évidente : la couverture des langues en entrée, le petit ensemble fixe de voix de sortie, la surface de l'API de base et la structure de facturation par jeton.

Quand la mise à niveau vaut la peine d'être effectuée

La réponse honnête est « lorsque votre évaluation le dit ». Les mises à niveau de modèles audio sont le mauvais endroit pour faire des sauts de foi guidés par le journal de modifications. La forme opérationnelle :

  • Maintenez l'instantané de décembre en production pendant que vous évaluez.
  • Exécutez la suite complète de scénarios vocaux contre 2025-06-03 sur les mêmes invites.
  • Surveillez les régressions sur les cas limites que l'ancien instantané gérait — même des moyennes améliorées peuvent masquer des scénarios spécifiques qui se sont dégradés.
  • Migrez lorsque l'instantané plus récent l'emporte sur les métriques qui comptent pour votre produit, et non sur celles qu'OpenAI a mises en avant dans les notes de version.

Pour les produits vocaux qui s'appuient sur la prosodie — outils de coaching, narrateurs d'accessibilité, tout ce où le modèle est en représentation plutôt que simplement en train de parler — l'instantané de juin 2025 est généralement le meilleur choix par défaut.

Où se situe cet instantané aujourd'hui

À la mi-2026, cet instantané est le gel le plus récent que la plupart des équipes citent lorsqu'elles disent « le modèle audio GPT-4o » sans qualification supplémentaire. C'est également l'instantané qui est resté en production suffisamment longtemps pour que ses particularités comportementales soient bien documentées dans les forums communautaires.

Pour les nouveaux projets vocaux qui démarrent en 2026, le choix se situe entre cet instantané, tout ce qui est plus récent qu'OpenAI a publié depuis, et l'éventuelle version stable de la ligne audio. Le cas d'usage pour l'ancrage ici est le même que le cas d'usage pour l'ancrage de n'importe quel instantané daté : vous échangez l'accès aux améliorations contre la stabilité comportementale.

Où il présente des lacunes

Les contraintes héritées du reste de la ligne audio-preview s'appliquent toujours.

Pas un point de terminaison en streaming. La prévisualisation temps réel est le bon choix pour une conversation bidirectionnelle en direct ; celle-ci est requête/réponse.

Pas un spécialiste de la transcription. Si la sortie texte à partir d'une entrée audio constitue la totalité de la tâche, les points de terminaison de transcription dédiés coûtent moins cher par minute.

Pas déployable en dehors de l'API OpenAI. Pas d'option sur site, pas de chemin en environnement isolé. L'enquête /usecases/local couvre ce qui est disponible lorsque ces contraintes s'appliquent.

Quand ancrer cet instantané

Ancrez gpt-4o-audio-preview-2025-06-03 lorsque :

  • Vous avez évalué la ligne audio entre mi et fin 2025 et c'est l'instantané qui a réussi les tests.
  • La qualité de la prosodie compte suffisamment pour que les améliorations par rapport à l'instantané de décembre justifient le coût de migration.
  • Vous avez besoin d'une cible comportementale stable en attendant que la ligne audio sorte du statut de prévisualisation.

Ignorez-le lorsque :

  • Un instantané plus récent est disponible et a remporté votre évaluation.
  • Le modèle audio stable final a été promu hors du statut de prévisualisation.
  • Vous avez uniquement besoin de transcription ou uniquement besoin de streaming en temps réel — les points de terminaison spécialisés sont le meilleur choix.

Notes de déploiement

Même API Chat Completions que le reste de la famille GPT-4o. Le nom du modèle constitue l'unité de migration. Le format d'entrée audio, la sélection de modalité de sortie et les paramètres vocaux sont inchangés par rapport à l'instantané de décembre.

La facturation par jeton distingue l'audio entrant, l'audio sortant et le texte. Les jetons audio comportent un coût par unité d'information sensiblement plus élevé que les jetons texte. La planification de capacité pour les produits vocaux se rapproche davantage de « minutes d'audio traitées » que de « messages échangés ».

La lecture pragmatique. Il s'agit du frère mieux élevé de l'instantané de décembre. Ancrez-le lorsque votre produit vocal a été validé contre celui-ci, migrez vers lui depuis l'ancrage de décembre lorsque votre évaluation montre que les gains de prosodie valent la peine d'être saisis, et surveillez le journal de modifications pour ce qu'OpenAI promouvra en stable ensuite. Effectuez une comparaison côte à côte sur /live-test avant de décider.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview-2025-06-03 — illustration 2gpt-4o-audio-preview-2025-06-03 — illustration 3
Dernier test automatisé
24 mai 2026 · 04:46 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026