Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-audio-2025-08-28

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-Audio-2025-08-28 est un modèle de langage multimodal développé par OpenAI qui étend les capacités des modèles textuels traditionnels au traitement audio natif. Ce modèle est conçu pour gérer des interactions conversationnelles combinant texte et parole, lui permettant de traiter des entrées vocales et de générer des réponses orales tout en conservant les capacités de génération textuelle de la série GPT d'OpenAI. Le modèle vise à favoriser des interactions homme-machine plus naturelles en prenant en charge des conversations vocales en temps réel parallèlement aux tâches textuelles standard. L'architecture technique s'appuie sur les modèles de langage à base de transformeurs d'OpenAI, en intégrant des composants d'encodage et de décodage audio qui permettent au modèle de traiter directement les signaux vocaux plutôt que de dépendre uniquement d'une transcription textuelle intermédiaire. Cette approche vise à préserver les nuances de ton, de rythme et de caractéristiques vocales habituellement perdues dans les systèmes purement textuels. Le modèle prend en charge les tâches standard de génération de texte, notamment la réponse aux questions, le résumé, l'écriture créative et la génération de code, tout en ajoutant la capacité d'engager des dialogues vocaux. Au sein de la gamme d'OpenAI, GPT-Audio-2025-08-28 marque une évolution vers des systèmes d'IA multimodaux capables de traiter et de générer plusieurs types de médias. Il s'inscrit aux côtés de modèles textuels comme GPT-4 et d'outils spécialisés comme DALL-E, élargissant la palette des modalités d'interaction offertes aux développeurs. Le modèle est destiné aux applications nécessitant des interfaces vocales, à l'accessibilité, aux agents conversationnels et aux scénarios où la communication audio offre des avantages par rapport au seul texte.

GPT-Audio-2025-08-28 représente l évolution d OpenAI vers des modèles intégrant nativement les capacités vocales.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-audio-2025-08-28
$2.50 par 1M de tokens d'entrée
$10.00 par 1M de tokens de sortie
≈ $0.0035 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$2.50
par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Traitement audio natif avancéGénération de parole naturelleSupport multilingue audioInteraction texte et voix unifiéesSnapshot août 2025 stable

Faiblesses

Fenêtre de contexte non documentéeLatence audio supérieure au texte seulRessources audio supérieures aux modèles texteSpécialisé audio, moins généraliste
Section 03

Capacités

toolssource: litellmaudio inputaudio outputparallel toolsmax output tokens: 16384
Section 04

Questions fréquentes

GPT-Audio intègre nativement le traitement vocal en entrée et sortie, permettant des interactions conversationnelles complètes sans pipeline séparé.

Un modèle audio d OpenAI qui rappproche la compréhension et la génération vocale de l expérience naturelle.

Synthèse benchmark Tokonomix
Section 05

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

2026-06-14

Audio model launches with tool support but no benchmark data available

The gpt-audio-2025-08-28 model represents OpenAI's audio-native offering with newly confirmed capabilities including tool calling, audio input, audio output, and parallel tool execution. These capabilities distinguish it from text-only models by enabling direct audio processing workflows. However, no benchmark performance data is available in either the current or previous evaluation windows, making it impossible to assess the model's actual performance characteristics across standard reasoning, coding, or multimodal tasks. The lack of benchmark results means users cannot compare this model's capabilities against other OpenAI models or competitors in measurable ways. While the technical capabilities suggest potential for audio-based applications, the absence of performance metrics leaves key questions unanswered about accuracy, latency, reasoning depth, and reliability. Organizations evaluating this model for production use should conduct their own testing aligned with their specific audio processing requirements, as public benchmarks do not yet provide guidance on where this model excels or struggles relative to alternatives.

Quality

Latency p50

Test runs

0

Tool calling support added Audio input/output enabled No benchmark data available
Section 07

Profil complet du modèle

gpt-audio-2025-08-28 — illustration 1
GPT Audio (snapshot du 2025-08-28) : figer la voix que vos utilisateurs connaissent

Il s'agit du snapshot daté du modèle GPT Audio original, figé sur la version publiée le 28 août 2025. Épingler un modèle audio est important pour une raison spécifique qui ne s'applique pas aux modèles textuels : les utilisateurs remarquent les changements de voix. Une mise à jour subtile du style d'écriture d'un modèle texte passe inaperçue dans la majorité des sorties. Une mise à jour subtile des caractéristiques vocales d'un modèle audio est immédiatement audible. Pour les applications vocales avec utilisateurs récurrents, la cohérence de la voix n'est pas un confort accessoire — elle fait partie de l'identité du produit.

L'argument de la cohérence vocale pour l'épinglage audio

Lorsqu'un utilisateur dialogue avec une IA vocale depuis des semaines ou des mois, il développe une attente auditive. La voix possède un timbre particulier, une cadence particulière, un schéma de pauses particulier. Quand le modèle est mis à jour et que ces caractéristiques changent, les utilisateurs le remarquent. Pas toujours consciemment — parfois le retour est simplement « ça sonne bizarre maintenant » sans pouvoir préciser ce qui a évolué — mais le changement est enregistré.

Pour les applications vocales grand public, cela peut affecter la rétention. Les utilisateurs qui se sont familiarisés avec la voix précédente trouvent la nouvelle voix moins agréable. La friction est faible par interaction, mais elle se cumule dans le temps.

Pour les outils d'accessibilité, la cohérence importe encore davantage. Les utilisateurs qui dépendent de la voix au quotidien ont intégré ses qualités spécifiques dans leur flux de travail. Modifier la voix sans préavis revient, opérationnellement, à changer la police de caractères dans une interface écrite — techniquement possible, immédiatement désorientant pour les personnes concernées.

Pour les applications vocales alignées sur une marque, la cohérence est fondatrice. Si la voix de votre produit fait partie de l'identité de marque, vous ne pouvez pas vous permettre qu'elle dérive en silence sous vos pieds.

Épingler le snapshot daté est la réponse opérationnelle. La voix que vous avez testée au lancement est la voix en production aujourd'hui. Les mises à jour interviennent selon votre calendrier de migration, avec une communication aux utilisateurs si nécessaire, et non selon le calendrier de publication d'OpenAI.

Ce que capture ce snapshot

Le lancement d'août 2025 de GPT Audio : poids du modèle au lancement, caractéristiques vocales au lancement, traitement des entrées audio au lancement, comportement linguistique au lancement. Le modèle n'a pas changé depuis la pose de l'épingle.

Les améliorations que la gamme GPT Audio a accumulées dans les versions ultérieures — meilleure qualité vocale sur la génération 1.5, robustesse améliorée face au bruit de fond, couverture linguistique élargie — aucune d'entre elles n'apparaît ici.

Sous le capot

GPT Audio dans ce snapshot est un modèle multimodal acceptant une entrée audio et produisant une sortie audio et texte. OpenAI n'a pas publié le nombre de paramètres ni les détails architecturaux.

La consommation de tokens par seconde d'audio est documentée dans les pages tarifaires d'OpenAI et compte davantage que le coût en tokens textuels pour budgétiser les charges audio. Le profil coût-et-latence est figé sur les valeurs d'août 2025.

Le modèle gère la parole dans plusieurs langues, avec l'anglais, l'espagnol, le français, l'allemand, le mandarin et le japonais comme langues les plus solides. Les langues à faibles ressources présentent une qualité réduite.

Où il se situe aujourd'hui

Face aux offres audio-multimodales actuelles, ce snapshot se situe en dessous des générations plus récentes de GPT Audio en matière de qualité vocale, de robustesse au bruit de fond et de couverture linguistique. Le classement d'intelligence suit la position comparative ; les benchmarks spécifiques à l'audio sont moins standardisés que les benchmarks textuels.

Pour les workflows de service client, le snapshot continue de rendre des services utiles aux équipes qui ont calibré leur produit vocal autour de ses caractéristiques spécifiques. Pour les nouveaux déploiements, démarrer sur une génération plus récente est généralement le bon choix.

Quand conserver cette épingle

Les cas évidents tournent autour de la cohérence vocale :

Vous avez une base d'utilisateurs récurrents qui se sont familiarisés avec cette voix et qui remarqueraient un changement. Applications de support client, outils d'accessibilité, assistants vocaux pour utilisateurs réguliers.

La marque de votre produit est liée à cette voix dans le marketing, la documentation ou les supports de formation des utilisateurs.

Vous disposez d'outils de traitement audio en aval calibrés sur les caractéristiques acoustiques spécifiques de ce snapshot.

Vous évoluez dans un contexte réglementé où la version du modèle traitant les interactions vocales doit être identifiable lors d'un audit.

Vous menez une étude utilisateur longue durée ou une expérience A/B où la voix doit rester véritablement fixe pendant toute la durée du test.

Quand migrer

Les déclencheurs pour passer à une génération audio plus récente :

OpenAI a publié le calendrier de dépréciation de ce snapshot. Anticipez.

Vous êtes prêt à communiquer le changement de voix à vos utilisateurs et à accepter une friction transitoire en échange des améliorations de qualité de la nouvelle génération.

Votre évaluation montre que les générations plus récentes sont significativement meilleures sur vos conditions de déploiement spécifiques — bruit de fond, distribution d'accents, couverture linguistique — et le gain de qualité justifie le changement de voix perçu par les utilisateurs.

Vous démarrez un nouveau développement et n'avez pas encore calibré les attentes utilisateurs autour d'une voix particulière.

Le schéma de migration audio

Prévoyez plus d'effort d'évaluation que pour une migration textuelle. La qualité audio exige des auditeurs humains ; budgétez les heures-personnes correspondantes.

Si votre base d'utilisateurs s'est familiarisée avec la voix actuelle, planifiez la communication. Une annonce de migration avant le basculement informe les utilisateurs et réduit la friction du type « la voix a changé et je ne sais pas pourquoi ».

Exécutez la suite de tests canaris contre la nouvelle génération dans les conditions réelles de déploiement, et non en conditions de laboratoire. Le bruit de fond, la distribution d'accents et la qualité des microphones influencent tous le résultat de la migration.

Épinglez le snapshot daté de la nouvelle génération vers laquelle vous migrez. L'argument de la cohérence vocale s'applique de nouveau.

Là où les limites demeurent

Les limites standard du GPT Audio original s'appliquent, figées dans leur forme d'août 2025 : raisonnement plus superficiel que les modèles frontière orientés texte, gestion plus faible du bruit de fond que les générations plus récentes, qualité réduite sur les langues à faibles ressources, absence de clonage vocal.

Aucun de ces points ne change avec l'épinglage. Vous épinglez le comportement de lancement du modèle audio original avec les limites qui étaient les siennes au lancement.

Alternatives

Pour les charges de travail nécessitant un comportement audio épinglé chez un autre fournisseur, les snapshots audio-multimodaux comparables d'autres prestataires offrent le même schéma d'épinglage avec des profils vocaux différents.

Pour les charges de travail où l'argument de cohérence vocale ne s'applique pas — outils internes, traitements par lots ponctuels, applications sans utilisateurs récurrents — migrer vers un slug flottant plus récent est plus simple et apporte les gains de capacité sans l'engagement de cohérence.

Pour les charges nécessitant des caractéristiques vocales très spécifiques qu'aucun modèle actuel ne fournit, des approches en pipeline avec des moteurs TTS dédiés peuvent vous donner plus de contrôle sur la sélection de la voix au prix d'une moindre naturalité conversationnelle.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-audio-2025-08-28 — illustration 2
Dernier test automatisé
14 juin 2026 · 04:17 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026