
gpt-4o-audio-preview est l'instantané de prévisualisation d'OpenAI de la famille GPT-4o qui accepte l'audio en entrée et peut renvoyer de l'audio en sortie, en plus du texte habituel. Aucun relais Whisper-puis-GPT. Un seul modèle, une seule passe avant, voix aux deux extrémités.
Il ne s'agit pas du point de terminaison temps réel. C'est la variante requête/réponse. Vous envoyez un clip audio complet et une invite, vous recevez soit du texte, soit de l'audio, soit les deux. Utile lorsque vous souhaitez la qualité vocale d'un modèle unique sans la complexité de streaming de l'API temps réel.
Ce que le chemin audio natif vous apporte réellement
La pile vocale traditionnelle se compose de trois boîtes : parole-vers-texte, puis un LLM, puis texte-vers-parole. Chaque boîte ajoute de la latence, chaque boîte perd de l'information, et la prosodie meurt quelque part entre Whisper et le moteur TTS. gpt-4o-audio-preview condense tout cela en un modèle unique qui voit directement la forme d'onde.
Ce qui survit de bout en bout :
- Ton et emphase. Le modèle entend que vous semblez frustré, ou pressé, ou sarcastique. Un pipeline de transcription supprime cela avant que le modèle de langage n'ait l'occasion de raisonner dessus.
- Disfluences du locuteur. Pauses, redémarrages, mots de remplissage — le modèle peut choisir de les reproduire, de les lisser ou de les commenter selon l'invite système.
- Contexte de fond. Musique, bruit ambiant, la toux au milieu d'une phrase. Rien de tout cela n'est nécessairement utile, mais le modèle a la possibilité d'en tenir compte.
Le côté sortie est symétrique. Lorsque vous demandez une réponse audio, le modèle génère la parole directement à partir de sa représentation interne plutôt que de transmettre du texte à un moteur TTS séparé. La voix a une cadence plus naturelle qu'un transfert TTS en aval parce que le modèle contrôle la prosodie dans le cadre de la génération.
Notes d'architecture
GPT-4o est la génération « omni » de GPT-4 qui gère nativement le texte, la vision et l'audio via des encodeurs spécifiques à chaque modalité alimentant un noyau de transformateur partagé. L'encodeur audio transforme les formes d'onde en embeddings continus qui occupent le même espace d'attention que les jetons de texte. Le décodeur peut émettre soit des jetons de texte soit des jetons audio selon la requête.
OpenAI n'a pas publié le nombre de paramètres, la taille du corpus d'entraînement ou les spécifications détaillées d'échantillonnage audio pour cette prévisualisation. Ce qui est observable depuis le comportement de l'API : le modèle accepte les entrées WAV et MP3, gère l'anglais et un large ensemble de langues européennes et asiatiques, et produit une sortie dans un petit ensemble de voix prédéfinies.
L'étiquette de prévisualisation est honnête. La documentation est en retard. Le comportement change entre les instantanés. Les variantes datées (2024-12-17, 2025-06-03) existent précisément parce qu'OpenAI continue de livrer des corrections incrémentielles qui affectent la prosodie, la latence et la posture de refus de manières susceptibles de casser les déploiements épinglés à « la prévisualisation audio ».
Où il se situe aujourd'hui
Deux victoires claires.
Premièrement, les agents vocaux qui ont besoin que le modèle réagisse véritablement à la façon dont l'utilisateur sonnait, pas seulement à ce qu'il a dit. Le triage du service client où un appelant stressé devrait recevoir un chemin de réponse différent d'un appelant calme. Les outils de coaching où le modèle doit commenter la livraison. Les interfaces d'accessibilité où mal entendre l'utilisateur compte plus que mal entendre les mots.
Deuxièmement, la sortie vocale où la parole synthétisée doit porter du sens, pas seulement des mots. Une application de santé lisant des instructions de médicaments avec la gravité appropriée. Un narrateur d'histoires pour enfants qui donne une voix distincte aux personnages. Tout ce pour quoi un TTS plat semblerait inapproprié.
Le modèle gère également les tâches en mode mixte avec élégance : audio en entrée, JSON structuré en sortie ; texte en entrée, audio en sortie ; audio en entrée plus image en entrée, audio en sortie. Ces combinaisons sont maladroites avec un pipeline à trois boîtes et naturelles ici.
Où il échoue
Conversation bidirectionnelle en temps réel. Utilisez gpt-4o-realtime-preview pour cela — c'est le frère de streaming conçu pour la prise de tour en direct. Le point de terminaison audio-preview est requête/réponse, ce qui signifie que l'utilisateur termine de parler, le modèle traite, le modèle répond. C'est la mauvaise forme pour une interaction de type appel téléphonique.
Transcription à haut volume. Les variantes spécifiques à la transcription (gpt-4o-transcribe, gpt-4o-mini-transcribe) sont optimisées pour cette tâche unique et coûtent moins cher par minute d'audio. Si tout ce dont vous avez besoin est du texte à partir d'audio en entrée, les points de terminaison de transcription gagnent.
Contrats stables. Ceci est une prévisualisation. La forme de l'API, les options de voix et les spécifications audio ont toutes changé d'un instantané à l'autre. Si vous avez besoin de stabilité API à long terme, épinglez un instantané daté et acceptez que vous devrez éventuellement migrer.
Déploiement auto-hébergé ou isolé. Non disponible. Les données audio quittent votre réseau et atteignent l'infrastructure d'OpenAI. Pour les charges de travail vocales réglementées qui ne peuvent tolérer cela, l'enquête sur /usecases/local est le bon point de départ.
Le choisir par rapport aux alternatives
Optez pour gpt-4o-audio-preview lorsque :
- Vous avez besoin d'une gestion audio bidirectionnelle véritable dans un modèle unique et le timing requête/réponse est acceptable.
- La qualité de sortie vocale compte suffisamment pour que la synthèse native du modèle surpasse une étape TTS en aval.
- L'application bénéficie de la lecture du ton et de l'émotion par le modèle dans le cadre du raisonnement.
Évitez-le lorsque :
- Vous avez besoin de voix en streaming en direct — utilisez plutôt la prévisualisation temps réel.
- Tout ce dont vous avez besoin est la transcription — utilisez les points de terminaison de transcription.
- La stabilité de production compte plus que l'accès aux capacités audio précoces.
- Le déploiement doit être sur site ou dans une région que l'API OpenAI ne dessert pas.
Comparez-le aux autres chemins audio sur /usecases/voice, et aux alternatives du même jour d'autres fournisseurs sur /benchmarks/leaderboard.
Notes de déploiement
API standard OpenAI Chat Completions. L'audio est transmis en ligne sous forme de contenu encodé en base64 ou en tant qu'URL. La modalité de sortie est demandée via le paramètre modalities (["text", "audio"] ou juste ["audio"]). La sélection de voix se fait via un paramètre voice avec un petit ensemble fixe d'options.
La facturation des jetons est divisée : les jetons d'entrée audio, les jetons de sortie audio et les jetons de texte sont comptabilisés séparément. Le comportement des coûts n'est pas équivalent à l'utilisation texte uniquement — les jetons audio consomment plus d'unités de facturation par unité d'information que les jetons de texte. Planifiez la capacité en conséquence.
Les journaux suivent les règles de rétention standard d'OpenAI. La rétention zéro nécessite un contrat entreprise.
La lecture pragmatique. Cette prévisualisation est le bon modèle lorsque la fidélité audio de bout en bout est le point crucial, et le mauvais modèle lorsque la transcription, le streaming en temps réel ou la stabilité de production est le point crucial. Testez-le avec vos invites réelles sur /live-test avant de vous engager.
Dernière révision technique : 2026-05-22 — Tokonomix.ai

