Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-audio-mini-2025-12-15

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-Audio-Mini-2025-12-15 est un modèle de langage développé par OpenAI, mis en circulation en décembre 2025. D'après sa désignation, ce modèle semble s'inscrire dans la famille des modèles à capacités audio d'OpenAI, ce qui suggère qu'il peut traiter ou générer des entrées audio en complément du texte, bien que les spécifications techniques précises concernant sa fenêtre de contexte n'aient pas été divulguées. La mention « mini » indique habituellement une version plus compacte et plus efficiente, optimisée pour une inférence plus rapide et des besoins computationnels réduits par rapport aux variantes plus volumineuses de la même famille. Ce modèle est conçu pour des applications nécessitant une interaction multimodale alliant texte et audio. Il prend en charge les capacités standard de génération de texte tout en proposant potentiellement des fonctionnalités de traitement audio, ce qui le rend adapté à des tâches telles que la transcription, les interactions vocales ou l'analyse de contenus audio. Son architecture compacte indique qu'il s'adresse à des cas d'usage où la rapidité de réponse et l'efficience des ressources priment sur la capacité maximale. Au sein de la gamme de modèles d'OpenAI, GPT-Audio-Mini-2025-12-15 occupe la position d'une option légère dotée de capacités audio. Il s'inscrit aux côtés d'autres modèles spécialisés qui concilient performance et efficience, offrant aux développeurs une alternative aux modèles plus volumineux et plus exigeants sur le plan computationnel lorsqu'une pleine capacité n'est pas requise. Sa date de mise en circulation, en décembre 2025, le place parmi les offres récentes d'OpenAI, intégrant les techniques d'entraînement actuelles et les améliorations architecturales développées au cours de 2025. Ce modèle s'adresse aux utilisateurs ayant besoin d'un traitement fiable de l'audio et du texte sans la surcharge des modèles phares.

GPT-Audio-Mini-2025-12-15 est le snapshot de décembre 2025 de la variante mini audio d OpenAI.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-audio-mini-2025-12-15
$0.6000 par 1M de tokens d'entrée
$2.40 par 1M de tokens de sortie
≈ $0.0008 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.6000
par 1M de tokens de sortie$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— stable

$2.40

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Capacités audio légèresSnapshot décembre 2025 stableRapidité d inférenceCoût d opération réduitIntégration pipeline audio

Faiblesses

Fenêtre de contexte non documentéeCapacités limitées vs modèles completsContrôle vocal restreintNon adapté aux analyses complexes
Section 03

Capacités

toolssource: litellmaudio inputaudio outputparallel toolsmax output tokens: 16384
Section 04

Questions fréquentes

Les snapshots plus récents intègrent les améliorations progressives d OpenAI, notamment en naturalité vocale et robustesse multilingue.

Les dernières améliorations audio dans le format compact mini d OpenAI pour fin 2025.

Synthèse benchmark Tokonomix
Section 05

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

2026-06-14

Audio model adds tool calling and parallel execution capabilities

The gpt-audio-mini-2025-12-15 model has gained significant new functionality with the addition of tool calling capabilities, including parallel tool execution support. These features extend the model's utility beyond pure audio processing, allowing it to interact with external functions and APIs while maintaining its audio input and output capabilities. The model now supports both audio_input and audio_output modalities alongside its existing text capabilities, making it a more versatile option for multimodal applications. The parallel_tools capability enables more efficient processing when multiple tool calls are needed simultaneously. These additions position the model as a functional audio-capable variant within OpenAI's lineup, though specific performance metrics for these new capabilities are not yet available. Users should note that while the model has gained these important features, comprehensive benchmark data demonstrating accuracy, latency, or comparative performance against other models has not been provided. The feature set suggests this is intended as a lightweight audio model with tooling support, suitable for applications requiring both conversational audio interactions and programmatic function execution.

Quality

Latency p50

Test runs

0

Tool calling support added Parallel tools execution enabled Audio input/output capabilities added
Section 07

Profil complet du modèle

gpt-audio-mini-2025-12-15 — illustration 1
gpt-audio-mini-2025-12-15 : la mise à jour de décembre d'OpenAI pour la gamme audio native allégée

L'instantané de décembre de gpt-audio-mini arrive deux mois après la version d'octobre et se présente comme un ajustement incrémental discret plutôt qu'un lancement en fanfare. Il s'agit de la même architecture : un modèle audio de bout en bout unique qui gère la transcription, le raisonnement et la synthèse vocale sans répartir le travail entre trois services distincts. Ce qui change entre les alias datés, ce sont les poids sous-jacents, le comportement du classificateur de sécurité et une poignée de caractéristiques vocales qu'OpenAI ajuste entre les versions sans toujours les documenter.

Ce que la mise à jour de décembre modifie réellement

Les améliorations principales de l'instantané de décembre concernent le naturel de la synthèse pour les voix non anglophones et la gestion de la parole qui se chevauche en début de tour. La version d'octobre avait tendance à commencer une réponse alors que l'utilisateur finissait encore sa phrase dans des environnements bruyants. Décembre resserre cela. Le modèle attend maintenant quelques centaines de millisecondes supplémentaires lorsqu'il détecte une énergie vocale continue, ce qui élimine l'une des plaintes les plus courantes des opérateurs de voicebots.

La synthèse multilingue s'améliore de manière audible en espagnol, en portugais brésilien et en mandarin. Le néerlandais et le polonais restent plus rugueux que leurs cousins de langues romanes, mais l'écart se réduit. Si vous déployez en Europe où un seul bot dessert plusieurs marchés linguistiques, c'est la version où le compromis entre cohérence et qualité par langue commence à s'aplanir.

La latence reste essentiellement inchangée. Le délai avant le premier son se situe dans la même fenêtre que la version d'octobre, ce qui suggère qu'OpenAI a optimisé le modèle pour la qualité à calcul fixe plutôt que de pousser davantage l'enveloppe de vitesse.

Où il se positionne

Cette gamme est le cheval de bataille des interfaces vocales à grand volume. Les agents de support client qui doivent répondre au téléphone vingt-quatre heures sur vingt-quatre, les outils d'accessibilité qui lisent du contenu structuré à voix haute pendant qu'un utilisateur navigue, les assistants embarqués où la demi-seconde de latence fait la différence entre une sensation de réactivité et une sensation de retard. Partout où un humain est en ligne et que le schéma de conversation est raisonnablement délimité, cela fonctionne.

Il s'intègre également bien dans les pipelines de transcription où vous avez besoin d'un résumé court ou d'une extraction structurée à la fin de l'appel. Étant donné que le modèle conserve le contexte tout au long de la conversation de manière native, vous n'avez pas besoin d'assembler un résumeur séparé. Un modèle, un schéma d'appel, une ligne de facturation.

Le clonage vocal reste hors de question. Les voix disponibles sont l'ensemble organisé par OpenAI, point final. C'est une contrainte délibérée et c'est la bonne pour tout ce qui est orienté client où le risque d'usurpation d'identité est une préoccupation réelle.

Où il échoue

Les appels longs restent le talon d'Achille. Au-delà d'environ trente minutes de conversation continue, le modèle commence à perdre en fidélité sur les détails de l'ouverture de l'appel. Vous pouvez contourner cela avec un tour de résumé périodique que vous injectez, mais c'est une friction que vous ne rencontreriez pas avec une architecture empilée qui utilise un modèle de raisonnement à contexte long séparé.

La terminologie spécifique au domaine est aléatoire. Les termes juridiques en anglais vont bien. La terminologie médicale en néerlandais ressort fréquemment déformée, le modèle substituant des mots phonétiquement similaires mais sémantiquement erronés. Si votre déploiement dépend de l'obtention correcte du vocabulaire de domaine à chaque fois, vous avez besoin soit d'une couche de fine-tuning au-dessus de ce modèle, soit d'une architecture entièrement différente.

L'utilisation d'outils via l'interface audio est viable pour des fonctions simples mais s'effondre sur tout ce qui comporte un état de branchement. Si votre bot doit appeler dix outils différents selon l'état de la conversation et se souvenir de ce qu'il a appelé il y a cinq minutes, ce n'est pas la bonne gamme.

Comment le choisir et quelles alternatives considérer

Pour les nouveaux déploiements vocaux où vous voulez l'architecture la plus simple possible et où vous pouvez vivre avec les contraintes, épinglez-vous à gpt-audio-mini-2025-12-15 et passez à autre chose. L'alias daté est important. Si vous pointez vers le nom flottant gpt-audio-mini, vous vous réveillez un matin avec une texture vocale différente et une suite de tests de régression qui signale quarante problèmes. L'épinglage est la discipline qui maintient les produits vocaux stables.

Au sein de la famille OpenAI, gpt-realtime est la montée en gamme lorsque vous avez besoin d'une utilisation d'outils plus riche et d'un contexte plus long. gpt-realtime-mini est un cousin proche si vous voulez la forme de l'API temps réel plutôt que la forme audio-mini. L'instantané antérieur gpt-audio-mini-2025-10-06 est toujours disponible si vous avez un corpus de tests de régression calibré sur le comportement d'octobre et que vous n'êtes pas prêt à revalider.

Pour les stacks natifs Google, gemini-2.5-flash-preview-tts couvre la synthèse mais pas la boucle conversationnelle. Vous auriez toujours besoin d'une couche STT séparée plus une couche de raisonnement pour égaler ce que gpt-audio-mini vous donne prêt à l'emploi. La résidence des données dans l'UE n'est pas satisfaite par le point de terminaison OpenAI par défaut, donc si c'est une contrainte réglementaire, une couche de passerelle ou un fournisseur entièrement différent devient la réponse.

Dernière révision technique : 2026-05-22 — Tokonomix.ai

gpt-audio-mini-2025-12-15 — illustration 2gpt-audio-mini-2025-12-15 — illustration 3
Dernier test automatisé
14 juin 2026 · 04:13 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026