Ce modèle peut-il générer du texte sans sortie audio ?

Oui, il maintient les capacités de génération textuelle standard du modèle Pro en plus de la fonctionnalité TTS.

La fenêtre de contexte de 8 000 tokens est-elle suffisante pour TTS ?

Pour la conversion de passages textuels en parole, 8 000 tokens sont généralement suffisants pour la plupart des usages courants.

Ce modèle convient-il aux assistants vocaux professionnels ?

Son statut preview le destine davantage au développement et à l expérimentation qu à des déploiements en production critiques.

Quelle est la qualité vocale par rapport aux solutions TTS dédiées ?

En tant que solution intégrée dans un LLM, elle offre une bonne qualité avec l avantage de la cohérence contextuelle du modèle Pro.

Tier B — Production

Fonctionne en :USCréé en :United States

Google Gemini

Gemini 2.5 Pro Preview TTS

Tier B — Production · 8K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

Gemini 2.5 Pro Preview TTS est une variante avec synthèse vocale du modèle de langage Gemini 2.5 Pro de Google. Cette version préliminaire intègre les capacités de synthèse vocale directement dans le pipeline de sortie du modèle, lui permettant de générer des réponses audio parlées en complément ou à la place du texte standard. Le modèle conserve l'architecture et les capacités de raisonnement de la série Gemini 2.5 Pro tout en ajoutant une fonctionnalité native de sortie audio. Il fonctionne avec une fenêtre de contexte de 8,000 tokens, adaptée aux conversations de taille modérée et au traitement de documents, mais plus restreinte que les offres à contexte étendu de Google. Le modèle est conçu pour les applications nécessitant à la fois la compréhension du langage naturel et la diffusion de réponses vocales, telles que les assistants conversationnels, les outils d'accessibilité, les systèmes vocaux interactifs et les applications multimodales où la sortie audio améliore l'expérience utilisateur. Il prend en charge les tâches standard de génération de texte, notamment la réponse aux questions, le résumé, la création de contenu et le raisonnement, avec la capacité supplémentaire de restituer les résultats sous forme de parole synthétisée. Au sein de la gamme Gemini de Google, ce modèle occupe une position spécialisée en tant qu'offre en phase préliminaire démontrant l'intégration des capacités TTS aux modèles de langage de niveau Pro de l'entreprise. Il se place aux côtés d'autres variantes Gemini 2.5 axées sur différentes modalités ou caractéristiques de performance. En tant que version préliminaire, il offre aux développeurs un accès anticipé à une fonctionnalité combinée langage-parole, bien qu'il puisse présenter des limitations ou des fonctionnalités évolutives par rapport aux modèles de production de Google.

Gemini 2.5 Pro Preview TTS fusionne les capacités linguistiques Pro et la synthèse vocale native dans une seule architecture.
— Synthèse benchmark Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Gemini 2.5 Pro Preview TTS

$1.25 par 1M de tokens d'entrée

$10.00 par 1M de tokens de sortie

≈ $0.0028 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$1.25

par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Synthèse vocale haute qualitéPuissance raisonnement niveau ProSortie audio naturelleExcellent pour outils d accessibilitéIntégration voice et texte unifiée

Faiblesses

Statut preview, instabilité possibleFenêtre de contexte réduite à 8 000 tokensConsommation de ressources accrueFonctionnalités en évolution

Section 03

Capacités

toolssource: litellmvisionjson modejson schemaparallel toolsprompt cachingoutputTokenLimit: 16384max output tokens: 65535

Section 04

Questions fréquentes

L intégration native de TTS dans un modèle Pro permet de combiner génération linguistique avancée et synthèse vocale dans un seul appel API.

Un modèle innovant qui rapproche la génération de langage et la parole dans une expérience unifiée.
— Synthèse benchmark Tokonomix

Section 05

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

● 2026-07-26

Maintains full feature set without performance benchmarks

Gemini 2.5 Pro Preview TTS continues to offer a comprehensive suite of capabilities including tools, vision, JSON mode, JSON schema, parallel tools, and prompt caching. These features remain stable from the previous benchmark window, indicating consistent API functionality. The model maintains its position as a feature-complete offering within the Gemini lineup, supporting multimodal inputs and structured outputs that are essential for production applications. However, the absence of performance metrics across both benchmark windows means users lack quantitative data on speed, accuracy, or quality measures. Without concrete performance numbers, it remains difficult to assess how this model compares to alternatives or to evaluate whether it meets specific use case requirements. Organizations considering this model should conduct their own testing to verify it meets their latency, throughput, and quality standards. The stable feature set suggests reliability in capabilities, but the continued lack of benchmark data prevents a complete assessment of the model's competitive standing or operational characteristics.

Quality

—

Latency p50

—

Test runs

✓ All capabilities remain stable✗ No performance data available

Section 07

Profil complet du modèle

Gemini 2.5 Pro Preview TTS : la synthèse vocale haute fidélité de la gamme 2.5

Note — profil prospectif. Gemini 2.5 Pro Preview TTS (gemini-2.5-pro-preview-tts) est un instantané en preview. Le comportement, le catalogue de voix et les limites de débit évolueront avant la disponibilité générale.

Le modèle de synthèse vocale de niveau Pro dans la famille 2.5 de Google. Une fenêtre de prompt de 8 192 tokens dimensionnée pour ce que le travail TTS exige réellement — le script, des instructions de contrôle optionnelles et une marge raisonnable. Sortie audio avec le gain de fidélité et le contrôle prosodique qui distinguent le niveau Pro du jumeau Flash.

Il s'agit d'une synthèse unidirectionnelle. Texte en entrée, audio parlé en sortie. Tout ce qui suit porte sur la qualité vocale, les surfaces de contrôle et là où le niveau Pro mérite sa prime sur la variante Flash.

Ce qu'il fait réellement

Les mêmes primitives que la TTS de niveau Flash : sélection de voix dans un catalogue curé, contrôle prosodique optionnel via des instructions au niveau du prompt, sortie multi-locuteurs pour les scripts dialogués, format audio configurable.

Ce que le niveau Pro ajoute :

Une qualité de sortie en plus haute fidélité. L'audio présente des respirations plus naturelles, des transitions prosodiques plus fluides et moins d'artefacts synthétiques qui apparaissent parfois dans les TTS de niveau inférieur à grande échelle long format.
Un contrôle émotionnel plus fiable. Les instructions au niveau du prompt comme « parle avec une inquiétude mesurée » ou « lis ceci avec un enthousiasme discret » se concrétisent plus régulièrement qu'au niveau Flash.
Une meilleure cohérence sur le long format. L'audio sur plusieurs paragraphes ou plusieurs minutes conserve le caractère vocal et l'énergie sans la dérive progressive que montrent parfois les modèles de niveau inférieur.
Un dialogue multi-locuteurs plus constant. Les voix distinctes restent distinctes sur de longues scènes ; les caractéristiques des locuteurs demeurent stables.

Là où il brille

Quelques cas d'usage pour lesquels le niveau Pro vaut réellement sa prime :

La production de livres audio où la constance sur plusieurs heures et la prosodie naturelle comptent pour l'expérience d'écoute.
Les voix off à forte valeur de production pour le contenu vidéo, les supports marketing et les explainers.
Les fictions audio et la fiction interactive avec plusieurs personnages et une amplitude émotionnelle.
Les voix off pour des contenus diffusés à un large public où la qualité affecte directement la valeur de production perçue.
Les applications d'accessibilité où la qualité audio compte pour le confort d'écoute prolongée.

Le jumeau Flash couvre de nombreux cas à moindre coût. Le Pro est destiné aux cas où la différence de qualité est suffisamment audible pour justifier la montée en gamme.

Là où c'est le mauvais outil

Tout ce pour quoi la qualité du niveau Flash suffit. La plupart des cas d'usage courts, transactionnels ou de type SVI ne tirent pas profit de la montée vers le Pro.

La voix conversationnelle en temps réel. Il s'agit ici de synthèse, pas de dialogue bidirectionnel. Les variantes audio temps réel de Gemini gèrent le schéma conversationnel plus naturellement.

La reconnaissance vocale ou la transcription. Mauvaise direction ; mauvaise famille de modèles.

Le clonage vocal d'une personne réelle spécifique. Le catalogue TTS de Google couvre des voix curées. Le travail de voix personnalisée pour des individus spécifiques nécessite des fournisseurs spécialisés ou des arrangements contractuels.

L'édition audio, le sound design ou la génération musicale. Des catégories d'outils entièrement différentes.

Les exigences de latence ultra-faible où chaque milliseconde compte. Le niveau Pro privilégie la qualité par rapport à la latence absolue ; pour les applications vocales sensibles à la latence, le niveau Flash ou des fournisseurs spécialisés en faible latence peuvent mieux convenir.

Comparaison avec les alternatives

Face au jumeau de niveau Flash — Gemini 2.5 Flash Preview TTS. Pro produit une sortie nettement meilleure sur les contenus longs et gère plus fiablement les nuances émotionnelles. Flash est plus rapide et moins coûteux. Le choix se résume à savoir si l'écart de qualité justifie la prime pour votre charge de travail spécifique.

Face à la génération 3.x — Gemini 3.1 Flash TTS Preview. La preview 3.x montre d'autres affinements et pourrait à terme combler l'écart avec le niveau Pro par le bas. Pour l'instant, Pro reste le choix le plus haute fidélité de la famille.

Face aux alternatives hors Google. ElevenLabs et les fournisseurs TTS spécialisés similaires rivalisent sur la profondeur du catalogue de voix, le clonage vocal et le contrôle émotionnel. Pour les charges de travail où un caractère vocal spécifique ou une capacité stylistique particulière compte au-delà de ce que livre Google, les fournisseurs spécialisés peuvent encore garder l'avantage. Pour les charges de travail sur la stack Google où la qualité du niveau Pro au tarif Google est le bon compromis, ce modèle est compétitif.

L'image au niveau catégorie de la synthèse audio se trouve sur /benchmarks/intelligence et le classement sur /benchmarks/leaderboard.

Schémas pratiques

Quelques points à connaître avant de construire spécifiquement sur le niveau Pro :

Le gain de fidélité se manifeste le plus clairement sur les contenus longs. Les clips courts sonnent souvent de manière similaire entre Flash et Pro ; les contenus de plusieurs minutes révèlent la différence.
Les instructions prosodiques se concrétisent plus fiablement qu'au niveau Flash, mais bénéficient encore d'être spécifiques. « Parle avec une urgence légère, légèrement plus vite que la normale » fonctionne mieux que « rends ça urgent ».
Pour les dialogues multi-locuteurs, étiquetez clairement les locuteurs et utilisez des étiquettes cohérentes dans tout le script. Le niveau Pro préserve mieux le caractère vocal sur des scripts plus longs que le niveau Flash.
Les formats audio et les débits doivent être choisis en fonction de l'usage en aval. Le WAV préserve la pleine fidélité que produit Pro ; les formats avec perte en gaspillent une partie.
La latence de génération est plus élevée que Flash. Concevez les schémas UX en conséquence.

Langues et accents

Le catalogue de voix de niveau Pro couvre les principales langues européennes avec plusieurs voix par langue. Le gain de qualité par rapport au niveau Flash est le plus audible dans les langues où le catalogue propose le plus d'options vocales — anglais, espagnol, français, allemand, italien. Les langues plus petites ont une sélection de voix plus limitée sur les deux niveaux.

L'alternance codique entre langues au sein d'un même script est gérée mais la qualité varie. Pour les contenus multilingues, générer chaque segment de langue séparément puis concaténer produit une sortie plus propre que de s'en remettre au modèle pour basculer en milieu de script.

Pour le catalogue de voix le plus à jour et la couverture linguistique, consultez la référence spécifique au modèle plutôt que de vous fier à la documentation de l'époque du lancement.

Notes de déploiement

API Google Gemini standard avec des endpoints spécifiques au TTS. Le format de requête diffère des appels de génération de texte — vérifiez la référence du modèle pour la forme exacte des paramètres.

La disponibilité régionale suit le schéma standard Vertex AI de Google. Les régions UE sont accessibles sur contrats entreprise. L'accès API grand public prêt à l'emploi ne fixe pas de région.

L'audio généré porte des métadonnées de provenance conformes aux engagements plus larges de Google autour des contenus générés par IA. Pour les charges de travail où ces métadonnées importent d'une manière ou d'une autre, vérifiez la documentation API actuelle pour savoir ce qui est configurable ou non.

La tarification du niveau Pro est plus élevée que celle de Flash, comme attendu. Pour les charges à fort volume, l'argument économique du Pro dépend de l'importance audible du gain de qualité pour votre cas d'usage spécifique afin de justifier la prime.

Le choisir

Tournez-vous vers Gemini 2.5 Pro Preview TTS quand :

Vous avez besoin d'une qualité de synthèse vocale de premier rang sur la stack Google.
La charge de travail est un livre audio, une voix off à forte valeur de production ou une fiction audio.
La cohérence audio sur le long format compte.
La prime de coût par rapport à Flash est justifiée par le cas d'usage.

Choisissez autre chose quand :

Le cas d'usage est court, transactionnel ou de type SVI. Utilisez Flash.
La conversation bidirectionnelle en temps réel compte. Utilisez les variantes audio temps réel.
La voix spécifique ou la capacité stylistique dont vous avez besoin n'est pas au catalogue.
La latence ultra-faible domine l'exigence.

Le résumé. La montée en gamme fidélité-et-contrôle par rapport à la TTS de niveau Flash pour les charges de travail où la différence de qualité est suffisamment audible pour justifier la prime. Pour le travail audio à forte valeur de production sur la stack Google, c'est le bon point de départ.

Essayez-le sur un vrai script sur /live-test. La différence Pro contre Flash est suffisamment subjective pour que vous deviez l'entendre sur votre propre contenu.

Dernière revue technique : 22/05/2026 — Tokonomix.ai

Dernier test automatisé

21 juin 2026 · 04:56 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026