Gemini TTS Preview peut-il gérer plusieurs langues ?

Oui, comme les autres modèles Gemini il supporte plusieurs langues pour la synthèse vocale.

Pourquoi la fenêtre de contexte est-elle limitée à 8 000 tokens ?

Les modèles TTS traitent des séquences plus courtes car la génération audio a des contraintes différentes des modèles texte.

Ce modèle est-il adapté aux assistants vocaux en production ?

Son statut preview implique une utilisation prudente en production. Il convient davantage à l expérimentation et au développement.

Comment accéder à ce modèle chez Google ?

Via l API Google AI Platform selon les conditions d accès preview définies par Google.

Tier B — Production

Fonctionne en :USCréé en :United States

Google Gemini

Gemini 3.1 Flash TTS Preview

Tier B — Production · 8K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

Gemini 3.1 Flash TTS Preview est un modèle de synthèse vocale développé par Google dans le cadre de la famille de modèles Gemini. Cette version preview est conçue pour convertir du texte écrit en sortie audio parlée, permettant des applications nécessitant des capacités de synthèse vocale. Le modèle prend en charge la génération de texte standard en entrée, traitant des invites en langage naturel pour produire la sortie vocale correspondante. Avec une fenêtre de contexte de 8K tokens, il peut gérer des entrées textuelles de longueur modérée pour conversion en parole. Le modèle illustre l'exploration par Google des capacités multimodales au sein de l'écosystème Gemini, allant au-delà des interactions purement textuelles vers la génération audio. Il est optimisé pour la vitesse et l'efficacité, comme le suggère la désignation « Flash », ce qui le rend adapté aux applications nécessitant des réponses de synthèse vocale relativement rapides. L'étiquette TTS Preview indique qu'il s'agit d'une version expérimentale ou en accès anticipé, probablement en développement et en raffinement actifs selon les retours utilisateurs et les indicateurs de performance. Au sein de la gamme Gemini de Google, ce modèle occupe une niche spécialisée centrée sur la synthèse vocale plutôt que sur les capacités conversationnelles ou analytiques des modèles textuels Gemini standard. Il complète les autres variantes Gemini en offrant aux développeurs des options de sortie audio pour leurs applications. Le statut preview suggère qu'il peut présenter des limitations ou des fonctionnalités évolutives par rapport aux modèles prêts pour la production, et les utilisateurs doivent s'attendre à d'éventuels changements de capacités ou de comportement à mesure que Google poursuit le développement de sa technologie de synthèse vocale.

Gemini 3.1 Flash TTS Preview représente l intégration native de la synthèse vocale dans le modèle Flash de Google.
— Synthèse benchmark Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Gemini 3.1 Flash TTS Preview

$1.00 par 1M de tokens d'entrée

$20.00 par 1M de tokens de sortie

≈ $0.0046 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$1.00

par 1M de tokens de sortie$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-06-142026-06-142026-06-14

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Synthèse vocale native intégréeArchitecture Flash pour la vitesseConversion texte vers parole fluideSupport multilingueIntégration dans workflows Gemini

Faiblesses

Statut preview, instabilité possibleFenêtre de contexte de 8 000 tokens seulementNon adapté aux tâches textuelles généralesFonctionnalités susceptibles d évoluer

Section 03

Capacités

outputTokenLimit: 16384

Section 04

Questions fréquentes

Ce modèle est spécialisé dans la synthèse vocale, convertissant le texte en parole plutôt que de générer uniquement du texte écrit.

Un aperçu de l avenir des interfaces vocales avec l architecture Flash de Google.
— Synthèse benchmark Tokonomix

Section 05

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

● 2026-06-14

Gemini 3.1 Flash TTS Preview maintains baseline metrics across windows

Gemini 3.1 Flash TTS Preview shows consistent performance across benchmark windows with no measurable changes in core metrics. The model continues to operate as a text-to-speech solution without available quality, latency, or throughput benchmarks in either the current or previous evaluation periods. This absence of performance data makes it difficult to assess the model's competitive position relative to other TTS offerings in the market. The only detected change between windows relates to pricing updates, though specific performance characteristics remain unmeasured. Users evaluating this model should note that standard benchmarking metrics have not been established, which may complicate technical decision-making for production deployments. The lack of comparative data points across both windows suggests either limited testing coverage or restricted access to performance telemetry. Organizations considering this TTS solution will need to conduct their own evaluations to determine suitability for their specific use cases, as public benchmark data remains unavailable to guide implementation decisions.

Quality

—

Latency p50

—

Test runs

✓ Stable baseline performance maintained✗ No benchmark metrics available✗ Limited performance transparency

Section 07

Profil complet du modèle

Gemini 3.1 Flash TTS Preview : la synthèse vocale de nouvelle génération

Note — profil prospectif. Gemini 3.1 Flash TTS Preview (gemini-3.1-flash-tts-preview) est un instantané de prévisualisation. Le comportement, le catalogue vocal et les limites de débit changeront avant la disponibilité générale.

Le modèle de synthèse vocale de niveau Flash de nouvelle génération de Google. Une fenêtre de prompt de 8 192 tokens dimensionnée pour le script, des instructions de contrôle optionnelles et une marge de manœuvre raisonnable. Sortie audio avec les raffinements qui distinguent la génération 3.1 du cousin 2.5 Flash TTS.

Il s'agit d'une synthèse unidirectionnelle. Texte en entrée, audio parlé en sortie. Tout ce qui suit concerne ce que le TTS de nouvelle génération fait différemment du 2.5 Flash TTS en production et comment il se positionne par rapport au reste du marché.

Ce qui a changé depuis 2.5 Flash Preview TTS

La génération 3.1 Flash apporte plusieurs améliorations par rapport à la prévisualisation 2.5 Flash TTS :

Prosodie plus naturelle sur les contenus de longue durée. Les passages au son synthétique qui apparaissaient occasionnellement dans l'audio de plusieurs minutes à la génération 2.5 sont moins fréquents.
Meilleur contrôle émotionnel via les instructions au niveau du prompt. Des directives comme « parler avec une chaleur mesurée » ou « lire ceci avec une urgence discrète » fonctionnent de manière plus fiable et nécessitent moins d'efforts d'ingénierie de prompt.
Couverture linguistique renforcée. Le catalogue des langues prises en charge et la qualité des voix non anglophones ont tous deux progressé.
Dialogue multi-locuteurs plus cohérent. Les voix distinctes restent distinctes sur des scènes plus longues ; les caractéristiques des locuteurs demeurent stables tout au long d'échanges prolongés.
Gestion plus fluide de la respiration, des pauses et du rythme. L'audio sonne davantage comme une personne qui lit et moins comme un modèle qui assemble des phonèmes.

Aucun de ces changements n'est individuellement transformationnel. L'effet cumulé est un TTS de niveau Flash qui comble une partie de l'écart audible avec le niveau Pro de la génération 2.5.

Ce qu'il fait bien

Le travail TTS fondamental — une synthèse vocale propre à partir d'un script texte avec une latence raisonnable — est solide. La prévisualisation 3.1 conserve le profil de latence de niveau Flash qui rendait la version 2.5 utilisable pour les applications interactives.

Le catalogue vocal couvre les principales langues européennes avec plusieurs voix par langue. La génération 3.1 élargit le catalogue et améliore la qualité de l'ensemble des voix existantes.

Le contrôle de la prosodie via les instructions au niveau du prompt est plus fiable qu'à la génération 2.5. Vous pouvez décrire la livraison souhaitée et le modèle s'ajuste avec une fidélité raisonnable.

Le dialogue multi-locuteurs fonctionne proprement pour les scripts avec des étiquettes de locuteur claires. Le modèle produit des voix distinctes par locuteur et maintient les assignations tout au long du script.

Ce qu'il fait mal

Toujours au niveau de prévisualisation. Les limites de débit, la disponibilité régionale et les comportements spécifiques peuvent évoluer avant la disponibilité générale. Pour les charges de travail en production qui nécessitent un comportement stable aujourd'hui, le 2.5 Flash Preview TTS reste le choix le plus conservateur.

Le niveau Pro de la génération 2.5 produit toujours une sortie sensiblement meilleure sur les travaux de longue durée les plus exigeants. La génération 3.1 Flash réduit l'écart avec la 2.5 Pro mais ne l'égale pas.

Le clonage vocal d'une personne réelle spécifique reste en dehors du périmètre du catalogue. Pour les charges de travail qui nécessitent une voix réelle spécifique, les fournisseurs spécialisés constituent l'alternative pertinente.

La latence ultra-faible pour les applications de streaming où chaque mot doit arriver immédiatement reste une contrainte. La latence de niveau Flash est bonne mais pas instantanée ; vérifiez le profil par rapport à votre cas d'usage spécifique.

Où il excelle

Quelques charges de travail où la prévisualisation 3.1 Flash TTS s'intègre parfaitement :

Voix off pour le contenu vidéo où la latence de niveau Flash fonctionne et où l'amélioration de qualité de la 3.1 par rapport à la 2.5 compte.
Applications interactives où la qualité et la latence TTS en quasi temps réel doivent être équilibrées.
Scènes de dialogue multi-locuteurs où la génération 3.1 gère la cohérence vocale mieux que la 2.5.
Workflows de localisation où le catalogue linguistique élargi couvre davantage de vos marchés cibles.
Systèmes IVR et de réponse vocale où une synthèse au son moderne compte pour l'expérience utilisateur.

Où c'est le mauvais outil

Les charges de travail en production qui nécessitent un comportement stable aujourd'hui. Utilisez 2.5 Flash Preview TTS jusqu'à ce que la ligne 3.1 atteigne la disponibilité générale.

Le travail de livre audio de longue durée de la plus haute qualité. Le 2.5 Pro Preview TTS reste le choix de fidélité supérieure pour la production la plus exigeante.

La reconnaissance vocale ou la transcription. Mauvaise direction ; mauvaise famille de modèles.

La voix conversationnelle en temps réel. C'est de la synthèse. Les variantes audio en temps réel de Gemini gèrent le dialogue bidirectionnel de manière plus naturelle.

Le clonage vocal pour des individus spécifiques. Sélection vocale uniquement via catalogue ; pour les voix personnalisées, regardez du côté des fournisseurs spécialisés.

La génération musicale ou le design sonore. Catégories d'outils entièrement différentes.

Comment il se compare aux alternatives

Par rapport au cousin 2.5 Flash Preview TTS. La prévisualisation 3.1 est la mise à niveau naturelle pour les nouvelles constructions. Pour les déploiements 2.5 Flash existants, le cas de migration dépend de savoir si les améliorations audibles comptent pour votre charge de travail spécifique et si le comportement de niveau prévisualisation est acceptable.

Par rapport au 2.5 Pro Preview TTS. Le niveau Pro de la génération 2.5 l'emporte toujours sur les travaux de longue durée les plus exigeants. La prévisualisation 3.1 Flash réduit l'écart par le bas. Pour une qualité de milieu de gamme au coût de niveau Flash, la 3.1 Flash devient de plus en plus compétitive avec la 2.5 Pro.

Par rapport aux alternatives non-Google. ElevenLabs et des fournisseurs TTS spécialisés similaires sont en concurrence sur la profondeur du catalogue vocal, les capacités de clonage vocal et le contrôle émotionnel. Pour les charges de travail où une capacité stylistique spécifique au-delà du catalogue de Google compte, les fournisseurs spécialisés peuvent encore avoir un avantage. Pour les charges de travail sur la pile Google où le coût de niveau Flash rencontre la qualité de nouvelle génération, 3.1 Flash TTS est compétitif.

Le panorama au niveau de la catégorie de synthèse audio se trouve sur /benchmarks/intelligence et le classement sur /benchmarks/leaderboard.

Schémas pratiques

Quelques éléments à connaître avant de construire sur la prévisualisation 3.1 Flash TTS :

Les améliorations par rapport à 2.5 Flash apparaissent le plus clairement dans les scripts plus longs. Les clips courts sonnent souvent de manière similaire entre les deux ; le contenu de plusieurs paragraphes révèle la différence.
Les instructions de prosodie fonctionnent de manière plus fiable qu'à la génération 2.5 mais bénéficient toujours d'être spécifiques. « Parler avec une urgence modérée, légèrement plus rapide que la normale » fonctionne mieux que « rendre cela urgent ».
Pour le dialogue multi-locuteurs, étiquetez les locuteurs de manière claire et cohérente à travers le script. La génération 3.1 maintient mieux le caractère vocal à travers les scripts longs.
Le choix du format audio affecte la qualité audible des améliorations. Le WAV préserve la pleine fidélité que la génération 3.1 produit ; les formats avec perte en éliminent une partie.
La latence de génération évolue à peu près linéairement avec la longueur du script. Planifiez des schémas UX pour la lecture en streaming plutôt que d'attendre les fichiers complets.

Notes de déploiement

API Google Gemini standard avec des points de terminaison spécifiques au TTS. Le format de requête suit le schéma TTS plus large dans la famille Gemini — consultez la référence du modèle pour la structure des paramètres.

La disponibilité régionale suit le schéma Vertex AI standard de Google. Les régions de l'UE sont disponibles sur les contrats d'entreprise. L'accès API consommateur prêt à l'emploi ne fixe pas de région.

L'audio généré porte des métadonnées de provenance conformes aux engagements plus larges de Google concernant le contenu généré par IA. Pour les charges de travail où cela compte dans un sens ou dans l'autre, consultez la documentation API actuelle.

La tarification de niveau prévisualisation ne doit pas être la base de la modélisation des coûts à long terme. La structure tarifaire à la disponibilité générale peut différer des tarifs de niveau prévisualisation.

Le choisir

Optez pour Gemini 3.1 Flash TTS Preview lorsque :

Vous explorez les capacités TTS de niveau Flash de nouvelle génération pour un futur déploiement en production.
La charge de travail était contrainte par la qualité du 2.5 Flash TTS et vous voulez voir si la 3.1 comble l'écart.
Les limites de débit et les considérations de comportement de niveau prévisualisation sont acceptables.
Le catalogue linguistique élargi couvre vos marchés cibles.

Choisissez autre chose lorsque :

Vous avez besoin d'un comportement TTS stable en production aujourd'hui. Utilisez 2.5 Flash Preview TTS.
La charge de travail nécessite la fidélité la plus élevée pour la production de livres audio de longue durée. Envisagez 2.5 Pro Preview TTS.
Le travail concerne la transcription vocale, le dialogue bidirectionnel en temps réel ou le clonage vocal.
Le caractère vocal spécifique dont vous avez besoin ne figure pas dans le catalogue.

Le résumé. Un TTS Flash de nouvelle génération solide qui raffine de manière significative ce que la version 2.5 Flash offrait. Pour l'exploration de niveau prévisualisation et la conception prospective, c'est le bon point de départ. Pour un déploiement en production stable aujourd'hui, le 2.5 Flash TTS reste le choix conservateur.

Testez-le sur un vrai script sur /live-test. La qualité vocale est suffisamment subjective pour que vous devriez entendre la différence entre 2.5 et 3.1 sur votre propre contenu avant de vous engager.

Dernière révision technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

21 juin 2026 · 04:53 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026