Wie groß ist das Kontextfenster?

8.000 Tokens – ausreichend für typische TTS-Anfragen und moderate Texteingaben.

Für welche Anwendungen ist es geeignet?

Sprachassistenten, Voiceover-Generierung, barrierefreie Interfaces und interaktive Bildungswerkzeuge.

Ist es stabil genug für Produktion?

Als Preview ist es für Entwicklertests gedacht; die endgültige Produktionsreife ist noch in Entwicklung.

Tier B — Produktion

Läuft in:USErstellt in:United States

Google Gemini

Gemini 3.1 Flash TTS Preview

Tier B — Produktion · 8K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

Gemini 3.1 Flash TTS Preview ist ein Text-to-Speech-Modell, das von Google als Teil der Gemini-Modellfamilie entwickelt wurde. Diese Vorschauversion ist darauf ausgelegt, geschriebenen Text in gesprochene Audioausgabe umzuwandeln und ermöglicht so Anwendungen, die Sprachsynthese-Fähigkeiten erfordern. Das Modell unterstützt standardmäßige Textgenerierung als Eingabe und verarbeitet natürlichsprachliche Prompts, um entsprechende Sprachausgaben zu erzeugen. Mit einem Kontextfenster von 8K Tokens kann es Texteingaben mittlerer Länge zur Sprachumwandlung verarbeiten. Das Modell steht für Googles Erkundung multimodaler Fähigkeiten innerhalb des Gemini-Ökosystems und geht über rein textbasierte Interaktionen hinaus in den Bereich der Audiogenerierung. Es ist auf Geschwindigkeit und Effizienz optimiert, wie die Bezeichnung „Flash" nahelegt, und eignet sich damit für Anwendungen, die relativ schnelle Sprachsynthese-Antworten erfordern. Die Kennzeichnung TTS Preview weist darauf hin, dass es sich um eine experimentelle Version oder einen frühen Zugang handelt, die wahrscheinlich aktiv weiterentwickelt und auf Basis von Nutzerfeedback und Leistungsmetriken verfeinert wird. Innerhalb der Gemini-Reihe von Google nimmt dieses Modell eine spezialisierte Nische ein, die sich auf Sprachsynthese konzentriert und nicht auf die konversationellen oder analytischen Fähigkeiten der Standard-Gemini-Textmodelle. Es ergänzt andere Gemini-Varianten, indem es Entwicklern Audioausgabeoptionen für ihre Anwendungen bereitstellt. Der Vorschaustatus deutet darauf hin, dass es im Vergleich zu produktionsreifen Modellen möglicherweise Einschränkungen oder sich entwickelnde Funktionen aufweist, und Nutzer sollten mit potenziellen Änderungen bei Fähigkeiten oder Verhalten rechnen, da Google die Entwicklung seiner Text-to-Speech-Technologie fortsetzt.

Text-to-Speech als natives Modellfeature: Gemini 3.1 Flash TTS Preview verwandelt Sprache direkt in gesprochenes Audio.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Gemini 3.1 Flash TTS Preview

$1.00 pro 1M Input-Tokens

$20.00 pro 1M Output-Tokens

≈ $0.0046 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$1.00

pro 1M Output-Tokens$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-06-142026-06-142026-06-14

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Integrierte SprachsyntheseFlash-Geschwindigkeit für TTSNatürliche StimmenausgabeAccessibility-AnwendungenEinfache API-IntegrationGemini-Ökosystem-kompatibel

Schwächen

Nur 8.000-Token-KontextPreview-Status – experimentellStimmoptionen möglicherweise begrenzt

Abschnitt 03

Fähigkeiten

outputTokenLimit: 16384

Abschnitt 04

Häufig gestellte Fragen

Schriftlichen Text in gesprochene Audioausgaben umzuwandeln, direkt aus dem Modell heraus ohne externe TTS-Pipeline.

Eine experimentelle Brücke zwischen Sprachmodell und Sprachausgabe – für Entwickler, die Voice-Features früh erkunden wollen.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 05

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

● 2026-06-14

Gemini 3.1 Flash TTS Preview maintains baseline metrics across windows

Gemini 3.1 Flash TTS Preview shows consistent performance across benchmark windows with no measurable changes in core metrics. The model continues to operate as a text-to-speech solution without available quality, latency, or throughput benchmarks in either the current or previous evaluation periods. This absence of performance data makes it difficult to assess the model's competitive position relative to other TTS offerings in the market. The only detected change between windows relates to pricing updates, though specific performance characteristics remain unmeasured. Users evaluating this model should note that standard benchmarking metrics have not been established, which may complicate technical decision-making for production deployments. The lack of comparative data points across both windows suggests either limited testing coverage or restricted access to performance telemetry. Organizations considering this TTS solution will need to conduct their own evaluations to determine suitability for their specific use cases, as public benchmark data remains unavailable to guide implementation decisions.

Quality

—

Latency p50

—

Test runs

✓ Stable baseline performance maintained✗ No benchmark metrics available✗ Limited performance transparency

Abschnitt 07

Vollständiges Modellprofil

Gemini 3.1 Flash TTS Preview: die Text-to-Speech der nächsten Generation

Hinweis — zukunftsgerichtetes Profil. Gemini 3.1 Flash TTS Preview (gemini-3.1-flash-tts-preview) ist eine Preview-Version. Verhalten, Sprachkatalog und Rate-Limits werden sich vor der allgemeinen Verfügbarkeit ändern.

Das Text-to-Speech-Modell der nächsten Generation in der Flash-Klasse von Google. Ein 8.192-Token-Prompt-Fenster, dimensioniert für das Skript, optionale Kontrollanweisungen und angemessene Reservekapazität. Audio-Ausgabe mit den Verfeinerungen, die die 3.1-Generation vom 2.5 Flash TTS Pendant unterscheiden.

Dies ist eine Einweg-Synthese. Text rein, gesprochenes Audio raus. Alles nachfolgend Erläuterte befasst sich damit, was die TTS der nächsten Generation anders macht als die produktionsreife 2.5 Flash TTS und wie sie sich gegen den Rest des Feldes behauptet.

Was sich gegenüber 2.5 Flash Preview TTS geändert hat

Die 3.1 Flash-Generation bringt mehrere Verbesserungen gegenüber der 2.5 Flash TTS Preview:

Natürlichere Prosodie bei Langform-Inhalten. Die synthetisch klingenden Stellen, die gelegentlich in mehrminütigem Audio der 2.5-Generation auftraten, sind seltener.
Bessere emotionale Kontrolle durch Anweisungen auf Prompt-Ebene. Vorgaben wie „sprich mit gemessener Wärme" oder „lies dies mit ruhiger Dringlichkeit" greifen zuverlässiger und mit geringerem Prompt-Engineering-Aufwand.
Stärkere Sprachabdeckung. Der Katalog unterstützter Sprachen und die Qualität über nicht-englische Stimmen hinweg haben sich beide weiterentwickelt.
Konsistenterer Mehrpersonen-Dialog. Unterschiedliche Stimmen bleiben über längere Szenen hinweg unterscheidbar; Sprechercharakteristiken bleiben durch längere Wechselreden stabil.
Glattere Handhabung von Atem, Pausen und Tempo. Das Audio klingt mehr nach einem Menschen, der liest, und weniger nach einem Modell, das Phoneme zusammensetzt.

Keine dieser Änderungen ist einzeln transformativ. Der kumulative Effekt ist eine Flash-Klasse-TTS, die einen Teil der hörbaren Lücke zur Pro-Klasse der 2.5-Generation schließt.

Was sie gut macht

Die grundlegende TTS-Arbeit — saubere Sprachsynthese aus einem Textskript mit angemessener Latenz — ist solide. Die 3.1-Preview behält das Flash-Klasse-Latenzprofil bei, das die 2.5-Version für interaktive Anwendungen nutzbar machte.

Der Sprachkatalog deckt die wichtigsten europäischen Sprachen mit mehreren Stimmen pro Sprache ab. Die 3.1-Generation erweitert den Katalog und verbessert die Qualität über die bestehenden Stimmen hinweg.

Prosodiekontrolle durch Anweisungen auf Prompt-Ebene ist zuverlässiger als bei der 2.5-Generation. Sie können die gewünschte Darbietung beschreiben, und das Modell passt sich mit angemessener Genauigkeit an.

Mehrpersonen-Dialog funktioniert einwandfrei bei Skripten mit klaren Sprecherkennzeichnungen. Das Modell produziert unterschiedliche Stimmen pro Sprecher und behält die Zuordnungen über das Skript hinweg bei.

Was sie schlecht macht

Immer noch Preview-Klasse. Rate-Limits, regionale Verfügbarkeit und spezifische Verhaltensweisen können sich vor der allgemeinen Verfügbarkeit ändern. Für Produktions-Workloads, die heute stabiles Verhalten benötigen, bleibt die 2.5 Flash Preview TTS die konservativere Wahl.

Die Pro-Klasse der 2.5-Generation produziert bei den anspruchsvollsten Langform-Arbeiten immer noch spürbar bessere Ausgaben. Die 3.1 Flash-Generation schließt die Lücke zu 2.5 Pro, erreicht sie aber nicht.

Voice Cloning einer bestimmten realen Person liegt weiterhin außerhalb des Katalogumfangs. Für Workloads, die eine spezifische reale Stimme benötigen, sind spezialisierte Anbieter die relevante Alternative.

Ultra-niedrige Latenz für Streaming-Anwendungen, bei denen jedes Wort sofort ankommen muss, bleibt eine Einschränkung. Die Flash-Klasse-Latenz ist gut, aber nicht instantan; prüfen Sie das Profil gegen Ihren spezifischen Anwendungsfall.

Wo sie glänzt

Einige Workloads, in denen die 3.1 Flash TTS Preview sauber passt:

Voice-over für Videoinhalte, wo die Flash-Klasse-Latenz funktioniert und die 3.1-Qualitätsverbesserung gegenüber 2.5 wichtig ist.
Interaktive Anwendungen, wo TTS-Qualität und Latenz nahezu in Echtzeit austariert werden müssen.
Mehrpersonen-Dialogszenen, wo die 3.1-Generation die Stimmkonsistenz besser handhabt als 2.5.
Lokalisierungs-Workflows, wo der erweiterte Sprachkatalog mehr Ihrer Zielmärkte abdeckt.
IVR- und Sprachantwort-Systeme, wo modern klingende Synthese für die User Experience wichtig ist.

Wo sie das falsche Werkzeug ist

Produktions-Workloads, die heute stabiles Verhalten benötigen. Verwenden Sie 2.5 Flash Preview TTS, bis die 3.1-Linie allgemeine Verfügbarkeit erreicht.

Höchstqualitative Langform-Hörbuchproduktion. Die 2.5 Pro Preview TTS bleibt die Wahl mit höherer Wiedergabetreue für die anspruchsvollste Produktion.

Spracherkennung oder Transkription. Falsche Richtung; falsche Modellfamilie.

Echtzeit-Konversationsstimme. Dies ist Synthese. Die Gemini-Echtzeit-Audio-Varianten handhaben bidirektionalen Dialog natürlicher.

Voice Cloning für spezifische Individuen. Nur Katalog-Stimmauswahl; für benutzerdefinierte Stimmen schauen Sie sich spezialisierte Anbieter an.

Musikgenerierung oder Sound Design. Völlig andere Werkzeugkategorien.

Wie sie sich gegen Alternativen behauptet

Gegen die 2.5 Flash Preview TTS Schwester. Die 3.1-Preview ist das natürliche Upgrade für neue Entwicklungen. Für bestehende 2.5 Flash-Deployments hängt das Migrationsargument davon ab, ob die hörbaren Verbesserungen für Ihren spezifischen Workload wichtig sind und ob Preview-Klasse-Verhalten akzeptabel ist.

Gegen die 2.5 Pro Preview TTS. Die Pro-Klasse der 2.5-Generation gewinnt immer noch bei den anspruchsvollsten Langform-Arbeiten. Die 3.1 Flash-Preview schließt die Lücke von unten. Für mittlere Qualität zu Flash-Klasse-Kosten wird 3.1 Flash zunehmend wettbewerbsfähig mit 2.5 Pro.

Gegen Nicht-Google-Alternativen. ElevenLabs und ähnliche spezialisierte TTS-Anbieter konkurrieren bei Sprachkatalog-Tiefe, Voice-Cloning-Fähigkeiten und emotionaler Kontrolle. Für Workloads, bei denen eine spezifische stilistische Fähigkeit jenseits von Googles Katalog wichtig ist, könnten spezialisierte Anbieter immer noch einen Vorsprung haben. Für Workloads auf dem Google-Stack, wo Flash-Klasse-Kosten auf Qualität der nächsten Generation treffen, ist 3.1 Flash TTS wettbewerbsfähig.

Das Gesamtbild der Audio-Synthese-Kategorie findet sich unter /benchmarks/intelligence und die Rangliste unter /benchmarks/leaderboard.

Praktische Muster

Einige Dinge, die es wert sind, vor der Entwicklung auf Basis der 3.1 Flash TTS Preview zu wissen:

Die Verbesserungen gegenüber 2.5 Flash zeigen sich am deutlichsten in längeren Skripten. Kurze Clips klingen oft ähnlich zwischen beiden; mehrparagraphiger Inhalt offenbart den Unterschied.
Prosodie-Anweisungen greifen zuverlässiger als bei der 2.5-Generation, profitieren aber immer noch davon, spezifisch zu sein. „Sprich mit milder Dringlichkeit, etwas schneller als normal" funktioniert besser als „mach es dringend."
Für Mehrpersonen-Dialog kennzeichnen Sie Sprecher klar und konsistent über das Skript hinweg. Die 3.1-Generation behält den Stimmcharakter besser über lange Skripte bei.
Die Wahl des Audioformats beeinflusst die hörbare Qualität der Verbesserungen. WAV bewahrt die volle Wiedergabetreue, die die 3.1-Generation produziert; verlustbehaftete Formate werfen einen Teil davon weg.
Die Generierungslatenz skaliert ungefähr linear mit der Skriptlänge. Planen Sie UX-Muster für Streaming-Wiedergabe, anstatt auf vollständige Dateien zu warten.

Deployment-Hinweise

Standard-Google Gemini API mit TTS-spezifischen Endpunkten. Das Request-Format folgt dem breiteren TTS-Muster in der Gemini-Familie — prüfen Sie die Modellreferenz für die Parameterform.

Regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind bei Unternehmensverträgen verfügbar. Standardmäßiger Consumer-API-Zugang fixiert keine Region.

Generiertes Audio trägt Herkunftsmetadaten entsprechend Googles breiteren Verpflichtungen zu KI-generierten Inhalten. Für Workloads, bei denen dies so oder so wichtig ist, prüfen Sie die aktuelle API-Dokumentation.

Preview-Klasse-Preise sollten nicht die Grundlage für langfristige Kostenmodellierung sein. Die Preisstruktur bei allgemeiner Verfügbarkeit kann von den Preview-Klasse-Tarifen abweichen.

Wann Sie sie wählen sollten

Greifen Sie zu Gemini 3.1 Flash TTS Preview, wenn:

Sie Flash-Klasse-TTS-Fähigkeiten der nächsten Generation für zukünftigen Produktionseinsatz erkunden.
Der Workload durch 2.5 Flash TTS-Qualität eingeschränkt wurde und Sie sehen wollen, ob 3.1 die Lücke schließt.
Preview-Klasse-Rate-Limits und Verhaltensüberlegungen akzeptabel sind.
Der erweiterte Sprachkatalog Ihre Zielmärkte abdeckt.

Wählen Sie etwas anderes, wenn:

Sie heute produktionsstabiles TTS-Verhalten benötigen. Verwenden Sie 2.5 Flash Preview TTS.
Der Workload höchste Wiedergabetreue für Langform-Hörbuchproduktion benötigt. Erwägen Sie 2.5 Pro Preview TTS.
Die Arbeit ist Sprachtranskription, Echtzeit-bidirektionaler Dialog oder Voice Cloning.
Der spezifische Stimmcharakter, den Sie benötigen, ist nicht im Katalog.

Die Zusammenfassung. Solide TTS der nächsten Generation in der Flash-Klasse, die das, was die 2.5 Flash-Version bot, bedeutsam verfeinert. Für Preview-Klasse-Exploration und zukunftsorientiertes Design ist sie der richtige Ausgangspunkt. Für produktionsstabiles Deployment heute bleibt die 2.5 Flash TTS die konservative Wahl.

Testen Sie sie mit einem echten Skript unter /live-test. Stimmqualität ist subjektiv genug, dass Sie den 2.5-versus-3.1-Unterschied an Ihrem eigenen Inhalt hören sollten, bevor Sie sich festlegen.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

21. Juni 2026 · 04:53 UTC · Benchmark

P50-Latenz

—

P95-Latenz

—

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026