Zum Inhalt
Läuft in:USErstellt in:United States
Google Gemini

Gemini 2.5 Pro Preview TTS

8K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Gemini 2.5 Pro Preview TTS ist eine Text-to-Speech-fähige Variante von Googles Gemini 2.5 Pro Sprachmodell. Diese Preview-Version integriert Sprachsynthese direkt in die Ausgabe-Pipeline des Modells und ermöglicht es, gesprochene Audio-Antworten zusätzlich oder anstelle von Text zu erzeugen. Das Modell behält die zentrale Architektur und die Reasoning-Fähigkeiten der Gemini 2.5 Pro-Reihe bei und ergänzt diese um native Audioausgabe. Es arbeitet mit einem Kontextfenster von 8.000 Token, das für mittelgroße Konversationen und Dokumentverarbeitung geeignet ist, jedoch begrenzter als Googles Angebote mit erweitertem Kontext ausfällt. Das Modell ist für Anwendungen konzipiert, die sowohl natürliches Sprachverständnis als auch sprachbasierte Antwortausgabe erfordern – etwa für Konversationsassistenten, Barrierefreiheits-Tools, interaktive Sprachsysteme und multimodale Anwendungen, bei denen Audioausgabe die Nutzererfahrung verbessert. Es unterstützt gängige Textgenerierungsaufgaben wie Fragenbeantwortung, Zusammenfassung, Content-Erstellung und Reasoning – mit der zusätzlichen Möglichkeit, Ergebnisse in synthetisierter Sprache auszugeben. Innerhalb der Gemini-Modellreihe von Google nimmt dieses Modell eine spezialisierte Position als Preview-Angebot ein, das die Integration von TTS-Funktionen in die Pro-Klasse der Sprachmodelle demonstriert. Es steht neben weiteren Gemini 2.5-Varianten, die sich auf andere Modalitäten oder Leistungsmerkmale konzentrieren. Als Preview-Version bietet es Entwicklern frühen Zugang zu kombinierter Sprach- und Sprachausgabefunktionalität, kann jedoch im Vergleich zu produktionsreifen Modellen von Google Einschränkungen oder noch in Entwicklung befindliche Funktionen aufweisen.

Wenn das Sprachmodell selbst spricht: Gemini 2.5 Pro Preview TTS vereint Sprachverständnis und Stimmensynthese in einem Modell.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini 2.5 Pro Preview TTS
$1.25 pro 1M Input-Tokens
$10.00 pro 1M Output-Tokens
≈ $0.0028 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$1.25
pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Native Text-to-Speech-IntegrationGemini-2.5-Pro-Reasoning-BasisBarrierefreiheits-Anwendungen möglichSprachausgabe ohne externe PipelineFrage-Antwort mit AudioausgabeFür Voice-App-Entwickler geeignet

Schwächen

Nur 8.000-Token-KontextPreview-Status – kein GAFunktionen können sich ändern
Abschnitt 03

Fähigkeiten

toolssource: litellmvisionjson modejson schemaparallel toolsprompt cachingoutputTokenLimit: 16384max output tokens: 65535
Abschnitt 04

Häufig gestellte Fragen

Es integriert Sprachsynthese direkt in das Modell, sodass kein separates TTS-System benötigt wird.

Für Entwickler, die Voice-Interfaces direkt aus der KI heraus aufbauen wollen, ist diese Preview ein wegweisender Schritt.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 05

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

2026-06-14

Gemini 2.5 Pro Preview TTS maintains capabilities, no performance data

Gemini 2.5 Pro Preview TTS continues to offer the same feature set as the previous benchmark window, with support for tools, vision, JSON mode, JSON schema, parallel tools, and prompt caching. No benchmark performance data is available for either the current or previous window, making it impossible to assess changes in actual model quality, reasoning capability, or task performance. The model retains its multimodal capabilities that were added in the previous period, allowing it to process both text and visual inputs. Without concrete performance metrics, users should approach this model understanding that while its API capabilities remain consistent, there is no empirical evidence of improvements or regressions in output quality, accuracy, or other measurable performance dimensions. The stability of features suggests a maintained baseline, but the absence of benchmark results means claims about model effectiveness cannot be independently verified through this evaluation window.

Quality

Latency p50

Test runs

0

Feature set remains stable No performance data available
Abschnitt 07

Vollständiges Modellprofil

Gemini 2.5 Pro Preview TTS — illustration 1
Gemini 2.5 Pro Preview TTS: die hochwertige TTS der 2.5-Linie

Hinweis — zukunftsgerichtetes Profil. Gemini 2.5 Pro Preview TTS (gemini-2.5-pro-preview-tts) ist ein Preview-Snapshot. Verhalten, Stimmkatalog und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern.

Das Pro-Tier-Text-to-Speech-Modell in Googles 2.5-Familie. Ein Prompt-Fenster von 8.192 Token — auf das ausgelegt, was TTS-Arbeit tatsächlich braucht: das Skript, optionale Steueranweisungen und ausreichend Puffer. Audioausgabe mit dem Qualitätssprung und der Prosodie-Kontrolle, die die Pro-Stufe von der Flash-Tier-Geschwisterin unterscheiden.

Dies ist einseitige Synthese. Text rein, gesprochenes Audio raus. Alles unten handelt von Stimmqualität, Steueroberflächen und wo die Pro-Stufe ihre Prämie gegenüber der Flash-Variante verdient.

Was es tatsächlich tut

Gleiche Grundelemente wie die Flash-Tier-TTS: Stimmauswahl aus einem kuratierten Katalog, optionale Prosodie-Kontrolle durch Prompt-Level-Anweisungen, Multi-Speaker-Ausgabe für Dialog-Skripte, konfigurierbares Audioformat.

Was die Pro-Stufe hinzufügt:

  • Hochwertigere Ausgabequalität. Das Audio hat natürlichere Atemzugmuster, glattere prosodische Übergänge und weniger der synthetischen Artefakte, die gelegentlich bei Lite-Tier-TTS bei Langform-Inhalten auftreten.
  • Zuverlässigere emotionale Kontrolle. Prompt-Level-Anweisungen wie „sprich mit gemessener Besorgnis" oder „lies das mit stiller Begeisterung" landen konsistenter als auf der Flash-Stufe.
  • Bessere Langform-Kohärenz. Mehrstündige Audio-Inhalte halten Stimmcharakter und Energie ohne den graduellen Drift, den niedrigere Tier-Modelle manchmal zeigen.
  • Konsistenterer Multi-Speaker-Dialog. Unterschiedliche Stimmen bleiben über lange Szenen unterschiedlich; Sprechercharakteristika bleiben stabil.

Wo es glänzt

Einige Workloads, bei denen die Pro-Stufe die Prämie wirklich wert ist:

  • Hörbuchproduktion, bei der mehrstündige Konsistenz und natürliche Prosodie für das Hörerlebnis wichtig sind.
  • Hochwertiger Voice-Over für Videoinhalte, Marketingmaterial und Erklärvideos.
  • Audio-Drama und interaktive Fiktion mit mehreren Charakteren und emotionaler Bandbreite.
  • Voice-Over für Inhalte, die an ein breites Publikum ausgeliefert werden, bei dem Qualität den wahrgenommenen Produktionswert direkt beeinflusst.
  • Barrierefreiheits-Anwendungen, bei denen Audioqualität für nachhaltigen Hörkomfort wichtig ist.

Die Flash-Tier-Geschwisterin deckt viele Fälle zu niedrigeren Kosten ab. Pro ist für die Fälle, bei denen der Qualitätsunterschied hörbar genug ist, um das Upgrade zu rechtfertigen.

Wann es das falsche Werkzeug ist

Alles, bei dem Flash-Tier-Qualität ausreicht. Die meisten Kurzform-, Transaktions- oder IVR-artigen Anwendungsfälle profitieren nicht vom Pro-Upgrade.

Echtzeit-konversationelle Sprache. Dies ist Synthese, kein bidirektionaler Dialog. Die Gemini-Echtzeit-Audio-Varianten behandeln das Konversationsmuster natürlicher.

Spracherkennung oder Transkription. Falsche Richtung; falsche Modellfamilie.

Stimmenklonung einer spezifischen realen Person. Googles TTS-Katalog deckt kuratierte Stimmen ab. Benutzerdefinierte Stimmarbeit für spezifische Personen erfordert spezialisierte Anbieter oder Vertragsebene-Arrangements.

Audiobearbeitung, Sound-Design oder Musikgenerierung. Vollständig andere Werkzeugkategorien.

Ultra-Niedriglatenz-Anforderungen, bei denen jede Millisekunde zählt. Die Pro-Stufe priorisiert Qualität über absolute Latenz; für latenzkritische Sprachanwendungen kann die Flash-Stufe oder spezialisierte Niedriglatenz-Anbieter besser passen.

Vergleich mit Alternativen

Gegenüber der Flash-Tier-Geschwisterin — Gemini 2.5 Flash Preview TTS: Pro produziert bei Langform-Inhalten merklich bessere Ausgaben und behandelt emotionale Nuancen zuverlässiger. Flash ist schneller und kostengünstiger. Die Wahl hängt davon ab, ob das Qualitätsdelta die Prämie für den spezifischen Workload rechtfertigt.

Gegenüber der 3.x-Generation — Gemini 3.1 Flash TTS Preview: Der 3.x-Preview zeigt weitere Verbesserungen und könnte die Lücke zur Pro-Stufe von unten schließen. Vorläufig bleibt Pro die höherwertige Wahl in der Familie.

Gegenüber Nicht-Google-Alternativen: ElevenLabs und ähnliche spezialisierte TTS-Anbieter konkurrieren bei Stimmkatalog-Tiefe, Stimmenklonung und emotionaler Kontrolle. Für Workloads, bei denen ein spezifischer Stimmcharakter oder eine spezifische stilistische Fähigkeit über das hinausgeht, was Google liefert, können spezialisierte Anbieter noch einen Vorsprung halten. Für Workloads auf dem Google-Stack, bei denen Pro-Tier-Qualität zu Google-Preisen der richtige Kompromiss ist, ist dieses Modell wettbewerbsfähig.

Praktische Muster

Einiges, was man wissen sollte, bevor man auf der Pro-Stufe aufbaut:

  • Der Qualitätssprung zeigt sich am deutlichsten bei Langform-Inhalten. Kurze Clips klingen oft ähnlich zwischen Flash und Pro; mehrstündige Inhalte offenbaren den Unterschied.
  • Prosodie-Anweisungen landen zuverlässiger als auf der Flash-Stufe, profitieren aber noch von Spezifität. „Spreche mit leichter Dringlichkeit, etwas schneller als normal" funktioniert besser als „mache es dringend."
  • Für Multi-Speaker-Dialog Sprecher klar beschriften und konsistente Bezeichnungen über das Skript verwenden. Die Pro-Stufe behält Stimmcharakter besser über längere Skripte als die Flash-Stufe.
  • Audioformate und Bitraten sollten basierend auf der nachgelagerten Verwendung gewählt werden. WAV bewahrt die volle Fidelity, die Pro produziert; verlustbehaftete Formate werfen etwas davon weg.
  • Generierungslatenz ist höher als Flash. UX-Muster entsprechend planen.

Sprachen und Akzente

Der Pro-Tier-Stimmkatalog deckt die großen europäischen Sprachen mit mehreren Stimmen pro Sprache ab. Der Qualitätssprung gegenüber der Flash-Stufe ist am stärksten hörbar in Sprachen, bei denen der Katalog mehr Stimmoptionen hat — Englisch, Spanisch, Französisch, Deutsch, Italienisch. Kleinere Sprachen haben bei beiden Stufen begrenztere Stimmauswahl.

Code-Switching zwischen Sprachen innerhalb eines einzelnen Skripts wird behandelt, aber Qualität variiert. Für mehrsprachige Inhalte ist es besser, jedes Sprachsegment separat zu generieren und zu concatenieren, statt sich darauf zu verlassen, dass das Modell innerhalb des Skripts wechselt.

Für den aktuellsten Stimmkatalog und Sprachabdeckung die modellspezifische Referenz konsultieren, statt sich auf Launch-Dokumentation zu verlassen.

Deployment-Hinweise

Standard-Google-Gemini-API mit TTS-spezifischen Endpoints. Das Request-Format unterscheidet sich von Text-Generierungsaufrufen — die Modell-Referenz auf das genaue Parameter-Format prüfen.

Regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region.

Generiertes Audio trägt Provenienz-Metadaten entsprechend Googles breiteren Verpflichtungen zu KI-generierten Inhalten. Für Workloads, bei denen die Metadaten auf die eine oder andere Weise wichtig sind, die aktuelle API-Dokumentation auf das Konfigurierbare prüfen.

Pro-Tier-Preise liegen über Flash, wie erwartet. Für hochvolumige Workloads hängt die Kosten-Argumentation für Pro davon ab, ob der hörbare Qualitätssprung für den spezifischen Anwendungsfall die Prämie rechtfertigt.

Wann Sie es einsetzen sollten

Greifen Sie zu Gemini 2.5 Pro Preview TTS, wenn:

  • Sie top-tier Sprachsynthese-Qualität auf dem Google-Stack brauchen.
  • Der Workload Hörbuch, hochwertiger Voice-Over oder Audio-Drama ist.
  • Langform-Audio-Kohärenz wichtig ist.
  • Die Kosten-Prämie gegenüber Flash durch den Anwendungsfall gerechtfertigt ist.

Wählen Sie etwas anderes, wenn:

  • Der Anwendungsfall Kurzform, Transaktions- oder IVR-artig ist. Flash verwenden.
  • Echtzeit-bidirektionale Konversation wichtig ist. Die Echtzeit-Audio-Varianten verwenden.
  • Die spezifische Stimme oder stilistische Fähigkeit nicht im Katalog ist.
  • Ultra-Niedriglatenz die Anforderung dominiert.

Zusammenfassung: Das Fidelity-und-Kontrolle-Upgrade gegenüber Flash-Tier-TTS für Workloads, bei denen der Qualitätsunterschied hörbar genug ist, um die Prämie zu rechtfertigen. Für hochwertige Audio-Arbeit auf dem Google-Stack ist es der richtige Ausgangspunkt.

Testen Sie es auf einem echten Skript unter /live-test. Der Pro-versus-Flash-Unterschied ist subjektiv genug, dass man ihn auf eigenen Inhalten hören sollte.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Pro Preview TTS — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 04:20 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026