Naar inhoud
Draait in:USGemaakt in:United States
Google Gemini

Gemini 2.5 Pro Preview TTS

8K tokens

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

Gemini 2.5 Pro Preview TTS is een tekst-naar-spraak-variant van Google's Gemini 2.5 Pro-taalmodel. Deze preview-release integreert spraaksynthesemogelijkheden direct in de outputpijplijn van het model, waardoor het gesproken audio-reacties kan genereren naast of in plaats van standaard tekst. Het model behoudt de kernarchitectuur en redeneercapaciteiten van de Gemini 2.5 Pro-serie terwijl het native audio-outputfunctionaliteit toevoegt. Het werkt met een contextvenster van 8.000 tokens, wat geschikt is voor gesprekken en documentverwerkingstaken van gemiddelde omvang maar beperkter is dan Google's uitgebreide contextaanbod. Het model is ontworpen voor toepassingen die zowel natuurlijke taalverwerking als gesproken responsleveringen vereisen, zoals conversatie-assistenten, toegankelijkheidstools, interactieve spraaksystemen en multimodale toepassingen waarbij audio-output de gebruikerservaring verbetert. Het ondersteunt standaard tekstgeneratietaken zoals vraagbeantwoording, samenvatting, contentcreatie en redeneren, met de toegevoegde mogelijkheid om resultaten in gesynthetiseerde spraak te leveren. Binnen Google's Gemini-reeks neemt dit model een gespecialiseerde positie in als preview-aanbod dat de integratie van TTS-mogelijkheden met de Pro-tier-taalmodellen van het bedrijf demonstreert. Het staat naast andere Gemini 2.5-varianten die zich richten op verschillende modaliteiten of prestatiekenmerken. Als preview-release biedt het ontwikkelaars vroege toegang tot gecombineerde taal-en-spraakfunctionaliteit, hoewel het beperkingen of evoluerende functies kan hebben vergeleken met Google's productierijpe modellen.

Gemini 2.5 Pro Preview TTS levert vloeiende, natuurlijk klinkende spraakuitvoer via een eenvoudige API.

Tokonomix benchmark-samenvatting
Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Gemini 2.5 Pro Preview TTS
$1.25 per 1M input-tokens
$10.00 per 1M output-tokens
≈ $0.0028 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$1.25
per 1M output-tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Hoogwaardige spraaksyntheseRijke stemkwaliteit en intonatieLage latentie voor realtime gebruikMeertalige spraakondersteuningNatuurlijk klinkende uitvoerEenvoudige API-integratie

Zwakke punten

Geen tekstgeneratie-mogelijkheidHogere kosten per karakterBeperkte stemvariatie-opties
Sectie 03

Mogelijkheden

toolssource: litellmvisionjson modejson schemaparallel toolsprompt cachingoutputTokenLimit: 16384max output tokens: 65535
Sectie 04

Veelgestelde vragen

Gemini 2.5 Pro Preview TTS is een gespecialiseerd audio-model dat tekst omzet naar spraak. Het is geoptimaliseerd voor heldere, natuurlijk klinkende spraakuitvoer.

Een solide keuze voor toepassingen waarbij tekst-naar-spraak-kwaliteit doorslaggevend is.

Tokonomix benchmark-samenvatting
Sectie 05

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 06

Tokonomix benchmark-oordelen

2026-06-14

Gemini 2.5 Pro Preview TTS maintains capabilities, no performance data

Gemini 2.5 Pro Preview TTS continues to offer the same feature set as the previous benchmark window, with support for tools, vision, JSON mode, JSON schema, parallel tools, and prompt caching. No benchmark performance data is available for either the current or previous window, making it impossible to assess changes in actual model quality, reasoning capability, or task performance. The model retains its multimodal capabilities that were added in the previous period, allowing it to process both text and visual inputs. Without concrete performance metrics, users should approach this model understanding that while its API capabilities remain consistent, there is no empirical evidence of improvements or regressions in output quality, accuracy, or other measurable performance dimensions. The stability of features suggests a maintained baseline, but the absence of benchmark results means claims about model effectiveness cannot be independently verified through this evaluation window.

Quality

Latency p50

Test runs

0

Feature set remains stable No performance data available
Sectie 07

Volledig modelprofiel

Gemini 2.5 Pro Preview TTS — illustration 1
Gemini 2.5 Pro Preview TTS: de high-fidelity TTS in de 2.5-lijn

Let op — vooruitblikkend profiel. Gemini 2.5 Pro Preview TTS (gemini-2.5-pro-preview-tts) is een preview-snapshot. Gedrag, stemcatalogus en rate limits veranderen vóór algemene beschikbaarheid.

Het Pro-tier tekst-naar-spraakmodel in Google's 2.5-familie. Een promptwindow van 8.192 tokens — gedimensioneerd voor wat TTS-werk werkelijk nodig heeft: het script, optionele controlinstructies en redelijke marge. Audio-output met de fidelity-bump en prosodiebeheer die Pro-tier onderscheiden van het Flash-tier-equivalent.

Dit is eenrichtingssynthese. Tekst in, gesproken audio uit. Alles hieronder gaat over stemkwaliteit, controle-surfaces en waar de Pro-tier zijn premiumprijs verdient ten opzichte van de Flash-variant.

Wat het werkelijk doet

Dezelfde primitieven als de Flash-tier TTS: stemselectie uit een samengestelde catalogus, optioneel prosodiebeheer via promptniveau-instructies, multi-speaker-output voor dialoogscripts, configureerbaar audioformaat.

Wat de Pro-tier toevoegt:

  • Hogere fidelity output-kwaliteit. De audio heeft meer natuurlijke adempatronen, vloeiendere prosodische overgangen en minder van de synthetische artefacten die bij lagere-tier TTS bij langvormige schaal incidenteel opduiken.
  • Betrouwbaardere emotionele controle. Promptniveau-instructies als "spreek met gematigde bezorgdheid" of "lees dit met rustige enthousiasme" landen consistenter dan bij de Flash-tier.
  • Betere langvormige coherentie. Audio van meerdere paragrafen of minuten behoudt stemkarakter en energie zonder de geleidelijke afdrijving die lagere-tier-modellen soms vertonen.
  • Consistentere multi-speaker-dialoog. Verschillende stemmen blijven onderscheiden over lange scènes; sprekerseigenschappen blijven stabiel.

Waar het uitblinkt

Workloads waarbij de Pro-tier de premiumprijs echt waard is:

  • Audioboekenproductie waarbij coherentie over meerdere uren en natuurlijke prosodie de luisterervaring bepalen.
  • Hoge-productiewaarde voice-over voor videocontent, marketingmateriaal en uitlegwerk.
  • Audiodrama en interactieve fictie met meerdere personages en emotioneel bereik.
  • Voice-over voor content die naar een breed publiek gaat waar kwaliteit direct de waargenomen productiewaarde beïnvloedt.
  • Toegankelijkheidstoepassingen waarbij audio-kwaliteit telt voor aanhoudend luistercomfort.

Het Flash-tier-equivalent dekt veel gevallen voor lagere kosten. Pro is voor gevallen waarbij het kwaliteitsverschil hoorbaar genoeg is om de upgrade te rechtvaardigen.

Wanneer het het verkeerde gereedschap is

Alles waarbij Flash-tier kwaliteit goed genoeg is. De meeste kortform-, transactionele of IVR-stijl use cases profiteren niet van de Pro-upgrade.

Real-time conversationele voice. Dit is synthese, geen bidirectionele dialoog. De Gemini real-time audio-varianten verwerken het conversationele patroon natuurlijker.

Spraakherkenning of transcriptie. Verkeerde richting; verkeerde modelfamilie.

Stemklonen van een specifiek echt persoon. Google's TTS-catalogus dekt samengestelde stemmen. Aangepast stemwerk voor specifieke individuen vereist gespecialiseerde aanbieders of contracttier-regelingen.

Audiobewerking, geluidsontwerp of muziekgeneratie. Volledig andere gereedschapscategorieën.

Ultra-lage-latency-vereisten waarbij elke milliseconde telt. De Pro-tier geeft prioriteit aan kwaliteit boven absolute latency; voor latencykritische spraaktoepassingen passen de Flash-tier of gespecialiseerde lage-latency-aanbieders mogelijk beter.

Vergelijking met alternatieven

Vergeleken met het Flash-tier-equivalent — Gemini 2.5 Flash Preview TTS: Pro produceert merkbaar betere output op langvormige content en verwerkt emotionele nuance betrouwbaarder. Flash is sneller en goedkoper. De keuze komt neer op of de kwaliteitsdelta de premiumprijs rechtvaardigt voor je specifieke workload.

Vergeleken met de 3.x-generatie — Gemini 3.1 Flash TTS Preview: de 3.x-preview toont verdere verfijningen en kan de kloof met de Pro-tier uiteindelijk van onderaf sluiten. Momenteel blijft Pro de hogere-fidelity-keuze in de familie.

Vergeleken met niet-Google-alternatieven: ElevenLabs en vergelijkbare gespecialiseerde TTS-aanbieders concurreren op stemcatalogusdiepte, stemklonen en emotionele controle. Voor workloads waarbij een specifiek stemkarakter of specifieke stilistische mogelijkheid nodig is buiten wat Google levert, houden gespecialiseerde aanbieders mogelijk nog een voorsprong. Voor workloads op de Google-stack waarbij Pro-tier kwaliteit voor Google-prijzen de juiste afweging is, is dit model competitief.

Praktische patronen

Een paar dingen de moeite waard te weten voor je specifiek op de Pro-tier bouwt:

  • De fidelity-bump is het duidelijkst in langvormige content. Korte clips klinken vaak vergelijkbaar tussen Flash en Pro; multi-minuten content onthult het verschil.
  • Prosodie-instructies landen betrouwbaarder dan bij de Flash-tier maar profiteren nog steeds van specificiteit. "Spreek met lichte urgentie, iets sneller dan normaal" werkt beter dan "maak het urgent."
  • Labeleer voor multi-speaker-dialoog sprekers duidelijk en gebruik consistente labels door het hele script. De Pro-tier behoudt stemkarakter beter over langere scripts.
  • Audio-formaten en bitrates kies je op basis van downstream-gebruik. WAV behoudt de volledige fidelity die Pro produceert; lossy-formaten gooien een deel weg.
  • Generatielatency is hoger dan Flash. Plan UX-patronen dienovereenkomstig.

Talen en accenten

De Pro-tier-stemcatalogus dekt de grote Europese talen met meerdere stemmen per taal. De kwaliteitsbump ten opzichte van de Flash-tier is het meest hoorbaar in talen waar de catalogus meer stemopties heeft — Engels, Spaans, Frans, Duits, Italiaans. Kleinere talen hebben een beperkter stemselectie op beide tiers.

Codeswitching tussen talen binnen één script wordt verwerkt maar kwaliteit varieert. Voor meertalige content geeft het genereren van elk taalsegment afzonderlijk en samenvoegen een schonere output dan te vertrouwen op mid-script-switching door het model.

Raadpleeg voor de meest actuele stemcatalogus en taaldekking de modelspecifieke referentie.

Deployment

Standaard Google Gemini API met TTS-specifieke endpoints. Verzoekformaat verschilt van tekst-generatiecalls — raadpleeg de modelreferentie voor de exacte parameterstructuur.

Regionale beschikbaarheid volgt het standaard Vertex AI-patroon van Google. EU-regio's zijn beschikbaar op enterprise-contracten. Standaard consumer API-toegang pint geen regio.

Gegenereerde audio draagt herkomst-metadata conform Googles bredere commitments rondom AI-gegenereerde content. Raadpleeg de huidige API-documentatie voor wat configureerbaar is.

Pro-tier-prijzen zijn hoger dan Flash. Voor hoogvolume-workloads hangt de kostencase voor Pro af van of de hoorbare kwaliteitsbump de premiumprijs rechtvaardigt voor je specifieke use case.

Wanneer je het kiest

Kies Gemini 2.5 Pro Preview TTS als:

  • Je top-tier stem-synthesekwaliteit nodig hebt op de Google-stack.
  • De workload audioboek, hoge-productiewaarde voice-over of audiodrama is.
  • Langvormige audio-coherentie telt.
  • De kostpremium boven Flash gerechtvaardigd is door de use case.

Kies iets anders als:

  • De use case kortform, transactioneel of IVR-stijl is. Gebruik Flash.
  • Real-time bidirectionele conversatie telt. Gebruik de real-time audio-varianten.
  • De specifieke stem of stilistische mogelijkheid die je nodig hebt niet in de catalogus staat.
  • Ultra-lage latency de eis domineert.

Samenvatting: de fideliteits-en-controle-upgrade boven Flash-tier TTS voor workloads waarbij het kwaliteitsverschil hoorbaar genoeg is om de premiumprijs te rechtvaardigen. Voor hoge-productiewaarde audiowerk op de Google-stack is het het juiste startpunt.

Test het op een echt script op /live-test. Het Pro-versus-Flash-verschil is subjectief genoeg dat je het op je eigen content moet horen.

Laatste technische beoordeling: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Pro Preview TTS — illustration 2
Laatste automatische test
14 jun 2026 · 04:20 UTC · Benchmark
P50 latency
P95 latency
Fouten
1 / 6 runs
Laatst beoordeeld door Tokonomix-team·24 mei 2026