İçeriğe geç
Çalıştığı yer:USYapıldığı yer:United States
Google Gemini

Gemini 2.5 Pro Preview TTS

8K token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Gemini 2.5 Pro Preview TTS, Google'ın Gemini 2.5 Pro dil modelinin metinden konuşmaya özellikli bir türevidir. Bu önizleme sürümü, ses sentezi yeteneklerini doğrudan modelin çıktı hattına entegre ederek, standart metnin yanında veya yerine sesli yanıtlar üretmesine olanak tanır. Model, Gemini 2.5 Pro serisinin temel mimarisini ve muhakeme yeteneklerini korurken, yerel ses çıkışı işlevselliği ekler. 8.000 token'lık bir bağlam penceresiyle çalışır; bu, orta ölçekli konuşmalar ve belge işleme görevleri için uygun olsa da Google'ın genişletilmiş bağlamlı sunumlarına kıyasla daha sınırlıdır. Model, hem doğal dil anlama hem de sesli yanıt iletimi gerektiren uygulamalar için tasarlanmıştır; konuşma asistanları, erişilebilirlik araçları, etkileşimli sesli sistemler ve ses çıkışının kullanıcı deneyimini iyileştirdiği çok modlu uygulamalar gibi. Soru yanıtlama, özetleme, içerik üretimi ve muhakeme dahil standart metin oluşturma görevlerini destekler; ayrıca sonuçları sentezlenmiş konuşma olarak sunma yeteneği de sağlar. Google'ın Gemini serisi içinde bu model, TTS yeteneklerinin şirketin Pro seviyesi dil modelleriyle entegrasyonunu gösteren önizleme aşamasındaki özel bir konumda yer alır. Farklı modalitelere veya performans özelliklerine odaklanan diğer Gemini 2.5 türevleriyle birlikte konumlanır. Önizleme sürümü olarak, geliştiricilere birleşik dil ve konuşma işlevselliğine erken erişim sağlar; ancak Google'ın üretime hazır modellerine kıyasla sınırlamalar veya gelişmekte olan özellikler içerebilir.

Google altyapısıyla desteklenen bu model, geniş bilgi tabanını etkin biçimde kullanıyor.

Tokonomix benchmark özeti
Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Gemini 2.5 Pro Preview TTS
$1.25 1M giriş token başına
$10.00 1M çıkış token başına
≈ $0.0028 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$1.25
1M çıkış token başına$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Düşük gecikme, hızlı yanıtMetin ses dönüştürme kapasitesiMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesi

Zayıf yönler

Karmaşık akıl yürütmede sınırlıYalnızca ses ve metin odaklı kapsamÖnizleme: özellikler değişebilirKısa bağlam penceresi
Bölüm 03

Yetenekler

toolssource: litellmvisionjson modejson schemaparallel toolsprompt cachingoutputTokenLimit: 16384max output tokens: 65535
Bölüm 04

Sık sorulan sorular

Önizleme aşamasında standart ses formatları destekleniyor; üretim öncesi API belgelerini kontrol etmeniz önerilir.

Google Gemini ekosistemiyle entegre çalışan bu model kurumsal iş akışlarını hızlandırıyor.

Tokonomix benchmark özeti
Bölüm 05

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 06

Tokonomix kıyaslama kararları

2026-06-14

Gemini 2.5 Pro Preview TTS maintains capabilities, no performance data

Gemini 2.5 Pro Preview TTS continues to offer the same feature set as the previous benchmark window, with support for tools, vision, JSON mode, JSON schema, parallel tools, and prompt caching. No benchmark performance data is available for either the current or previous window, making it impossible to assess changes in actual model quality, reasoning capability, or task performance. The model retains its multimodal capabilities that were added in the previous period, allowing it to process both text and visual inputs. Without concrete performance metrics, users should approach this model understanding that while its API capabilities remain consistent, there is no empirical evidence of improvements or regressions in output quality, accuracy, or other measurable performance dimensions. The stability of features suggests a maintained baseline, but the absence of benchmark results means claims about model effectiveness cannot be independently verified through this evaluation window.

Quality

Latency p50

Test runs

0

Feature set remains stable No performance data available
Bölüm 07

Tam model profili

Gemini 2.5 Pro Preview TTS — illustration 1
Gemini 2.5 Pro Preview TTS: 2.5 serisinde yüksek doğruluklu TTS

Not — geleceğe dönük profil. Gemini 2.5 Pro Preview TTS (gemini-2.5-pro-preview-tts), bir önizleme anlık görüntüsüdür. Genel kullanıma sunulmadan önce davranış, ses kataloğu ve istek sınırları değişecek.

Google'ın 2.5 ailesindeki Pro katmanı metin-sese dönüştürme modeli. TTS çalışmasının gerçekten ihtiyaç duyduğu şey için boyutlandırılmış 8.192 tokenlik prompt penceresi — senaryo, isteğe bağlı kontrol talimatları ve makul alan. Flash katmanı kardeşinden Pro katmanını ayıran doğruluk artışı ve prosodi kontrolüyle ses çıktısı.

Bu tek yönlü sentez. Metin içeri, konuşulan ses dışarı. Aşağıdaki her şey ses kalitesi, kontrol yüzeyleri ve Pro katmanının Flash varyantı üzerindeki primini nerede kazandığıyla ilgili.

Gerçekte ne yapıyor

Flash katmanı TTS ile aynı temeller: seçilmiş bir katalogdan ses seçimi, prompt düzeyi talimatlar aracılığıyla isteğe bağlı prosodi kontrolü, diyalog senaryoları için çok konuşmacılı çıktı, yapılandırılabilir ses biçimi.

Pro katmanının eklediği şeyler:

  • Daha yüksek doğruluklu çıktı kalitesi. Ses, uzun biçimli ölçekte alt katman TTS'de zaman zaman görünen sentetik yapaylıkların daha azıyla daha doğal nefes kalıplarına ve daha pürüzsüz prosodik geçişlere sahip.
  • Daha güvenilir duygusal kontrol. "Ölçülü bir endişeyle konuş" veya "bunu sessiz bir coşkuyla oku" gibi prompt düzeyi talimatlar, Flash katmanına kıyasla daha tutarlı biçimde isabet ediyor.
  • Daha iyi uzun biçimli bütünlük. Çok paragraflı veya çok dakikalı ses, alt katman modellerin zaman zaman gösterdiği kademeli kaymadan çok ses karakterini ve enerjisini koruyor.
  • Daha tutarlı çok konuşmacılı diyalog. Ayrı sesler uzun sahneler boyunca ayrı kalıyor; konuşmacı özellikleri kararlı kalıyor.

Parladığı yerler

Pro katmanının gerçekten primin değerinde olduğu birkaç iş yükü:

  • Çok saatlik tutarlılık ve doğal prosodinin dinleme deneyimi için önemli olduğu sesli kitap üretimi.
  • Video içeriği, pazarlama materyali ve açıklayıcı çalışmalar için yüksek prodüksiyon değerli seslendirme.
  • Birden fazla karakter ve duygusal aralıkla ses draması ve etkileşimli kurgu.
  • Kalitesinin algılanan prodüksiyon değerini doğrudan etkilediği geniş bir kitleye ulaşan içerik için seslendirme.
  • Uzun süre dinleme konforu için ses kalitesinin önemli olduğu erişilebilirlik uygulamaları.

Flash katmanı kardeşi çoğu durumu daha düşük maliyetle kapsıyor. Pro, kalite farkının yükseltmeyi gerekçelendirecek kadar işitilebilir olduğu durumlar için.

Yanlış araç olduğu durumlar

Flash katmanı kalitesinin yeterli olduğu her şey. Çoğu kısa biçimli, işlemsel veya IVR tarzı kullanım durumu Pro yükseltmesinden yararlanmıyor.

Gerçek zamanlı konuşmalı ses. Bu sentez, çift yönlü diyalog değil. Gemini gerçek zamanlı ses varyantları konuşmalı kalıbı daha doğal şekilde işliyor.

Konuşma tanıma veya transkripsiyon. Yanlış yön; yanlış model ailesi.

Belirli bir gerçek kişinin ses klonlaması. Google'ın TTS kataloğu seçilmiş sesler kapsıyor. Belirli bireyler için özel ses çalışması, uzman sağlayıcılar veya sözleşme düzeyinde düzenlemeler gerektiriyor.

Ses düzenleme, ses tasarımı veya müzik üretimi. Tamamen farklı araç kategorileri.

Her milisaniyenin önemli olduğu aşırı düşük gecikmeli gereksinimler. Pro katmanı gecikme yerine kaliteye öncelik veriyor; gecikme-kritik ses uygulamaları için Flash katmanı veya uzman düşük gecikmeli sağlayıcılar daha iyi uyabilir.

Alternatiflere karşı

Flash katmanı kardeşine — Gemini 2.5 Flash Preview TTS — karşı: Pro, uzun biçimli içerikte belirgin ölçüde daha iyi çıktı üretiyor ve duygusal nüansı daha güvenilir biçimde işliyor. Flash daha hızlı ve düşük maliyetli. Tercih, kalite farkının belirli iş yüküünüz için primi gerekçeleyip gerekçelememesine göre şekilleniyor.

3.x nesline — Gemini 3.1 Flash TTS Preview — karşı: 3.x önizlemesi daha ileri iyileştirmeler gösteriyor ve sonunda Pro katmanına alttan yaklaşabilir. Şimdilik Pro, ailede daha yüksek doğruluklu tercih olmayı sürdürüyor.

Google dışı alternatiflere karşı: ElevenLabs ve benzer adanmış TTS sağlayıcılar ses kataloğu derinliği, ses klonaması ve duygusal kontrol üzerinde rekabet ediyor. Google'ın sunduğunun ötesinde belirli bir ses karakterinin veya belirli bir stilistik yeteneğin önemli olduğu iş yükleri için, uzman sağlayıcılar hâlâ avantaj taşıyabilir. Google yığınında Google fiyatlandırmasında Pro kalitesinin doğru değiş tokuş olduğu iş yükleri için bu model rekabetçi.

Ses sentezi kategori bazındaki tablo /benchmarks/intelligence ve liderler tablosu /benchmarks/leaderboard sayfasında.

Pratik kalıplar

Pro katmanı üzerine inşa etmeden önce bilmeye değer birkaç şey:

  • Doğruluk artışı en belirgin biçimde uzun biçimli içerikte görünüyor. Kısa klipler çoğunlukla Flash ile Pro arasında benzer; çok dakikalı içerik farkı ortaya çıkarıyor.
  • Prosodi talimatları Flash katmanına kıyasla daha güvenilir biçimde isabet ediyor ama yine de özgül olmaktan yararlanıyor. "Hafif bir ivedilikle, normalden biraz daha hızlı konuş" "onu ivedi yap"tan daha iyi çalışıyor.
  • Çok konuşmacılı diyalog için konuşmacıları açıkça etiketleyin ve senaryo boyunca tutarlı etiketler kullanın. Pro katmanı, Flash katmanına kıyasla daha uzun senaryolarda ses karakterini daha iyi koruyor.
  • Ses biçimleri ve bit hızları aşağı yönlü kullanıma göre seçilmeli. WAV, Pro'nun ürettiği tam doğruluğu koruyor; kayıplı biçimler bunun bir bölümünü atıyor.
  • Üretim gecikmesi Flash'tan daha yüksek. UX kalıplarını buna göre planlayın.

Diller ve aksanlar

Pro katmanı ses kataloğu başlıca Avrupalı dilleri dil başına birden fazla sesle kapsıyor. Flash katmanı üzerindeki kalite artışı en çok katalogda daha fazla ses seçeneği bulunan dillerde işitilebilir — İngilizce, İspanyolca, Fransızca, Almanca, İtalyanca. Daha küçük dillerde her iki katmanda da daha sınırlı ses seçimi var.

Tek bir senaryo içinde diller arasında kod geçişi işleniyor ama kalite değişiyor. Çok dilli içerik için, her dil segmentini ayrı üretmek ve birleştirmek, modelin senaryo ortasında geçiş yapmasına güvenmekten daha temiz çıktı veriyor.

En güncel ses kataloğu ve dil kapsamı için, başlangıç dönemi belgelerine güvenmek yerine modele özgü referansı kontrol edin.

Dağıtım notları

TTS'e özgü uç noktalarla standart Google Gemini API. İstek biçimi metin üretim çağrılarından farklı — tam parametre şekli için model referansını kontrol edin.

Bölgesel kullanılabilirlik Google'ın standart Vertex AI kalıbını izliyor. AB bölgeleri kurumsal sözleşmelerde mevcut. Hazır tüketici API erişimi bölge sabitlemiyor.

Üretilen ses, Google'ın yapay zeka üretimi içerik etrafındaki daha geniş taahhütleriyle uyumlu provenance meta verisi taşıyor. Meta verinin her iki yönde de önemli olduğu iş yükleri için, neyin yapılandırılabilir neyin olmadığı için güncel API belgelerini kontrol edin.

Pro katmanı fiyatlandırması beklendiği gibi Flash'tan daha yüksek. Yüksek hacimli iş yükleri için Pro'nun maliyet değerlendirmesi, işitilebilir kalite artışının belirli kullanım durumunuz için primi gerekçeleyip gerekçelememesine bağlı.

Tercih kriteri

Gemini 2.5 Pro Preview TTS'e şu durumlarda uzanın:

  • Google yığınında üst katman ses sentezi kalitesi gerektiğinde.
  • İş yükü sesli kitap, yüksek prodüksiyon değerli seslendirme veya ses dramasıysa.
  • Uzun biçimli ses bütünlüğü önemliyse.
  • Flash üzerindeki maliyet primi kullanım durumu tarafından gerekçelendiriliyorsa.

Başka bir şey seçin:

  • Kullanım durumu kısa biçimli, işlemsel veya IVR tarzıysa. Flash kullanın.
  • Gerçek zamanlı çift yönlü konuşma önemliyse. Gerçek zamanlı ses varyantları kullanın.
  • İhtiyaç duyulan belirli ses veya stilistik yetenek katalogda yoksa.
  • Aşırı düşük gecikme gereksinimi belirleyiciyse.

Özet. Flash katmanı TTS üzerindeki kalite-ve-kontrol yükseltmesi; kalite farkının primi gerekçelendirecek kadar işitilebilir olduğu iş yükleri için. Google yığınında yüksek prodüksiyon değerli ses çalışmaları için doğru başlangıç noktası.

/live-test sayfasında gerçek bir senaryoyla deneyin. Pro ve Flash farkı, kendi içeriğinizde duymanız gerekecek kadar öznel.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Pro Preview TTS — illustration 2
Son otomatik test
14 Haz 2026 · 04:20 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·24 Mayıs 2026