TTS modeli metni doğrudan seslendirebiliyor mu?

Evet, metin girdisini alıp sentezlenmiş ses çıktısı üretiyor; ayrı bir ses işleme adımı gerektirmiyor.

Önizleme sürümü üretimde kullanılabilir mi?

Önizleme modeller değişebilir; kritik üretim iş akışları için stabil sürüm beklenmesi önerilir.

Bu model genel metin görevi de yapabiliyor mu?

Temel metin üretimi de destekleniyor ancak öncelikli işlevi ses sentezi.

Seviye B — Üretim

Çalıştığı yer:USYapıldığı yer:United States

Google Gemini

Gemini 3.1 Flash TTS Preview

Seviye B — Üretim · 8K token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 22 Mayıs 2026·Son inceleme 26 Mayıs 2026

Gemini 3.1 Flash TTS Preview, Google tarafından Gemini model ailesinin bir parçası olarak geliştirilen bir metinden sese dönüştürme modelidir. Bu önizleme sürümü, yazılı metni sesli çıktıya dönüştürmek üzere tasarlanmış olup ses sentezi yetenekleri gerektiren uygulamalara olanak tanır. Model, girdi olarak standart metin üretimini destekler ve doğal dil komutlarını işleyerek karşılık gelen konuşma çıktısını üretir. 8K token bağlam penceresi ile orta uzunluktaki metin girdilerini konuşmaya dönüştürmek için kullanılabilir. Model, Google'ın Gemini ekosistemindeki çok modlu yetenek keşfini temsil ederek salt metin tabanlı etkileşimlerin ötesine geçip ses üretimine uzanır. "Flash" adlandırmasının da işaret ettiği gibi hız ve verimlilik için optimize edilmiştir; bu da görece hızlı konuşma sentezi yanıtları gerektiren uygulamalar için onu uygun kılar. TTS Preview etiketi, bunun deneysel veya erken erişimli bir sürüm olduğunu, muhtemelen kullanıcı geri bildirimleri ve performans ölçütlerine dayalı olarak aktif geliştirme ve iyileştirme aşamasında bulunduğunu belirtir. Google'ın Gemini serisi içinde bu model, standart Gemini metin modellerinin sohbet veya analitik yeteneklerinden ziyade ses sentezine odaklanan özelleşmiş bir konumda yer alır. Geliştiricilere uygulamaları için ses çıktısı seçenekleri sunarak diğer Gemini varyantlarını tamamlar. Önizleme durumu, üretime hazır modellere kıyasla sınırlılıkları veya gelişmekte olan özellikleri olabileceğine işaret eder; kullanıcılar, Google'ın metinden sese teknolojisini geliştirmeye devam etmesiyle birlikte yetenek veya davranışta olası değişiklikler beklemelidir.

Google altyapısıyla desteklenen bu model, geniş bilgi tabanını etkin biçimde kullanıyor.
— Tokonomix benchmark özeti

Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰

API tarifeleri — Gemini 3.1 Flash TTS Preview

$1.00 1M giriş token başına

$20.00 1M çıkış token başına

≈ $0.0046 tipik konuşma başına (800 token)

Giriş vs çıkış fiyatı (1M token başına)

1M giriş token başına$1.00

1M çıkış token başına$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-06-142026-06-142026-06-14

Input

Output

Price change

⟳ synced weekly

Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Düşük gecikme, hızlı yanıtMetin ses dönüştürme kapasitesiMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesi

Zayıf yönler

Karmaşık akıl yürütmede sınırlıYalnızca ses ve metin odaklı kapsamÖnizleme: özellikler değişebilirKısa bağlam penceresi

Bölüm 03

Yetenekler

outputTokenLimit: 16384

Bölüm 04

Sık sorulan sorular

Önizleme aşamasında standart ses formatları destekleniyor; üretim öncesi API belgelerini kontrol etmeniz önerilir.

Google Gemini ekosistemiyle entegre çalışan bu model kurumsal iş akışlarını hızlandırıyor.
— Tokonomix benchmark özeti

Bölüm 05

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 06

Tokonomix kıyaslama kararları

● 2026-06-14

Gemini 3.1 Flash TTS Preview maintains baseline metrics across windows

Gemini 3.1 Flash TTS Preview shows consistent performance across benchmark windows with no measurable changes in core metrics. The model continues to operate as a text-to-speech solution without available quality, latency, or throughput benchmarks in either the current or previous evaluation periods. This absence of performance data makes it difficult to assess the model's competitive position relative to other TTS offerings in the market. The only detected change between windows relates to pricing updates, though specific performance characteristics remain unmeasured. Users evaluating this model should note that standard benchmarking metrics have not been established, which may complicate technical decision-making for production deployments. The lack of comparative data points across both windows suggests either limited testing coverage or restricted access to performance telemetry. Organizations considering this TTS solution will need to conduct their own evaluations to determine suitability for their specific use cases, as public benchmark data remains unavailable to guide implementation decisions.

Quality

—

Latency p50

—

Test runs

✓ Stable baseline performance maintained✗ No benchmark metrics available✗ Limited performance transparency

Bölüm 07

Tam model profili

Gemini 3.1 Flash TTS Preview: yeni nesil metinden-sese dönüştürme

Not — ileriye yönelik profil. Gemini 3.1 Flash TTS Preview (gemini-3.1-flash-tts-preview) bir önizleme sürümüdür. Genel kullanıma açılmadan önce davranış, ses kataloğu ve hız limitleri değişecektir.

Google'ın yeni nesil Flash katmanı metinden-sese dönüştürme modeli. Metin, isteğe bağlı kontrol talimatları ve makul hareket alanı için boyutlandırılmış 8.192 token'lık bir giriş penceresi. 3.1 nesli 2.5 Flash TTS kardeş modelinden ayıran iyileştirmelere sahip ses çıktısı.

Bu tek yönlü bir sentezdir. Metin girer, konuşmalı ses çıkar. Aşağıdaki her şey, yeni nesil TTS'in üretim aşamasındaki 2.5 Flash TTS'ten ne gibi farklılıklar gösterdiği ve alandaki diğer seçeneklere karşı nasıl konumlandığı hakkındadır.

2.5 Flash Preview TTS'den ne değişti

3.1 Flash nesli, 2.5 Flash TTS önizlemesine göre birkaç iyileştirme getiriyor:

Uzun biçimli içerikte daha doğal prozodi. 2.5 neslinde çok dakikalık seslerde ara sıra ortaya çıkan sentetik sesli yamalar daha az sıklıkta görülüyor.
Prompt düzeyinde talimatlar aracılığıyla daha iyi duygusal kontrol. "Ölçülü bir sıcaklıkla konuş" veya "bunu sessiz bir aciliyetle oku" gibi yönlendirmeler daha güvenilir bir şekilde ve daha az prompt mühendisliği çabasıyla sonuç veriyor.
Daha güçlü dil kapsamı. Desteklenen dillerin kataloğu ve İngilizce olmayan seslerdeki kalite her ikisi de ilerledi.
Daha tutarlı çok konuşmacılı diyalog. Farklı sesler uzun sahneler boyunca farklı kalıyor; konuşmacı özellikleri uzun alışverişler boyunca sabit kalıyor.
Nefes, duraklama ve hızın daha yumuşak işlenmesi. Ses daha çok bir insanın okumasına benziyor, bir modelin fonem birleştirmesine daha az benziyor.

Bu değişikliklerin hiçbiri tek başına dönüştürücü değil. Bileşik etki, 2.5 neslinden Pro katmanıyla işitilebilir farkın bir kısmını kapatan bir Flash katmanı TTS'dir.

Neyi iyi yapıyor

Temel TTS işi — makul gecikmeyle metin komutundan temiz ses sentezi — sağlam. 3.1 önizlemesi, 2.5 sürümünü etkileşimli uygulamalar için kullanılabilir kılan Flash katmanı gecikme profilini koruyor.

Ses kataloğu, dil başına birden fazla sesle büyük Avrupa dillerini kapsıyor. 3.1 nesli kataloğu genişletiyor ve mevcut sesler genelinde kaliteyi iyileştiriyor.

Prompt düzeyinde talimatlar aracılığıyla prozodi kontrolü, 2.5 nesline göre daha güvenilir. İstenen sunumu tarif edebilirsiniz ve model makul bir sadakatle ayarlama yapıyor.

Çok konuşmacılı diyalog, net konuşmacı etiketlerine sahip metinler için temiz bir şekilde çalışıyor. Model konuşmacı başına farklı sesler üretiyor ve metin boyunca atamaları sürdürüyor.

Neyi kötü yapıyor

Hâlâ önizleme katmanında. Genel kullanıma açılmadan önce hız limitleri, bölgesel kullanılabilirlik ve belirli davranışlar değişebilir. Bugün kararlı davranışa ihtiyaç duyan üretim iş yükleri için, 2.5 Flash Preview TTS daha muhafazakâr seçim olmaya devam ediyor.

2.5 neslinin Pro katmanı, en zorlu uzun biçimli işlerde hâlâ belirgin şekilde daha iyi çıktı üretiyor. 3.1 Flash nesli 2.5 Pro ile aradaki farkı kapatıyor ancak onunla eşleşmiyor.

Belirli bir gerçek kişinin ses klonlaması kataloğun kapsamı dışında kalıyor. Belirli bir gerçek sese ihtiyaç duyan iş yükleri için, özelleşmiş sağlayıcılar ilgili alternatiftir.

Her kelimenin hemen ulaşması gereken akış uygulamaları için ultra düşük gecikme hâlâ bir kısıtlamadır. Flash katmanı gecikmesi iyi ancak anlık değil; belirli kullanım durumunuza göre profili kontrol edin.

Nerede parlıyor

3.1 Flash TTS önizlemesinin temiz bir şekilde uyduğu birkaç iş yükü:

Flash katmanı gecikmesinin işe yaradığı ve 2.5'e göre 3.1 kalite iyileştirmesinin önemli olduğu video içeriği için seslendirme.
Neredeyse gerçek zamanlı TTS kalitesi ve gecikmenin dengelenmesi gereken etkileşimli uygulamalar.
3.1 neslinin ses tutarlılığını 2.5'ten daha iyi işlediği çok konuşmacılı diyalog sahneleri.
Genişletilmiş dil kataloğunun hedef pazarlarınızın daha fazlasını kapsadığı yerelleştirme iş akışları.
Modern sesli sentezin kullanıcı deneyimi açısından önemli olduğu IVR ve ses yanıt sistemleri.

Nerede yanlış araç

Bugün kararlı davranışa ihtiyaç duyan üretim iş yükleri. 3.1 hattı genel kullanıma açılana kadar 2.5 Flash Preview TTS kullanın.

En yüksek kaliteli uzun biçimli sesli kitap işi. 2.5 Pro Preview TTS, en zorlu üretim için daha yüksek doğrulukta seçim olmaya devam ediyor.

Konuşma tanıma veya transkripsiyon. Yanlış yön; yanlış model ailesi.

Gerçek zamanlı konuşma sesi. Bu bir sentezdir. Gemini gerçek zamanlı ses varyantları çift yönlü diyaloğu daha doğal bir şekilde işler.

Belirli bireyler için ses klonlama. Yalnızca katalog ses seçimi; özel sesler için, özelleşmiş sağlayıcılara bakın.

Müzik üretimi veya ses tasarımı. Tamamen farklı araç kategorileri.

Alternatiflere karşı nasıl karşılaştırılır

2.5 Flash Preview TTS kardeş modeline karşı. 3.1 önizlemesi, yeni yapılar için doğal yükseltmedir. Mevcut 2.5 Flash dağıtımları için, geçiş durumu işitilebilir iyileştirmelerin belirli iş yükünüz için önemli olup olmadığına ve önizleme katmanı davranışının kabul edilebilir olup olmadığına bağlıdır.

2.5 Pro Preview TTS'ye karşı. 2.5 neslinin Pro katmanı, en zorlu uzun biçimli işlerde hâlâ kazanıyor. 3.1 Flash önizlemesi aşağıdan aradaki farkı kapatıyor. Flash katmanı maliyetinde orta düzey kalite için, 3.1 Flash giderek 2.5 Pro ile rekabetçi hale geliyor.

Google dışı alternatiflere karşı. ElevenLabs ve benzer özelleşmiş TTS sağlayıcıları ses kataloğu derinliği, ses klonlama yetenekleri ve duygusal kontrol konusunda rekabet ediyor. Google'ın kataloğunun ötesinde belirli bir stilistik yeteneğin önemli olduğu iş yükleri için, özelleşmiş sağlayıcılar hâlâ bir avantaja sahip olabilir. Flash katmanı maliyetinin yeni nesil kaliteyle buluştuğu Google yığınındaki iş yükleri için, 3.1 Flash TTS rekabetçidir.

Ses sentezi kategorisi düzeyindeki resim /benchmarks/intelligence adresinde ve lider tablosu /benchmarks/leaderboard adresindedir.

Pratik kalıplar

3.1 Flash TTS önizlemesi üzerinde inşa etmeden önce bilmeye değer birkaç şey:

2.5 Flash'a göre iyileştirmeler en net şekilde daha uzun metinlerde ortaya çıkıyor. Kısa klipler genellikle ikisi arasında benzer sesleniyor; çok paragraflı içerik farkı ortaya çıkarıyor.
Prozodi talimatları 2.5 nesline göre daha güvenilir bir şekilde sonuç veriyor ancak yine de spesifik olmaktan fayda görüyor. "Hafif bir aciliyetle, normalden biraz daha hızlı konuş" "acil yap"tan daha iyi çalışıyor.
Çok konuşmacılı diyalog için, konuşmacıları metin boyunca net ve tutarlı bir şekilde etiketleyin. 3.1 nesli ses karakterini uzun metinler boyunca daha iyi koruyor.
Ses formatı seçimi, 3.1 neslinin ürettiği iyileştirmelerin işitilebilir kalitesini etkiliyor. WAV, 3.1 neslinin ürettiği tam sadakati koruyor; kayıplı formatlar bunun bir kısmını atıyor.
Üretim gecikmesi, metin uzunluğuyla kabaca doğrusal olarak ölçekleniyor. Tam dosyaları beklemek yerine akış oynatma için UX kalıpları planlayın.

Dağıtım notları

TTS'ye özel uç noktalarla standart Google Gemini API'si. İstek formatı, Gemini ailesindeki daha geniş TTS kalıbını takip ediyor — parametre şekli için model referansını kontrol edin.

Bölgesel kullanılabilirlik, Google'ın standart Vertex AI kalıbını takip ediyor. AB bölgeleri kurumsal sözleşmelerde mevcuttur. Hazır tüketici API'si erişimi bir bölgeyi sabitlemiyor.

Üretilen ses, Google'ın yapay zeka tarafından üretilen içerik etrafındaki daha geniş taahhütleriyle uyumlu olarak kaynak meta verisi taşıyor. Bunun her iki şekilde de önemli olduğu iş yükleri için, mevcut API belgelerini kontrol edin.

Önizleme katmanı fiyatlandırması, uzun vadeli maliyet modellemenin temeli olmamalıdır. Genel kullanılabilirlik aşamasındaki fiyatlandırma yapısı, önizleme katmanı oranlarından farklı olabilir.

Seçmek

Gemini 3.1 Flash TTS Preview'a şu durumlarda ulaşın:

Gelecekteki üretim dağıtımı için yeni nesil Flash katmanı TTS yeteneklerini keşfediyorsunuz.
İş yükü 2.5 Flash TTS kalitesiyle kısıtlandı ve 3.1'in farkı kapatıp kapatmadığını görmek istiyorsunuz.
Önizleme katmanı hız limitleri ve davranış hususları kabul edilebilir.
Genişletilmiş dil kataloğu hedef pazarlarınızı kapsıyor.

Başka bir şey seçin:

Bugün üretime hazır kararlı TTS davranışına ihtiyacınız var. 2.5 Flash Preview TTS kullanın.
İş yükü, uzun biçimli sesli kitap üretimi için en yüksek doğruluğa ihtiyaç duyuyor. 2.5 Pro Preview TTS'yi düşünün.
İş, ses transkripsiyonu, gerçek zamanlı çift yönlü diyalog veya ses klonlamadır.
İhtiyaç duyduğunuz belirli ses karakteri katalogda yok.

Özet. 2.5 Flash sürümünün sunduklarını anlamlı bir şekilde iyileştiren sağlam yeni nesil Flash TTS. Önizleme katmanı keşfi ve ileriye yönelik tasarım için doğru başlangıç noktasıdır. Bugün üretime hazır kararlı dağıtım için, 2.5 Flash TTS muhafazakâr seçim olmaya devam ediyor.

Taahhütte bulunmadan önce 2.5'e karşı 3.1 farkını kendi içeriğinizde duymanız için, /live-test adresinde gerçek bir metinle deneyin. Ses kalitesi, kendi içeriğinizde denemenizi gerektirecek kadar özneldir.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Son otomatik test

21 Haz 2026 · 04:53 UTC · Test

P50 gecikme

—

P95 gecikme

—

Hatalar

1 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·26 Mayıs 2026