Kullanım alanları/Ses ve konuşma

Hangi YZ modeli diyalogda en insancıl hissettiriyor?

Sesli ve konuşma YZ'si, bir modelin her zayıflığını en hızlı ortaya çıkaran senaryo türüdür. Ton kayması, gecikme, bellek hataları, persona çöküşü, insana benzer bir ajanı birden robotik hissettiren küçük disfluencies — bunların hepsi gerçek bir konuşmanın ilk dakikasında kendini gösterir. Bu rehber, hangi modelin bir sesli ürünü taşıyacağını belirleyen boyutları açıklar ve bugün bir telefon görüşmesine sokacağımız beş modeli isimlendirir.

Sesli ajan çalışma alanı — konsept görsel — Ses, en affetmez kanaldır — her gecikme saniyesi duyulur.

Diyaloğun modellerin en görünür biçimde başarısız olduğu senaryo olmasının nedeni

Metin, modele zaman tanır. Kullanıcı mesaj gönderir, model okur, düşünür, yazar; kullanıcı okur, değerlendirir, yanıt verir. Yavaş akıl yürütme bu ritimde görünmez kalır. Ses bu tamponu ortadan kaldırır. Bir saniyelik sessizlik karışıklık, iki saniyelik sessizlik ise hata izlenimi yaratır. Sesli ürün için model seçen kişi, her diğer senaryonun agresif bulacağı bir gecikme bütçesiyle çalışır.

Ardından gelen mimari seçim, ses-yerel bir modeli uçtan uca çalıştırmak mı yoksa bir zincir oluşturmak mı — sesten metne, ardından dil modeli, ardından metinden sese. Ses-yerel yol, gecikme ve paralinguistik farkındalık açısından rakipsizdir: model kullanıcının ne zaman tereddüt ettiğini algılar, sözü kesebilir ve kesilebilir, promptun belirtmediği bir ton benimseyebilir. Yığılmış yol hata ayıklaması daha kolay, ölçeklendirilmesi daha ucuz ve ses seçimi ile marka sesü üzerinde tam kontrol sağlar.

Persona tutarlılığı burada neredeyse her yerden daha kritiktir. Metinde turlar arasındaki bir ton kayması fark edilmez; seste ise sanki başka biri aramayı devralmış gibi hissettirir. Turlar arasında sürüklenen modeller, sohbet için sorunsuz olsalar bile sesli çalışmaya uygun değildir. Bunu açıkça test edin — en az yirmi tur, kasıtlı olarak dikkat dağıtıcı kullanıcı girişleriyle.

Beş kısıt işi tanımlar: uçtan uca gecikme, turlar boyunca persona kararlılığı, ilgili olduğu yerde ses kalitesi, çok dilli konuşma kapsamı ve konuşma ortasında araç çağrısı disiplini. Bu beşini sorunsuz yöneten bir sesli ajan insan gibi hissettirir; herhangi birini düşüren ise yüksek sesle okuyan bir chatbot gibi hissettirir.

Ses pipeline mimarisi — konsept görsel — Ses-yerel ve yığılmış STT-LLM-TTS — mimari tercih, tercihin kendisidir.

Hangi modelin kazandığını belirleyen beş boyut

Bunlar, puan kartımızın sesli bir üründe kullanılan her modeli değerlendirdiği eksenlerdir. Göreli ağırlıkları, bir telefon hattı ajanı mı yoksa uzun süreli bir yardımcı uygulama mı geliştirdiğinize göre değişir — ancak her aday beşinde de minimum bir eşiği karşılamalıdır.

01 — Uçtan uca gecikme
Kullanıcı bir kalp atışında yanıt duyuyor mu?
Kronometre kullanıcı konuşmayı bırakır bırakmaz başlar ve geri dönen ilk duyulabilir kelimeyle biter. Ses-yerel modeller bu bütçeyi karşılayabilir; yığılmış pipeline'lar her katmanı ayrı ayrı optimize etmek zorundadır. Ölçümü sağlayıcının demo bölgesinde değil, dağıtım yapacağınız ağ üzerinde yapın.
02 — Turlar boyunca persona kararlılığı
Yirminci tur birincisi gibi mi duyuluyor?
Sürüklenmek, diğer ucunda bir insan olduğu yanılsamasını kıran tek başarısızlık modudur. Prompt önem yitirdikçe varsayılan sesine geri dönen modeller, marka kimliği olan her sesli ürün için kullanılamaz. Her zaman aramayı yarıda persona değiştirmeye çalışan düşmanca kullanıcılarla test edin.
03 — Ses kalitesi ve paralinguistik farkındalık
Kullanıcının ne dediğini değil, nasıl dediğini duyuyor mu?
Hayal kırıklığı, tereddüt, alaycılık, aciliyet — insanlar anlam taşıyan tonu, salt metin modellerinin algılayamayacağı biçimde sesle iletir. Ses-yerel modeller bu sinyalleri okuyup uyum sağlar; yığılmış pipeline'lar onları tamamen STT adımında kaybeder. Doğru mimari, ürününüzün bu nüansı gerektirip gerektirmediğine bağlıdır.
04 — Çok dilli konuşma kapsamı
Cümle ortasında code-switching'i takip ediyor mu?
Gerçek ses trafiği aksan, diyalekt ve tek bir ifade içinde dil değiştiren kullanıcıları kapsar. Modelin konuyu kaybetmeden takip etmesi gerekir. Sağlayıcının telaffuz karşılaştırmasıyla değil, gerçek müşteri tabanınızdan kayıtlarla test edin.
05 — Konuşma ortasında araç çağrıları
Akışı bozmadan bir şeye bakabilir mi?
Sesli ajanlar CRM'leri sorgulamak, envanter kontrol etmek, randevu ayarlamak zorundadır. Bunu doğal bir şekilde yapmak — bekleme süresini sözlü bir onay ile doldurmak, araç başarısız olduğunda nazikçe toparlamak — işin zor yanıdır. Sohbet araç kullanımı için ayarlanmış modeller genellikle immersiyonu kıran garip dolgu üretir.

Bugün ses ve diyalog için Tokonomix'in ilk 5 tercihi

Bugün canlı bir kanala koyacağımız beş model bunlar. Sesli ürünler neredeyse hiçbir zaman tek modelle çalışmaz; işleyen mimari katmanlıdır — konuşulan katmanda gecikme ve paralinguistik farkındalık için ses-yerel bir model, altında ise ses katmanının devrettiği planlama, araç çağrıları ve bilgi işlerini yapan daha güçlü bir metin modeli.

#1 · Ses-yerel gerçek zamanlıTier A

Claude Sonnet 4.6

via Anthropic

Ses girişi, ses çıkışı, uçtan uca düşük gecikme. Telefoni, tarayıcı sesli ajanları ve kullanıcının bir kesintiyi kalp atışı içinde beklediği her uygulama için doğru tercih. Metin-artı-TTS pipeline'larının karşılayamayacağı paralinguistik ipuçlarını — duraklama, ton, aciliyet — yerel olarak işler.

Giriş / 1M token: $3.00
Çıkış / 1M token: $15.00
Bağlam: 1M

Tam benchmark profili →

#2 · En iyi diyalog tonu (metin + TTS)Tier A

Gemini 2.5 Pro

via Google Gemini

TTS katmanına akış yapan metin-öncelikli bir sesli ajanın arkasına yerleştirilecek model. Sonnet 4.6, persona'yı uzun oturumlar boyunca çoğu rakibinden daha iyi korur ve promptta tanımladığınız tonu güvenilir biçimde yakalar. Ses-yerel modellerden daha ucuz ve TTS kalitesi iyileştikçe değiştirmesi daha kolaydır.

Giriş / 1M token: $1.25
Çıkış / 1M token: $10.00
Bağlam: 1.048576M

Tam benchmark profili →

#3 · Uzun bağlam belleğiTier A

Claude Haiku 4.5

via Anthropic

Bir milyon token bağlam, oturumun tamamını — ve isteğe bağlı büyük geçmişi — kesme olmadan erişilebilir kılar. Yardımcı uygulamalar, koçluk ajanları ve kullanıcının geçen haftaki aramada söylediklerini hatırlamaktan faydalanan her sesli ürün için doğru tercih.

Giriş / 1M token: $1.00
Çıkış / 1M token: $5.00
Bağlam: 200K

Tam benchmark profili →

#4 · Hızlı karşılıklı konuşmaTier B

Meta-Llama-3_3-70B-Instruct

via OVH AI Endpoints (GRA)

Kısa turlar, hızlı ilk token, düşük maliyet. Konuşma yapılandırılmış olduğunda — rezervasyon, arama, durum kontrolü — ve gecikme bütçesi kısıt olduğunda doğru tercih. Güçlü bir sistem promptuyla ve Sonnet yükseltmeleri için kullandığınız aynı TTS katmanıyla birleştirin.

Giriş / 1M token: $0.6700
Çıkış / 1M token: $0.6700
Bağlam: —

Tam benchmark profili →

Milyon token başına çıktı fiyatı

Seste çıktı maliyeti baskındır — token'ların büyük çoğunluğu konuşulan yanıttır. Grafik, yayımlanan tariflere sahip yukarıdaki modeller için metin katmanı liste fiyatını göstermektedir; ses-yerel modeller token yerine ses dakikası üzerinden ayrı fiyatlandırılır ve burada gösterilen modelden farklı bir faturalandırma modeli gerektirir.

Claude Sonnet 4.6$15.00

Gemini 2.5 Pro$10.00

Claude Haiku 4.5$5.00

Meta-Llama-3_3-70B-Instruct$0.6700

Milyon çıktı token başına fiyat, USD. Ses-yerel modeller (gpt-realtime) ses dakikası tarifleriyle faturalandırılır ve bu karşılaştırmanın dışında tutulmuştur. Kaynak: Tokonomix'in takip ettiği canlı sağlayıcı fiyatları.

Ses analitiği gösterge paneli — konsept görsel — İlk tur doğruluğunu değil, oturum sonu memnuniyetini ölçün.

Saha rehberi: hangi ses deseni için hangi model

Aşağıdaki eşleme, yeni bir sesli ürün inşa eden bir ekibi danışmanlık yaparken kullanacağımız yaklaşımdır. Bunu bir başlangıç noktası olarak görün, nihai karar olarak değil — gerçek kayıtlar üzerinde bir hafta sonu test her genel öneriyi geçer.

Pattern A

Gerçek zamanlı telefon hattı ajanı

Gelen destek aramaları, giden satışlar, rezervasyon hatları. Gecikme her şeyi belirler. gpt-realtime uçtan uca, Sonnet 4.6 ise konuşma senaryodan çıktığında gerçek zamanlı modelin devrettiği planlayıcı olarak.

Pattern B

Marka sesiyle tarayıcı sesli ajanı

Sesin kimliğin parçası olduğu ürün içi asistan. Yığılmış pipeline — Sonnet 4.6 konuşmayı yönetir, seçilen TTS motoru sesi üretir. Ajanın nasıl duyulduğu üzerinde tam kontrol için bir miktar gecikme feda edilir.

Pattern C

Uzun süreli yardımcı veya koç

Oturumlar arası bellekten faydalanan bir saat veya daha uzun oturumlar. Bağlam penceresi için Gemini 2.5 Pro; kullanıcı başına konuşma geçmişini saklayın ve her oturumda sistem promptuna geri besleyin.

Pattern D

Kendi barındırdığınız sesli ajan

Kayıtların belirli bir yargı bölgesini terk edemeyeceği sağlık, finans ve düzenlenmiş sektörler. Llama 3.3 70B'yi STT için Whisper ve açık ağırlıklı bir TTS motoruyla birlikte kendi sunucunuzda barındırın. Daha yavaş iterasyon, veriler üzerinde tam kontrol.

Sesli ajan operasyonel kurulumu — konsept görsel — Metinde tasarlanan bir sesli ajan üretimde her zaman hayal kırıklığı yaratır.

Karar vermeden önce kendi aramalarınızla test edin

Bir sağlayıcı demosundan veya statik bir prompt setinden ihtiyacınız olanı öğrenemezsiniz. Gerçekten sahip olduğunuz kullanıcılar, gerçekten çalıştırdığınız senaryolarla yirmi gerçek konuşma kaydedin ve her birini her adayla uçtan uca yeniden çalıştırın. Sentetik dökümanlar önemli başarısızlık modlarını yüzeye çıkarmaz; garip duraklamalar, düşmanca kullanıcılar, çapraz konuşmalar gerçek ses dosyalarında yaşar.

Sadece dökümü okumayın, dinleyin. İlk kelime kullanıcı pes etmeden önce geldi mi? Ajan onuncu dakikada hâlâ kendisi gibi duyuluyordu mu? Üçüncü turdaki hayal kırıklığını fark etti mi, yoksa görmezden mi geldi? Araç çağrısı konuşma akışına doğal biçimde entegre oldu mu, yoksa kullanıcının fark ettiği bir boşluk mu bıraktı? Bir benchmark'ın tercih ettiği modeli değil, geri dinleme sonunda kendi kulağınızın güvendiği modeli seçin.

Canlı test aracını aç →