Use cases/Müşteri hizmetleri

Müşteri hizmetlerini en iyi hangi AI modeli yönetir?

Müşteri hizmetlerini otomatikleştirmek yüzeysel olarak basit görünür — bir soruyu yanıtla, bileti kapat, devam et. Pratikte bu, bir dil modeline verebileceğin en zorlu işlerden biridir. Yanlış seçim yalnızca kullanıcıları hayal kırıklığına uğratmakla kalmaz; her konuşmada, gece gündüz, sanayi ölçeğinde marjı eritir. Bu rehber, hangi modelin destek iş yüklerini gerçekten kazandığına karar veren boyutları derinlemesine inceler ve bugün canlı bir kuyruğa emanet edeceğimiz beş modeli adlandırır.

Müşteri hizmetleri operasyonları paneli — konsept görsel — Destek operasyonları yük altındaki tutarlılıkla ayakta kalır ya da çöker.

Müşteri hizmetleri neden diğer LLM işlerinden farklı

Dil modeli benchmark'larının büyük çoğunluğu, iyi bir desteğin gerektirdiğinin tam tersini ödüllendirir. Test setleri yaratıcılığı, uzun akıl yürütme zincirlerini, beklenmedik ifade biçimlerini kutlar. Bir müşteri hizmetleri iş akışı bunun tersini ödüllendirir: öngörülebilirlik, kısıtlama, tutarlı ton ve sana verilmiş bilginin dışına çıkmama disiplini.

Akademik bir test setinde yüzde doksanbeşinci dilime giren frontier bir akıl yürütme modeli, kötü bir destek asistanı olabilir. Var olmayan bir iade politikası icat edecektir. Bir konuşma dizisinin ortasında ton değiştirecektir. Tek bir cümlenin yeterli olduğu yerde dört paragraflık bir yanıt yazacaktır. Bu başarısızlıkların hiçbiri tipik bir leaderboard'da görünmez; ama her biri gerçek bir kullanıcının gerçek bir dakikasına mal olur.

İşi beş kısıtlama tanımlar: milyonlarca yanıtta tutarlı ton, saniyenin altında yanıt süreleri, katı bilgi sınırları, tek bir bilet içinde çok turlu bellek ve hacimde birikim gösteren birim ekonomisi. Bu beş boyuttan üçünü kazanan ama ikisini kaybeden bir model yanlış seçimdir. Destek altyapısı için karar verecek kişinin tamamına bakması gerekir.

Ekonomi özellikle dikkat ister. Bilet başına iki sentlik fark, demoda önemsiz görünür; on iki aylık faturada yıkıcı. Anlamlı bir hacimde çalışan destek ekiplerinin büyük çoğunluğu, sezgisel olarak tahmin ettiklerinden çok daha fazla konuşma işler — günde on bin bilet işleyen mid-market bir SaaS, en ucuz ve ikinci en ucuz güvenilir model arasındaki fark üzerinden yılda altı haneli rakamlar sessizce yakar. Fiyat karşılaştırması bir dipnot değildir; çoğu zaman kararın ta kendisidir.

AI konuşma yönlendirme akışı — konsept görsel — Yönlendirme bir model seçim problemidir, yalnızca bir arayüz sorunu değil.

Hangi modelin kazandığını belirleyen beş boyut

Bunlar, üretim destek kuyruğuna yaklaşan her modeli iç puan kartımızın değerlendirdiği eksenlerdir. Göreli ağırlıklandırma işletmene göre değişir — bir lüks marka ton yönlendirilebilirliğini ham maliyetin üzerine koyar, yüksek hacimli bir SaaS bu sıralamayı tersine çevirir — ancak her model beşinde de bir asgari çıtayı geçmek zorundadır.

01 — Instruction-following discipline
Çizdiğin sınırların içinde kalıyor mu?
Bir destek modeli kurallarla dolu bir sistem istemi alır: iade vaat etme, aktif fiyat listesinin dışında hiçbir fiyat söyleme, her zaman bilet referansıyla bitir. İşe uygunluğun en iyi göstergesi, modelin bu kurallara baskı altında — belirsiz istemler, düşmanca kullanıcılar, uzun konuşmalar — ne sıklıkla uyduğudur. Akıl yürütme kapasitesi, bir şeyleri uydurmama direncinin çok gerisinde kalır.
02 — Tone steerability
Markana mı yoksa kendine mi benzer bir ses çıkarıyor?
Her frontier modelin bir varsayılan sesi vardır. Kimileri coşkulu bir danışman gibi, kimileri temkinli bir avukat gibi, kimileri de neşeli bir stajyer gibi konuşur. Soru modelin hangi sesi tercih ettiği değil; farklı bir sesi bir vardiya boyunca koruyup koruyamayacağıdır. Her beşinci mesajda fabrika tonuna geri dönen bir model, sesine yatırım yapmış her marka için kullanılamaz.
03 — Cost-per-resolved-ticket
Token için değil, sonuç için ne ödüyorsun?
Token fiyatlarını ayrı ayrı karşılaştırmak bir tuzaktır. Anlamlı rakam, bir bileti çözmenin toplam maliyetidir: tüm konuşma boyunca tüketilen tokenlar ve yine de insana aktarılan yüzde. Yarı fiyata ama escalasyon oranını ikiye katlayan bir model daha pahalı seçimdir. Her zaman uçtan uca ölç.
04 — Latency and time-to-first-token
Kullanıcı bir saniye içinde yazma aktivitesini görüyor mu?
Destek algılanan zaman problemidir. Yazma göstergesi bir saniye içinde etkinleşirse kullanıcılar tam yanıt için birkaç saniye bekler. TTFT'si yüksek modeller, üretimi bitmeden kullanıcıyı kaybeder; kullanıcılar oturumu terk edip kaçınmaya çalıştıkları e-postayı yazar. Her zaman stream et, her zaman bölge bazında ilk token süresini ölç, ortalama uçtan uca gecikmeye asla güvenme.
05 — Multilingual coverage
İngilizce dışında ne kadar iyi çalışıyor?
Çoğu ürün lansmanı, birinci günde en az altı dil gerektirir. Frontier modeller nominalde elli veya daha fazla dili destekler; ancak ilk altının dışındaki kalite belirgin biçimde değişir. Kuyruğunun gerçekten aldığı her dilde test et, sağlayıcının tanıttığı dillerde değil. İngilizce akıcı ve Almancada yetkin bir model, Türkçede ya da Bahasa'da utanç verici biçimde yetersiz kalabilir.

Bugün için Tokonomix'in müşteri hizmetleri top 5 seçimi

Aşağıdaki kısa liste, şu an bir destek kuyruğunu yönlendireceğimiz modellerden oluşuyor. Hiçbiri her şeyde en iyi değil; her biri belirli bir ödünleşim üzerinde yerini hak ediyor. Stack'in için doğru yanıt neredeyse her zaman bunlardan ikisi olur: topluca en yoğun bölümü işleyen bir iş atı ve router'ın güven düştüğünde ya da riskler yükseldiğinde devredeceği bir escalasyon modeli.

#1 · İş atıTier A

Claude Haiku 4.5

via Anthropic

Her yanıtın düşünülmüş hissettirmesi gereken yüksek hacimli destek kuyrukları. Talimat disiplini bu kategoride en güçlü — Haiku bir bilgi sınırı verildiğinde nadiren doğaçlama yapar.

Girdi / 1M token: $1.00
Çıktı / 1M token: $5.00
Bağlam: 200K

Tam benchmark profili →

#2 · Bütçe şampiyonuTier A

Gemini 2.5 Flash

via Google Gemini

Tier 1 triajı, SSS saptırma ve ölçekli dil tespiti. Tablodaki en ucuz güvenilir seçenek; çoğu bölgede ilk token gecikmesi bir saniyenin altında.

Girdi / 1M token: $0.3000
Çıktı / 1M token: $2.50
Bağlam: 1.048576M

Tam benchmark profili →

#3 · Tanıdık varsayılanTier C

gpt-4.1-mini

via OpenAI

Halihazırda OpenAI stack'i üzerinde çalışan ekipler. Tutumlu ton, öngörülebilir biçimlendirme ve çoğu biletleme sistemiyle temiz entegre olan function-calling yüzeyi.

Girdi / 1M token: $0.4000
Çıktı / 1M token: $1.60
Bağlam: 1.047576M

Tam benchmark profili →

#4 · Escalasyon katmanıTier A

Claude Sonnet 4.6

via Anthropic

Karmaşık biletler, düzenlenmiş sektörler ve yanlış yanıtın gerçek bir maliyeti olduğu her konuşma. Router'ın devredeceği ikinci hat modeli olarak kullan.

Girdi / 1M token: $3.00
Çıktı / 1M token: $15.00
Bağlam: 1M

Tam benchmark profili →

#5 · Self-hosted seçenekTier B

Meta-Llama-3_3-70B-Instruct

via OVH AI Endpoints (GRA)

Müşteri transkriptlerinin belirli bir yargı bölgesini terk edemeyeceği veri yerleşimi veya egemenlik gereksinimleri. Açık ağırlıklar, öngörülebilir maliyet ve bu boyut için rekabetçi kalite.

Girdi / 1M token: $0.6700
Çıktı / 1M token: $0.6700
Bağlam: —

Tam benchmark profili →

Milyon token başına çıkış fiyatı

Bir destek modelinin en büyük maliyet faktörü çıkış oranıdır. Tipik çözülen bir bilet, girdiden çok daha fazla çıktı tüketir — asistan açıklar, özetler, netleştirici sorular sorar. Aşağıdaki grafik, yukarıdaki beş model için her sağlayıcının güncel liste fiyatını gösterir.

Claude Haiku 4.5$5.00

Gemini 2.5 Flash$2.50

gpt-4.1-mini$1.60

Claude Sonnet 4.6$15.00

Meta-Llama-3_3-70B-Instruct$0.6700

1M çıkış tokeni başına fiyat, USD. Kaynak: Tokonomix tarafından takip edilen canlı sağlayıcı fiyatları.

Destek analitik paneli — konsept görsel — Önemli rakamlar kuyruğun içinde yaşar, leaderboard'da değil.

Saha rehberi: hangi destek modeli için hangi model

Aşağıdaki eşleme, sıfırdan yeni bir destek asistanı oluşturan bir ekibe tavsiye etmek için kullanacağımız çerçevedir. Bir karar değil, başlangıç noktası olarak değerlendir — kendi biletlerinde yapacağın benchmark, genel bir tavsiyenin her zaman önüne geçer.

Pattern A

Yüksek hacim, düşük karmaşıklık

Sipariş durumu, şifre sıfırlama, kargo ETAları. Gecikme ve maliyet belirleyicidir. Ham maliyet için Gemini 2.5 Flash ile başla, ton fiyattan önemli olduğunda Claude Haiku 4.5'e geç.

Pattern B

Marka kritik premium

Lüks, düzenlenmiş sektörler, isimli ilgili kişilere sahip B2B hesaplar. Baskı altında ton disiplini ve talimat uyumu için Claude Sonnet 4.6 ile öne çık. Düşük eşikli insan aktarım yolu koru.

Pattern C

Veri yerleşimi veya egemenlik

Sağlık, finans, kamu sektörü, sınır ötesi kısıtlamaları olan AB vatandaşı verileri. Meta Llama 3.3 70B'yi bölgesel bir sağlayıcıda kendi sunucunda çalıştır. İterasyon hızı düşer ama transkriptler asla yargı bölgesini terk etmez.

Pattern D

Mevcut stack'e bağlı

Halihazırda OpenAI üzerinde inşa ediyorsun ve entegrasyonları yeniden yazmak yol haritasında yok. GPT-4.1 mini, eski 3.5 sınıfı dağıtımlardan yapılacak in-family yükseltmelerin en güvenlisi — aynı SDK, daha keskin ton, daha düşük çıkış maliyeti.

Operasyon ekibi kurulumu — konsept görsel — Soyut seçilen bir model, üretimde başarısız olan modeldir.

Karar vermeden önce kendi iş yükünde benchmark yap

Bu sayfadaki her öneri tanımı gereği geneldir. Seninki değil. Bir müşteri hizmetleri modeli seçmeden önce harcayabileceğin en değerli saat, kendi geçmiş biletlerinden küçük ve temsili bir prompt seti oluşturmak — yirmi vaka başlamak için yeterli — ve her adayı yan yana geçirmektir.

Yukarıdaki beş boyuta göre değerlendir: sistem istemine uydu mu, marka sesini korudu mu, vakayı çözdü mü ya da temiz biçimde aktardı mı, gecikme bütçesi içinde yanıtladı mı, listedeki her dilde çalıştı mı? Senin verilerinde kazanan model, bu rehber tavsiye etmese de göndermelisin.

Testi çalıştırmak için pratik bir not: asistana orijinal biletin gerçek çözümünü gösterme. Modele yalnızca orijinal müşterinin yazdıklarını ve canlı temsilcilerinin alacağı sistem istemini ilet. Yanıtını insan çözümüyle yan yana karşılaştır. Demoda etkileyici görünen model ile üretimde ayakta kalan model arasındaki fark neredeyse her zaman bu doğrudan karşılaştırmalarda görünür — ve sağlayıcının yayımladığı toplu benchmark skorunda neredeyse hiç görünmez.

Canlı test aracını aç →