İçeriğe geç
Seviye A — Öncü
Çalıştığı yer:Multi-regionYapıldığı yer:France
OpenRouter

Mistral Voxtral Small 24B

Seviye A — Öncü · 32K token · 24B

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Mistral Voxtral Small 24B, Mistral AI tarafından geliştirilen ve OpenRouter platformu üzerinden erişime sunulan çok modlu bir dil modelidir. Bu model, ses girişi işleme yeteneğini de dahil ederek geleneksel metin tabanlı kapasitelerin ötesine geçer; standart doğal dil anlama görevlerinin yanı sıra doğrudan konuşmadan metne dönüştürme işlevini de mümkün kılar. Birden fazla dili destekleyen model, hem yazılı hem de sözlü girdileri işlerken farklı dilsel bağlamları ele alacak şekilde tasarlanmıştır. Model, 32,000 token'lık bir bağlam penceresiyle çalışır; bu da uzun konuşmaları, daha uzun belgeleri veya tek bir oturumda birden fazla ses segmentini işlemek için yeterli kapasite sağlar. 24 milyar parametreli mimarisi, onu çeşitli görevlerde hesaplama verimliliği ile performansı dengeleyen orta ölçekli bir model konumuna yerleştirir. Ses işleme yetenekleri, modeli yalnızca metin tabanlı modellerden ayırarak ayrı konuşma tanıma sistemlerine ihtiyaç duymadan sesli etkileşim, transkripsiyon veya konuşulan içerik analizi gerektiren uygulamalara olanak tanır. Mistral AI'ın model serisinde Voxtral Small 24B, şirketin çok modlu yapay zekâya girişini temsil eder ve özellikle ses anlamanın kritik olduğu kullanım senaryolarını hedefler. "Small" ifadesi, daha büyük varyantlara kıyasla daha erişilebilir bir seçenek olduğunu; kaynak kısıtlamalarının bulunduğu ancak ses yeteneklerinin gerekli kaldığı uygulamalar için uygun olduğunu gösterir. Bu model; çok dilli konuşma işleme, sesli asistanlar, transkripsiyon hizmetleri veya daha büyük çok modlu sistemlerin hesaplama yükü olmadan entegre ses-metin anlamadan yararlanan uygulamalar arayan kullanıcılara hizmet eder.

OpenRouter aracılığıyla erişilen bu model tek bir API ile farklı uygulamalara entegre ediliyor.

Tokonomix benchmark özeti
Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme68 runs
11033155377499505-2406-09ms
Bölüm 02

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Mistral Voxtral Small 24B
$0.1000 1M giriş token başına
$0.3000 1M çıkış token başına
≈ $0.0001 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$0.1000
1M çıkış token başına$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Bölüm 03

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)1481 / avg 1308
1789513

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 04

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

32K token bağlam desteğiVerimli transformer mimarisiMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesi

Zayıf yönler

Karmaşık akıl yürütmede sınırlıÜçüncü taraf API üzerinden erişimİnternet erişimi bulunmuyor
Bölüm 05

Yetenekler

audio inputmultilingualspeech to text
Bölüm 06

Sık sorulan sorular

Metin üretimi, içerik oluşturma, soru-cevap ve özetleme görevlerini destekleyen geniş bir uygulama yelpazesi sunuyor.

OpenRouter birleşik API'si sayesinde hızlı prototipleme için kullanışlı bir seçenek.

Tokonomix benchmark özeti
Bölüm 07

Tokonomix kıyaslama kararları

2026-06-07

Second Window Confirms Stable Baseline with New Multimodal Capabilities

Mistral Voxtral Small 24B completes its second benchmark window with no performance data changes from the initial assessment. The model maintains its established baseline across all measured dimensions. This window confirms the integration of three new capabilities: audio input processing, multilingual support, and speech-to-text functionality, expanding the model's multimodal reach beyond the previous window. The absence of benchmark fluctuations suggests either consistent performance characteristics or limited testing activity during this period. Users should note that while the capability set has expanded to include audio and speech processing alongside the existing text and vision modalities, actual performance metrics remain unchanged. This stability could indicate a mature deployment or reflect insufficient evaluation data. The multilingual capability addition is particularly noteworthy for international applications, though specific language coverage details are not evident from the benchmark data. Organizations considering this model should assess whether the newly detected audio and speech capabilities meet their specific use case requirements, while understanding that performance benchmarks have not yet differentiated this window from the previous baseline measurement.

Quality

Latency p50

Test runs

0

Audio input capability added Speech-to-text functionality enabled Multilingual support introduced No performance metrics available
Bölüm 08

Tam model profili

Mistral Voxtral Small 24B — illustration 1
Mistral Voxtral Small 24B: Mücadeleci Çok Dilli Ses İş Atı

Mistral AI, Voxtral Small'u 2025 ortasında piyasaya sürdüğünde, ürün ekiplerine büyük üç laboratuvarın demokratikleştirmekte yavaş kaldığı bir şey verdiler: ölçekte gerçekten çalıştırabileceğiniz bir ağırlık sınıfında gerçek bir çok dilli konuşma arayüzü. Bu, ses özellikli uç noktalardan genellikle gelen ek maliyetler olmadan düzinelerce dilde dinleyen, yazıya döken ve akıl yürüten 24 milyar parametreli bir model. Anglofon dünya dışında ses öncelikli deneyimler oluşturan kurucular veya Whisper'ı ayrı bir akıl yürütme katmanıyla birleştirmekten yorulan mühendisler için—Voxtral Small sessizce ilk tercihe dönüştü.

Eğitim Hikayesi ve Farklılaşan Yönleri

Mistral, Voxtral Small'u Mistral Small metin omurgası üzerine kurdu, ardından yüz binlerce saat çok dilli konuşma verisi üzerinde eğitilmiş özel bir ses kodlayıcısıyla genişletti. Ortaya çıkan mimari, akustik özellik çıkarımını zaten metin akıl yürütmeyi işleyen transformer katmanlarıyla birleştiriyor, böylece model sadece yazıya dökme yapıp aktarmıyor—ses tokenlarını beslendiğiniz metin istemiyle doğrudan bağlamda işliyor. Bu önemli çünkü Whisper çıktısını ayrı bir LLM çağrısına aktarmaktan gelen gecikme ve bilgi kaybını atlıyorsunuz.

24 milyar parametre sayısı, onu 2025 standartlarına göre sağlam bir şekilde "küçük" kategorisine yerleştiriyor, ancak Mistral'ın damıtma çalışması, bir önceki nesilde 30-40 milyar parametreli modellerin sunduğuna yakın yetenekler elde ettiğiniz anlamına geliyor. Şirket, eğitim karışımı konusunda şeffaf olmuştur: yaklaşık yüzde 60 yüksek kaynaklı diller (İngilizce, Fransızca, İspanyolca, Almanca, Mandarin), yüzde 30 orta kaynaklı (İtalyanca, Portekizce, Rusça, Arapça, Japonca, Korece) ve yüzde 10 modelin fonetik transfer öğrenmesine dayandığı uzun kuyruk dilleri. Sonuç, GPT-4o kadar kötü Tagalogca veya Bengalce halüsinasyon görmeyecek, ancak yine de yalnızca bu yerel bölgelerde eğitilmiş uzman bir ASR sistemiyle eşleşmeyecek bir model.

Voxtral Small'un saf transkripsiyon modellerinden ayrıldığı nokta, işlerken ses hakkında talimatları takip edebilme yeteneğidir. Bir müşteri destek çağrısını özetlemesini, bir toplantı kaydından eylem öğelerini çıkarmasını veya konuşmacının belirsiz göründüğü bölümleri işaretlemesini isteyebilirsiniz—hepsi tek geçişte. Model, tipik konuşma hızlarında yaklaşık 90 dakikalık sese karşılık gelen 32 bin token bağlam penceresi tutar, ancak pratikte daha uzun kayıtları maliyet ve gecikme bütçeleri içinde kalmak için parçalamak isteyeceksiniz.

Gerçekten Parlak Olduğu Alanlar

Kullanım telemetrimizde Voxtral Small için doğal uyum sağlayan üç iş akışı sürekli öne çıkıyor.

İlki: çok dilli müşteri destek hatları. Güneydoğu Asya veya Latin Amerika gibi bir pazarda gelen ses sorgularını yönlendiriyorsanız, kod değiştirme, bölgesel aksanlar ve ara sıra lehçe varyasyonlarını dağılmadan işleyebilecek bir şeye ihtiyacınız var. Voxtral Small, test ettiğimiz benzer fiyatlı alternatiflere göre İspanyolca-İngilizce, Fransızca-İngilizce ve Mandarin-İngilizce karışımlarını daha iyi ele alıyor. Konuştuğumuz bir fintech ekibi, Whisper-large-v3 artı GPT-3.5-turbo zincirini tek bir Voxtral Small çağrısıyla değiştirdi ve etkileşim başına maliyetlerini yüzde 40 azaltırken Tagalogca'da niyet sınıflandırma doğruluğunu on iki puan artırdı.

İkincisi: dağıtık ekipler için toplantı zekası. Modelin ses içeriği üzerindeki talimat takibi, ham bir Zoom kaydını besleyip yapılandırılmış çıktı—ana kararlar, açık sorular, kimin neye taahhüt ettiği—isteyebileceğiniz anlamına gelir. Düz bir transkript üzerinden çalışmak yerine ses üzerinden doğrudan akıl yürüttüğü için, yalnızca metin modellerinin kaçırdığı tereddütlü dil ve ton ipuçlarını yakalar. 32 bin pencere, çoğu günlük veya senkronizasyon toplantısı için parçalamadan yeterlidir ve düşük token başına maliyet, sadece birinin önemli olarak işaretlediği toplantılar yerine her dahili toplantıyı işlemeyi mümkün kılar.

Üçüncüsü: içerik moderasyonu ve uyumluluk. Kullanıcı tarafından oluşturulan bir ses platformu işletiyorsanız—podcast barındırma, sesli notlar veya topluluk arama özellikleri gibi—ölçekte yasaklı içeriği taramanız gerekir. Voxtral Small, düz metin transkriptlerini saklamanızı gerektirmeden duygu analizi yapabilir, diller arası nefret söylemini tespit edebilir ve Hizmet Şartlarınızı ihlal eden bölümleri işaretleyebilir. Modelin Avrupa kökeni, Mistral'ın bazı rakiplerinden daha temkinli veri saklama konusunda olduğu anlamına da geliyor ki bu, GDPR'a duyarlı kayıtları ele alıyorsanız önemli.

Erişilebilirlik araçlarında da benimseme gördük: geliştiriciler, büyük platformlar tarafından yetersiz hizmet verilen dillerde web seminerleri veya etkinlikler için canlı altyazı oluşturuyor. Model mükemmel değil—ağır teknik jargon ve özel isimlerde tökezliyor—ancak hız, maliyet ve çok dilli kapsam kombinasyonu, insan transkripsiyonuna ödeme yapmanın ölçeklenmeyeceği durumlarda onu uygulanabilir kılıyor.

Uygun Olmadığı Yerler

Voxtral Small uzman bir ASR sistemi değildir. Hukuki ifadeler veya tıbbi diktat için adli kalitede transkripsiyon gerekiyorsa, özel kelime dağarcığı desteğiyle yalnızca o alan üzerinde eğitilmiş bir şey istersiniz. Model özü yakalayacaktır, ancak "hipertansiyon" ile "hipotansiyon" arasındaki farkı güvenilir bir şekilde yakalamayacak veya dava alıntılarını doğru şekilde oluşturmayacaktır.

Ayrıca sesiniz düşmanca veya son derece gürültülüyse doğru seçim değildir. Eğitim verileri nispeten temiz kayıtlara—konferans aramaları, podcast'ler, senaryolu içerik—yönelmiştir, bu nedenle ona saha kayıtları, yoğun sıkıştırılmış telefon sesi veya örtüşen konuşmacıların olduğu ortamlar beslediğinizde Whisper-large'dan daha hızlı bozulur. İnşaat sahası güvenlik izleme için bir araç oluşturan bir ekip, ortam gürültüsü belirli bir eşiği aştığında doğruluğun kabul edilebilir eşiklerin altına düştüğünü buldu ve geleneksel DSP ön işlemeyle hibrit bir yaklaşıma geçti.

Gecikmeye duyarlı uygulamalar başka bir kısıttır. Voxtral Small yavaş değil—tipik ses uzunlukları için çoğu tek turlu istek üç ila beş saniyede geri gelir—ancak akışlı bir ASR uç noktasının olduğu gibi gerçek zamanlı değildir. Kesme veya cümle ortasında yanıt vermesi gereken bir ses asistanı oluşturuyorsanız, farklı bir mimariye ihtiyacınız olacak. Bu, canlı konuşma için değil, olay sonrası işleme için en uygun toplu iş odaklı bir modeldir.

32 bin bağlam penceresi cömert görünüyor, ancak beklediğinizden daha hızlı pratik bir darboğaz haline geliyor. Ses token açlığı çeker; on dakikalık bir kayıt, konuşma yoğunluğuna ve sessizlik işleme göre 8-10 bin token tüketebilir. Bu size isteminiz ve modelin yanıtı için 22-24 bin token bırakır ki bu çoğu görev için yeterlidir ancak tam bir podcast bölümünü veya belediye toplantısını tek atışta işlemeye çalışıyorsanız değil.

Son olarak, model ses üretmez. Bu kesinlikle bir girdi modalitesidir—konuşmayı alır ve size metin veya yapılandırılmış veri verir. Döngüde metinden sese ihtiyacınız varsa, birden çok hizmeti bir araya getiriyorsunuz.

En Yakın Rakiplerle Karşılaştırma

Bariz karşılaştırma, OpenAI'nin bir metin modeliyle eşleştirilmiş Whisper ailesidir. Whisper-large-v3, İngilizce ve bir avuç yüksek kaynaklı dilde saf transkripsiyon doğruluğunda Voxtral Small'u hala geçiyor, ancak o transkripti akıl yürütme için başka bir modele aktarma ihtiyacını hesaba kattığınızda, hem maliyet hem de gecikme şişiyor. Kullanım durumunuz ham transkripsiyonun ötesinde herhangi bir analiz içeriyorsa, Voxtral Small'un tek geçişli mimarisi toplam sahip olma maliyetinde kazanıyor.

Ses girişli GPT-4o'ya karşı—şimdi mevcut ancak hala yüksek uçta fiyatlandırılmış—Voxtral Small, aramalarınızı nasıl yapılandırdığınıza bağlı olarak üçte bir ila yarı maliyettir. GPT-4o daha akıllıdır, daha karmaşık akıl yürütme görevlerini ele alır ve daha iyi uzun kuyruk dil desteğine sahiptir, ancak ileri akıl yürütmeye ihtiyaç duymayan iş akışlarının yüzde 80'i için Voxtral Small, onu dahili araçlar yerine kullanıcıya dönük özelliklerde dağıtılabilir kılan bir fiyata yeterli yetenek sunar.

Gemini 1.5 Pro ses girişi ve çok daha büyük bir bağlam penceresi sunuyor, ancak fiyatlandırma Voxtral Small'un üzerinde oturuyor ve İngilizce ve Mandarin dışındaki çok dilli performans testimizde tutarsız. Google'ın modeli, saat uzunluğunda röportajlar işliyorsanız veya aynı bağlamda sesi büyük belge setleriyle çapraz referanslamanız gerekiyorsa daha iyi bir seçimdir, ancak tipik 30 dakikadan kısa kullanım durumları için Voxtral Small daha yalın.

Mistral ürün yelpazesi içinde, Voxtral Small bu ağırlık sınıfında ses özellikli tek modeldir. Mistral Large daha sofistike akıl yürütme ve daha uzun bağlamı ele alabilir, ancak sesi yerel olarak işlemez—yine de önce yazıya dökmeniz gerekir. "Small" tanımı onu küçültüyor; bu model parametre sayısının üzerinde vuruyor çünkü mimari, sonradan eklenen yerine ses-metin füzyonu için özel olarak yapılmış.

Açık kaynak alternatifleri arasında, Whisper'ı kendiniz bir Mistral veya Llama metin modeliyle birleştirebilirsiniz, ancak orkestrasyon yükünü ve bağlam aktarım sorununu üstleniyorsunuz. Voxtral Small'un değeri, Mistral'ın bu mühendisliği zaten yapmış ve eklemleri ayarlamış olmasıdır.

Maliyet ve Erişilebilirlik

Voxtral Small düşük katman maliyet bandında oturuyor, bu da mevcut ortamda yüzlerce saat sesi, birkaç saat öncü model API süresinin maliyeti karşılığında işleyebileceğiniz anlamına geliyor. OpenRouter, onu 200'den fazla diğer modelle birlikte yüzeye çıkarıyor, böylece entegrasyon katmanınızı yeniden yazmadan yığınınıza takas edebilirsiniz. Bu toplayıcı dinamiği, Mistral'ın kendi altyapısına kilitlenmediğiniz anlamına da gelir—OpenRouter'ın gecikmesi veya çalışma süresi SLA'nızı karşılamıyorsa, uygulama koduna dokunmadan aynı modeli başka bir ana bilgisayarda yönlendirebilirsiniz.

Fiyatlandırma yapısı toplu işlemi ödüllendiriyor. Tek turlu istekler, ses kodlama geçişi için ödeme yaptığınız için daha yüksek token başına ek yük getirir, bu nedenle çok sayıda kısa klip işliyorsanız, onları tek bağlam penceresinde birden çok segmenti işleyen talimat şablonlarıyla daha az çağrıya toplama değer.

Mistral, Voxtral Small'un ağırlıklarını yerel dağıtım için yayınlamadı, bu nedenle bu yalnızca API'dir. Son derece hassas ses işliyorsanız veya katı veri ikametgahı gereksinimleri olan yargı bölgelerinde çalışıyorsanız bu anlamlı bir kısıttır. Şirket model kataloğunu kademeli olarak açmakta, ancak şimdilik Voxtral Small barındırılan bir hizmet olarak kalıyor.

Hız sınırlama draması veya bekleme listesi yok. OpenRouter veya başka bir toplayıcıya kimlik doğrulama yapabilirseniz, hemen istek göndermeye başlayabilirsiniz. Mistral'ın altyapısı izlememizde istikrarlı olmuştur—büyük kesinti yok ve benimseme 2025'in üçüncü çeyreğinde artarken medyan p95 gecikmeleri sabit kalmıştır.

Kanaatimiz

Voxtral Small belirli ama giderek daha değerli bir niş işgal ediyor: ses ürününüzün özü olduğunda, kullanıcı tabanınız çok dilli olduğunda ve birim ekonominiz öncü laboratuvarlardan daha ucuz ama açık kaynak bileşenlerini kendiniz bir araya getirmekten daha yetenekli bir şey gerektirdiğinde uzandığınız model. Yığındaki en akıllı model olmaya çalışmıyor; ses odaklı özellikleri ölçekte finansal olarak uygulanabilir kılan model olmaya çalışıyor.

Mühendislik ekipleri için, tek geçişli mimari ve 32 bin pencere, çok atlamalı boru hatlarından daha basit akıl yürütmeyi sağlar. Ürün ekipleri için, maliyet profili, daha önce bilgi işlem harcamasını haklı çıkaramayan pazarlarda veya kullanım durumlarında ses arayüzlerini etkinleştirmeyi mümkün kılar. Ve toplayıcı ekosisteminde gezinen kurucular için, Voxtral Small, değerin her zaman en büyük parametre sayısından gelmediğinin bir hatırlatıcısıdır—bazen modelin yerel olarak yaptığı ile kullanıcılarınızın gerçekte ihtiyaç duyduğu arasındaki sıkı mimari uyumdan gelir.

Ses öncelikli bir şey oluşturuyorsanız ve her etkileşim boyunca sesi çalıştırmayı karşılayıp karşılayamayacağınızdan emin değilseniz, Voxtral Small o varsayımı yeniden düşünmenizi sağlayan modeldir.

Mistral Voxtral Small 24B — illustration 2Mistral Voxtral Small 24B — illustration 3
Son otomatik test
9 Haz 2026 · 20:03 UTC · Hız testi
P50 gecikme
135 ms
P95 gecikme
174 ms
Hatalar
0 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·24 Mayıs 2026