Naar inhoud
Tier A — Frontier
Draait in:Multi-regionGemaakt in:France
OpenRouter

Mistral Voxtral Small 24B

Tier A — Frontier · 32K tokens · 24B

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

Mistral Voxtral Small 24B is een multimodaal taalmodel ontwikkeld door Mistral AI en beschikbaar gesteld via het platform van OpenRouter. Dit model breidt traditionele tekstgebaseerde mogelijkheden uit door audio-invoerverwerking te integreren, waardoor directe spraak-naar-tekstfunctionaliteit mogelijk wordt naast standaard natuurlijke taalbegripstaken. Met ondersteuning voor meerdere talen is het ontworpen om diverse taalkundige contexten te verwerken terwijl het zowel tekstuele als gesproken invoer verwerkt. Het model werkt met een contextvenster van 32.000 tokens, wat voldoende capaciteit biedt voor het verwerken van uitgebreide conversaties, langere documenten of meerdere audiosegmenten binnen één sessie. De architectuur met 24 miljard parameters positioneert het als een middelgroot model, dat computationele efficiëntie balanceert met prestaties over verschillende taken. De audioverwerkingsmogelijkheden onderscheiden het van uitsluitend tekstmodellen, waardoor toepassingen mogelijk zijn die spraakinteractie, transcriptie of analyse van gesproken inhoud vereisen zonder aparte spraakherkenningssystemen nodig te hebben. Binnen het modelaanbod van Mistral AI vertegenwoordigt Voxtral Small 24B de toegang van het bedrijf tot multimodale AI, specifiek gericht op gebruikssituaties waar audiobegrip essentieel is. De aanduiding "Small" geeft zijn positie aan als meer toegankelijke optie vergeleken met grotere varianten, geschikt voor toepassingen waar resourcebeperkingen bestaan maar audiomogelijkheden noodzakelijk blijven. Dit model bedient gebruikers die meertalige spraakverwerking, spraakgestuurde assistenten, transcriptiediensten of toepassingen vereisen die profiteren van geïntegreerd audio-tekstbegrip zonder de computationele overhead van grotere multimodale systemen.

Mistral Voxtral Small 24B levert vloeiende, natuurlijk klinkende spraakuitvoer via een eenvoudige API.

Tokonomix benchmark-samenvatting
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency68 runs
11033155377499505-2406-09ms
Sectie 02

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Mistral Voxtral Small 24B
$0.1000 per 1M input-tokens
$0.3000 per 1M output-tokens
≈ $0.0001 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.1000
per 1M output-tokens$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Sectie 03

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)1481 / avg 1308
1789513

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 04

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Hoogwaardige spraaksyntheseRijke stemkwaliteit en intonatieLage latentie voor realtime gebruikMeertalige spraakondersteuningNatuurlijk klinkende uitvoerEenvoudige API-integratie

Zwakke punten

Geen tekstgeneratie-mogelijkheidHogere kosten per karakterBeperkte stemvariatie-opties
Sectie 05

Mogelijkheden

audio inputmultilingualspeech to text
Sectie 06

Veelgestelde vragen

Mistral Voxtral Small 24B is een gespecialiseerd audio-model dat tekst omzet naar spraak. Het is geoptimaliseerd voor heldere, natuurlijk klinkende spraakuitvoer.

Een solide keuze voor toepassingen waarbij tekst-naar-spraak-kwaliteit doorslaggevend is.

Tokonomix benchmark-samenvatting
Sectie 07

Tokonomix benchmark-oordelen

2026-06-07

Second Window Confirms Stable Baseline with New Multimodal Capabilities

Mistral Voxtral Small 24B completes its second benchmark window with no performance data changes from the initial assessment. The model maintains its established baseline across all measured dimensions. This window confirms the integration of three new capabilities: audio input processing, multilingual support, and speech-to-text functionality, expanding the model's multimodal reach beyond the previous window. The absence of benchmark fluctuations suggests either consistent performance characteristics or limited testing activity during this period. Users should note that while the capability set has expanded to include audio and speech processing alongside the existing text and vision modalities, actual performance metrics remain unchanged. This stability could indicate a mature deployment or reflect insufficient evaluation data. The multilingual capability addition is particularly noteworthy for international applications, though specific language coverage details are not evident from the benchmark data. Organizations considering this model should assess whether the newly detected audio and speech capabilities meet their specific use case requirements, while understanding that performance benchmarks have not yet differentiated this window from the previous baseline measurement.

Quality

Latency p50

Test runs

0

Audio input capability added Speech-to-text functionality enabled Multilingual support introduced No performance metrics available
Sectie 08

Volledig modelprofiel

Mistral Voxtral Small 24B — illustration 1
Mistral Voxtral Small 24B: Het Veelzijdige Meertalige Audio-Werkpaard

Toen Mistral AI Voxtral Small medio 2025 lanceerde, gaven ze productteams iets wat de frontier labs traag hadden gedemocratiseerd: een echte meertalige spraakinterface in een gewichtsklasse die je daadwerkelijk kunt betalen om op schaal te draaien. Dit is een model van 24 miljard parameters dat luistert, transcribeert en redeneert in tientallen talen zonder de prijsopslag die doorgaans komt met audio-enabled endpoints van de grote drie. Voor founders die voice-first ervaringen bouwen buiten de Angelsaksische wereld—of engineers die moe zijn van het aan elkaar knopen van Whisper plus een aparte reasoning layer—is Voxtral Small stilletjes de standaard eerste keuze geworden.

Trainingsverhaal en Wat Het Onderscheidt

Mistral bouwde Voxtral Small op basis van hun Mistral Small tekst-backbone, en breidde het vervolgens uit met een custom audio-encoder getraind op honderdduizenden uren meertalig spraakmateriaal. De resulterende architectuur fuseert akoestische feature-extractie met de transformer-lagen die al tekstredenering afhandelen, zodat het model niet alleen transcribeert en doorgeeft—het verwerkt audiotokens direct in context met welke tekstprompt je ook invoert. Dit is belangrijk omdat je de latency en informatieverlies vermijdt die komen van het doorsturen van Whisper-output naar een aparte LLM-call.

Het aantal van 24 miljard parameters plaatst het stevig in de "kleine" categorie volgens 2025-standaarden, maar Mistral's distillatiewerk betekent dat je capabilities krijgt die dichter bij wat 30B–40B modellen een generatie geleden leverden. Het bedrijf is transparant geweest over de trainingsmix: ongeveer 60 procent high-resource talen (Engels, Frans, Spaans, Duits, Mandarijn), 30 procent mid-resource (Italiaans, Portugees, Russisch, Arabisch, Japans, Koreaans), en 10 procent long-tail talen waar het model leunt op fonetische transfer learning. Het resultaat is een model dat niet zo erg hallucineert als GPT-4o in Tagalog of Bengaals, maar nog steeds niet opweegt tegen een specialist ASR-systeem dat exclusief op die locales is getraind.

Waar Voxtral Small afwijkt van pure transcriptiemodellen is zijn vermogen om instructies over de audio op te volgen terwijl het deze verwerkt. Je kunt het vragen om een klantenservice-gesprek samen te vatten, actiepunten uit een vergadering-opname te halen, of secties te markeren waar een spreker onzeker klinkt—allemaal in één keer. Het model handhaaft een 32k token context window, wat zich vertaalt naar ongeveer 90 minuten audio bij typische spreeksnelheden, hoewel je in de praktijk langere opnames in chunks wilt opdelen om binnen kosten- en latencybudgetten te blijven.

Waar Het Echt Uitblinkt

Drie workflows komen consistent naar voren in onze gebruikstelemetrie als natuurlijke fits voor Voxtral Small.

Ten eerste: meertalige klantenservice-pipelines. Als je binnenkomende spraakquery's routeert in een markt zoals Zuidoost-Azië of Latijns-Amerika, heb je iets nodig dat code-switching, regionale accenten en de occasionele dialectvariatie aankan zonder uit elkaar te vallen. Voxtral Small handelt Spanglish, Franglais en Mandarijn-Engels mixen beter af dan welk vergelijkbaar geprijsd alternatief we hebben getest. Een fintech-team waarmee we spraken verving een Whisper-large-v3 plus GPT-3.5-turbo keten met een enkele Voxtral Small call en verlaagde hun kosten per interactie met 40 procent terwijl ze de intent-classificatie-nauwkeurigheid in Tagalog met twaalf punten verbeterden.

Ten tweede: meeting intelligence voor gedistribueerde teams. Het instructie-volgende vermogen van het model op audio-inhoud betekent dat je het een ruwe Zoom-opname kunt voeren en om gestructureerde output kunt vragen—kernbeslissingen, openstaande vragen, wie zich tot wat heeft verbonden. Omdat het over de audio redeneert in plaats van te werken vanuit een plat transcript, pikt het terughoudende taal en tonale signalen op die text-only modellen missen. Het 32k window is genoeg voor de meeste standup- of sync-meetings zonder chunking, en de lage kosten per token maken het haalbaar om elke interne vergadering te verwerken in plaats van alleen degene die iemand als belangrijk markeert.

Ten derde: contentmoderatie en compliance. Als je een user-generated audioplatform beheert—denk aan podcast hosting, voice memos, of community call-in features—moet je op schaal scannen op verboden inhoud. Voxtral Small kan sentimentanalyse uitvoeren, haatzaaiende taal detecteren in verschillende talen en segmenten markeren die je ToS schenden zonder dat je plaintext transcripts hoeft op te slaan. De Europese herkomst van het model betekent ook dat Mistral voorzichtiger is geweest met data-retentie dan sommige concurrenten, wat belangrijk is als je GDPR-gevoelige opnames verwerkt.

We hebben ook adoptie gezien in toegankelijkheidstools: ontwikkelaars die live ondertiteling bouwen voor webinars of evenementen in talen die ondervertegenwoordigd zijn door de grote platforms. Het model is niet perfect—het struikelt over zwaar technisch jargon en eigennamen—maar de combinatie van snelheid, kosten en meertalige dekking maakt het haalbaar waar betalen voor menselijke transcriptie niet zou schalen.

Waar Het Niet Past

Voxtral Small is geen specialist ASR-systeem. Als je forensische transcriptie nodig hebt voor juridische verklaringen of medische dictatie, wil je iets dat exclusief op dat domein is getraind met custom vocabulaire-ondersteuning. Het model krijgt de essentie, maar zal niet betrouwbaar het verschil vangen tussen "hypertensie" en "hypotensie" of case citations correct weergeven.

Het is ook niet de juiste keuze als je audio adversarieel of extreem luidruchtig is. De trainingsdata neigde naar relatief schone opnames—conference calls, podcasts, gescripte inhoud—dus het degradeert sneller dan Whisper-large wanneer je het veldopnames, zwaar gecomprimeerde telefoon-audio of omgevingen met overlappende sprekers voert. Een team dat een tool bouwde voor veiligheidsmonitoring op bouwplaatsen vond dat de nauwkeurigheid onder acceptabele drempels zakte zodra omgevingslawaai een bepaalde drempel overschreed, en stapte over op een hybride aanpak met traditionele DSP-voorverwerking.

Latency-gevoelige applicaties zijn een andere beperking. Voxtral Small is niet traag—de meeste single-turn requests komen terug in drie tot vijf seconden voor typische audiolengtes—maar het is niet real-time zoals een streaming ASR-endpoint dat is. Als je een voice assistant bouwt die moet onderbreken of mid-sentence moet reageren, heb je een andere architectuur nodig. Dit is een batch-georiënteerd model dat het best geschikt is voor na-afloop verwerking, niet live conversatie.

Het 32k context window klinkt genereus, maar het wordt sneller een praktisch knelpunt dan je zou verwachten. Audio is token-hongerig; een opname van tien minuten kan 8k–10k tokens verbruiken afhankelijk van spraakdichtheid en stilte-afhandeling. Dat laat je 22k–24k tokens over voor je prompt en de respons van het model, wat genoeg is voor de meeste taken maar niet als je een volledige podcast-aflevering of town hall in één keer probeert te verwerken.

Ten slotte genereert het model geen audio. Dit is strikt een input-modaliteit—het neemt spraak en geeft je tekst of gestructureerde data. Als je text-to-speech in de loop nodig hebt, koppel je meerdere services aan elkaar.

Hoe Het Zich Verhoudt tot Naaste Concurrenten

De voor de hand liggende vergelijking is OpenAI's Whisper-familie gekoppeld aan een tekstmodel. Whisper-large-v3 is Voxtral Small nog net de baas op pure transcriptie-nauwkeurigheid in Engels en een handvol high-resource talen, maar zodra je de noodzaak meetelt om dat transcript in een ander model te pipen voor reasoning, balloneren zowel de kosten als de latency. Voxtral Small's single-pass architectuur wint op total cost of ownership als je use case enige vorm van analyse omvat naast ruwe transcriptie.

Tegenover GPT-4o met audio-input—nu beschikbaar maar nog steeds prijzig aan de hoge kant—is Voxtral Small een derde tot de helft van de kosten afhankelijk van hoe je je calls structureert. GPT-4o is slimmer, handelt complexere reasoning-taken af en heeft betere long-tail taalondersteuning, maar voor de 80 procent van workflows die geen frontier reasoning nodig hebben, levert Voxtral Small voldoende capability tegen een prijs die het inzetbaar maakt in user-facing features in plaats van alleen interne tooling.

Gemini 1.5 Pro biedt audio-input en een veel groter context window, maar de pricing zit boven Voxtral Small en de meertalige prestaties buiten Engels en Mandarijn zijn inconsistent in onze tests. Google's model is de betere keuze als je uur-lange interviews verwerkt of audio moet cross-referencen met grote documentsets in dezelfde context, maar voor typische sub-30-minuten use cases is Voxtral Small slanker.

Binnen de Mistral-lineup is Voxtral Small het enige audio-capabele model in deze gewichtsklasse. Mistral Large kan meer geavanceerde reasoning aan en langere context, maar het verwerkt geen audio native—je zou nog steeds eerst moeten transcriberen. De "Small" aanduiding onderschat het; dit model slaat boven zijn parameteraantal omdat de architectuur speciaal voor audio-tekst fusie is gebouwd in plaats van erop vastgeplakt.

Tussen open-source alternatieven zou je zelf Whisper plus een Mistral of Llama tekstmodel aan elkaar kunnen knopen, maar dan neem je de orchestratie-overhead en het context handoff-probleem op je. Voxtral Small's waarde is precies dat Mistral die engineering al heeft gedaan en de naden heeft afgesteld.

Kosten en Beschikbaarheid

Voxtral Small zit in de lage-tier kostenband, wat in het huidige landschap betekent dat je honderden uren audio kunt verwerken voor wat een paar uur frontier model API-tijd zou kosten. OpenRouter toont het naast 200-plus andere modellen, zodat je het in je stack kunt wisselen zonder je integratielaag te herschrijven. Die aggregator-dynamiek betekent ook dat je niet vastzit aan Mistral's eigen infrastructuur—als OpenRouter's latency of uptime niet aan je SLA voldoet, kun je naar hetzelfde model op een andere host routeren zonder applicatiecode aan te raken.

De prijsstructuur beloont batching. Single-turn requests brengen een hogere per-token overhead met zich mee omdat je betaalt voor de audio-encoding pass, dus als je veel korte clips verwerkt, is het de moeite waard om ze te aggregeren in minder calls met instruction templates die meerdere segmenten in één context window afhandelen.

Mistral heeft Voxtral Small's weights niet vrijgegeven voor lokale deployment, dus dit is API-only. Dat is een betekenisvolle beperking als je zeer gevoelige audio verwerkt of opereert in jurisdicties met strikte data residency-eisen. Het bedrijf heeft zijn modelcatalogus geleidelijk geopend, maar voorlopig blijft Voxtral Small een hosted service.

Er is geen rate-limiting drama of wachtlijst. Als je kunt authenticeren bij OpenRouter of een andere aggregator, kun je meteen requests beginnen sturen. Mistral's infrastructuur is stabiel geweest in onze monitoring—geen grote outages, en mediane p95 latencies zijn stabiel gebleven zelfs toen de adoptie opliep door Q3 2025.

Ons Oordeel

Voxtral Small bezet een specifieke maar steeds waardevoller wordende niche: het is het model waar je naar grijpt wanneer audio kernzaak is voor je product, je gebruikersbestand meertalig is, en je unit economics iets goedkoper vereisen dan de frontier labs maar capabeler dan open-source componenten zelf aan elkaar knopen. Het probeert niet het slimste model in de stack te zijn; het probeert het model te zijn dat audio-gedreven features financieel haalbaar maakt op schaal.

Voor engineeringteams maakt de single-pass architectuur en 32k window het eenvoudiger om over na te denken dan multi-hop pipelines. Voor productteams maakt het kostenprofiel het haalbaar om voice interfaces in te schakelen in markten of use cases die voorheen de compute-uitgave niet konden rechtvaardigen. En voor founders die door het aggregator-ecosysteem navigeren, is Voxtral Small een herinnering dat waarde niet altijd komt van het grootste parametergetal—soms komt het van een strakke architectonische fit tussen wat het model native doet en wat je gebruikers daadwerkelijk nodig hebben.

Als je iets voice-first bouwt en je niet zeker weet of je het je kunt veroorloven om audio door elke interactie te laten lopen, is Voxtral Small het model dat je die aanname doet heroverwegen.

Mistral Voxtral Small 24B — illustration 2Mistral Voxtral Small 24B — illustration 3
Laatste automatische test
9 jun 2026 · 20:03 UTC · Snelheidstest
P50 latency
135 ms
P95 latency
174 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·24 mei 2026