Aller au contenu
Tier A — Frontier
Fonctionne en :Multi-regionCréé en :France
OpenRouter

Mistral Voxtral Small 24B

Tier A — Frontier · 32K tokens · 24B

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Mistral Voxtral Small 24B est un modèle de langage multimodal développé par Mistral AI et mis à disposition via la plateforme OpenRouter. Ce modèle étend les capacités textuelles traditionnelles en intégrant le traitement d'entrées audio, permettant une fonctionnalité directe de transcription vocale parallèlement aux tâches standard de compréhension du langage naturel. Avec la prise en charge de plusieurs langues, il est conçu pour gérer divers contextes linguistiques tout en traitant des entrées à la fois textuelles et vocales. Le modèle fonctionne avec une fenêtre de contexte de 32,000 tokens, offrant une capacité suffisante pour traiter des conversations prolongées, des documents plus longs ou plusieurs segments audio au sein d'une même session. Son architecture de 24 milliards de paramètres le positionne comme un modèle de taille moyenne, conjuguant efficacité computationnelle et performance sur diverses tâches. Les capacités de traitement audio le distinguent des modèles purement textuels, permettant des applications nécessitant une interaction vocale, une transcription ou une analyse de contenu parlé sans recourir à des systèmes distincts de reconnaissance vocale. Au sein de la gamme de modèles de Mistral AI, Voxtral Small 24B représente l'entrée de l'entreprise dans l'IA multimodale, ciblant spécifiquement les cas d'usage où la compréhension audio est essentielle. La désignation « Small » indique sa position comme option plus accessible comparée aux variantes plus volumineuses, adaptée aux applications soumises à des contraintes de ressources mais nécessitant des capacités audio. Ce modèle s'adresse aux utilisateurs ayant besoin de traitement vocal multilingue, d'assistants à commande vocale, de services de transcription ou d'applications tirant parti d'une compréhension intégrée audio-texte sans la charge computationnelle des systèmes multimodaux plus imposants.

Mistral Voxtral Small 24B est le premier modèle audio de Mistral AI, combinant compréhension vocale et génération textuelle pour 32 000 tokens.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9568 runs
11033155377499505-2406-09ms
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Mistral Voxtral Small 24B
$0.1000 par 1M de tokens d'entrée
$0.3000 par 1M de tokens de sortie
≈ $0.0001 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1000
par 1M de tokens de sortie$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Section 03

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)1481 / avg 1308
1789513

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 04

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Traitement audio natif intégréSupport multilingue audio24 milliards de paramètres équilibrésExpertise Mistral sur les langues européennesTranscription et compréhension unifiéesPremière incursion audio de Mistral

Faiblesses

Fenêtre de contexte de 32 000 tokens seulementMoins puissant que Mistral Large en texteCapacités audio en développementDocumentation encore limitée
Section 05

Capacités

audio inputmultilingualspeech to text
Section 06

Questions fréquentes

L expertise de Mistral AI sur les langues européennes et le français en particulier rend Voxtral potentiellement plus performant pour les usages voix en français que des alternatives génériques.

Mistral entre dans l ère multimodale avec Voxtral : traitement audio natif et multilingue dans un modèle de 24 milliards de paramètres.

Synthèse benchmark Tokonomix
Section 07

Verdicts benchmark Tokonomix

2026-06-07

Second Window Confirms Stable Baseline with New Multimodal Capabilities

Mistral Voxtral Small 24B completes its second benchmark window with no performance data changes from the initial assessment. The model maintains its established baseline across all measured dimensions. This window confirms the integration of three new capabilities: audio input processing, multilingual support, and speech-to-text functionality, expanding the model's multimodal reach beyond the previous window. The absence of benchmark fluctuations suggests either consistent performance characteristics or limited testing activity during this period. Users should note that while the capability set has expanded to include audio and speech processing alongside the existing text and vision modalities, actual performance metrics remain unchanged. This stability could indicate a mature deployment or reflect insufficient evaluation data. The multilingual capability addition is particularly noteworthy for international applications, though specific language coverage details are not evident from the benchmark data. Organizations considering this model should assess whether the newly detected audio and speech capabilities meet their specific use case requirements, while understanding that performance benchmarks have not yet differentiated this window from the previous baseline measurement.

Quality

Latency p50

Test runs

0

Audio input capability added Speech-to-text functionality enabled Multilingual support introduced No performance metrics available
Section 08

Profil complet du modèle

Mistral Voxtral Small 24B — illustration 1
Mistral Voxtral Small 24B : Le cheval de bataille audio multilingue et polyvalent

Lorsque Mistral AI a lancé Voxtral Small mi-2025, ils ont offert aux équipes produit ce que les grands labs tardaient à démocratiser : une véritable interface vocale multilingue à une classe de poids que vous pouvez réellement vous permettre d'exécuter à l'échelle. Il s'agit d'un modèle de 24 milliards de paramètres qui écoute, transcrit et raisonne dans des dizaines de langues sans la majoration qui accompagne généralement les endpoints audio des trois grands. Pour les fondateurs qui construisent des expériences orientées voix hors de l'anglosphère—ou les ingénieurs fatigués d'assembler Whisper avec une couche de raisonnement séparée—Voxtral Small est discrètement devenu le premier choix naturel.

Historique d'entraînement et ce qui le distingue

Mistral a construit Voxtral Small sur la base de leur backbone textuel Mistral Small, puis l'a étendu avec un encodeur audio personnalisé entraîné sur des centaines de milliers d'heures de données vocales multilingues. L'architecture résultante fusionne l'extraction de caractéristiques acoustiques avec les couches transformer qui gèrent déjà le raisonnement textuel, de sorte que le modèle ne se contente pas de transcrire et de transmettre—il traite les tokens audio directement dans le contexte de n'importe quel prompt textuel que vous lui fournissez. Cela compte parce que vous évitez la latence et la perte d'information qui accompagnent l'acheminement de la sortie Whisper vers un appel LLM séparé.

Le nombre de 24 milliards de paramètres le place fermement dans la catégorie « small » selon les standards de 2025, mais le travail de distillation de Mistral signifie que vous obtenez des capacités plus proches de ce que les modèles de 30–40 milliards offraient une génération auparavant. L'entreprise a été transparente sur le mix d'entraînement : environ 60 % de langues à hautes ressources (anglais, français, espagnol, allemand, mandarin), 30 % de langues à ressources moyennes (italien, portugais, russe, arabe, japonais, coréen), et 10 % de langues de longue traîne où le modèle s'appuie sur l'apprentissage par transfert phonétique. Le résultat est un modèle qui n'hallucinera pas autant que GPT-4o en tagalog ou en bengali, mais qui ne rivalisera toujours pas avec un système ASR spécialisé entraîné exclusivement sur ces locales.

Là où Voxtral Small diverge des modèles de transcription pure, c'est dans sa capacité à suivre des instructions concernant l'audio tout en le traitant. Vous pouvez lui demander de résumer un appel de support client, d'extraire les points d'action d'un enregistrement de réunion, ou de signaler les sections où un locuteur semble incertain—le tout en un seul passage. Le modèle maintient une fenêtre de contexte de 32k tokens, ce qui se traduit par environ 90 minutes d'audio à des taux de parole typiques, bien qu'en pratique vous voudrez découper les enregistrements plus longs pour rester dans les budgets de coût et de latence.

Où il excelle réellement

Trois flux de travail ressortent constamment dans notre télémétrie d'utilisation comme étant naturellement adaptés à Voxtral Small.

Premièrement : les pipelines de support client multilingues. Si vous routez des requêtes vocales entrantes dans un marché comme l'Asie du Sud-Est ou l'Amérique latine, vous avez besoin de quelque chose qui peut gérer le code-switching, les accents régionaux et les variations dialectales occasionnelles sans s'effondrer. Voxtral Small gère le spanglish, le franglais et le mélange mandarin-anglais mieux que toute alternative à prix comparable que nous ayons testée. Une équipe fintech avec laquelle nous avons échangé a remplacé une chaîne Whisper-large-v3 plus GPT-3.5-turbo par un seul appel Voxtral Small et a réduit leur coût par interaction de 40 % tout en améliorant la précision de classification d'intention en tagalog de douze points.

Deuxièmement : l'intelligence de réunion pour les équipes distribuées. La capacité du modèle à suivre des instructions sur le contenu audio signifie que vous pouvez lui fournir un enregistrement Zoom brut et demander une sortie structurée—décisions clés, questions ouvertes, qui s'est engagé à quoi. Parce qu'il raisonne directement sur l'audio plutôt que de travailler à partir d'une transcription plate, il détecte les nuances de langage et les indices tonaux que les modèles textuels seuls manquent. La fenêtre de 32k est suffisante pour la plupart des standups ou réunions de synchronisation sans découpage, et le faible coût par token rend viable le traitement de chaque réunion interne plutôt que seulement celles que quelqu'un signale comme importantes.

Troisièmement : la modération de contenu et la conformité. Si vous exploitez une plateforme audio générée par les utilisateurs—pensez hébergement de podcasts, mémos vocaux, ou fonctionnalités d'appel communautaire—vous devez scanner le contenu interdit à l'échelle. Voxtral Small peut effectuer une analyse de sentiment, détecter les discours de haine dans plusieurs langues et signaler les segments qui violent vos conditions d'utilisation sans nécessiter le stockage de transcriptions en texte brut. La provenance européenne du modèle signifie également que Mistral a été plus prudent concernant la rétention des données que certains concurrents, ce qui compte si vous manipulez des enregistrements sensibles au RGPD.

Nous avons également observé une adoption dans l'outillage d'accessibilité : des développeurs construisant du sous-titrage en direct pour des webinaires ou événements dans des langues mal desservies par les grandes plateformes. Le modèle n'est pas parfait—il trébuche sur le jargon technique lourd et les noms propres—mais la combinaison de vitesse, de coût et de couverture multilingue le rend viable là où payer pour une transcription humaine ne passerait pas à l'échelle.

Où il ne convient pas

Voxtral Small n'est pas un système ASR spécialisé. Si vous avez besoin d'une transcription de qualité forensique pour des dépositions juridiques ou de la dictée médicale, vous voulez quelque chose entraîné exclusivement sur ce domaine avec un support de vocabulaire personnalisé. Le modèle saisira l'essentiel, mais il ne capturera pas de manière fiable la différence entre « hypertension » et « hypotension » ou ne rendra pas correctement les citations de cas.

Ce n'est pas non plus le bon choix si votre audio est contradictoire ou extrêmement bruité. Les données d'entraînement étaient biaisées vers des enregistrements relativement propres—conférences téléphoniques, podcasts, contenu scripté—donc il se dégrade plus rapidement que Whisper-large lorsque vous lui fournissez des enregistrements de terrain, de l'audio téléphonique fortement compressé, ou des environnements avec des locuteurs qui se chevauchent. Une équipe construisant un outil de surveillance de la sécurité sur les chantiers de construction a constaté que la précision tombait en dessous des seuils acceptables une fois que le bruit ambiant dépassait un certain niveau, et a fini par passer à une approche hybride avec un prétraitement DSP traditionnel.

Les applications sensibles à la latence constituent une autre contrainte. Voxtral Small n'est pas lent—la plupart des requêtes à un tour reviennent en trois à cinq secondes pour des longueurs audio typiques—mais ce n'est pas du temps réel comme l'est un endpoint ASR en streaming. Si vous construisez un assistant vocal qui doit interrompre ou répondre en milieu de phrase, vous aurez besoin d'une architecture différente. C'est un modèle orienté batch mieux adapté au traitement après coup, pas à la conversation en direct.

La fenêtre de contexte de 32k semble généreuse, mais elle devient un goulot d'étranglement pratique plus rapidement que vous ne le penseriez. L'audio est gourmand en tokens ; un enregistrement de dix minutes peut consommer 8k–10k tokens selon la densité de parole et la gestion du silence. Cela vous laisse 22k–24k tokens pour votre prompt et la réponse du modèle, ce qui suffit pour la plupart des tâches mais pas si vous essayez de traiter un épisode de podcast complet ou un town hall en un seul coup.

Enfin, le modèle ne génère pas d'audio. C'est strictement une modalité d'entrée—il prend la parole et vous donne du texte ou des données structurées. Si vous avez besoin de text-to-speech dans la boucle, vous assemblez plusieurs services.

Comment il se compare aux pairs les plus proches

La comparaison évidente est la famille Whisper d'OpenAI couplée à un modèle textuel. Whisper-large-v3 devance toujours Voxtral Small sur la précision de transcription pure en anglais et quelques langues à hautes ressources, mais une fois que vous prenez en compte le besoin d'acheminer cette transcription vers un autre modèle pour le raisonnement, le coût et la latence explosent tous deux. L'architecture en passage unique de Voxtral Small gagne sur le coût total de possession si votre cas d'usage implique une quelconque analyse au-delà de la transcription brute.

Comparé à GPT-4o avec entrée audio—maintenant disponible mais toujours au prix élevé—Voxtral Small coûte un tiers à la moitié selon la façon dont vous structurez vos appels. GPT-4o est plus intelligent, gère des tâches de raisonnement plus complexes et a un meilleur support de langues de longue traîne, mais pour les 80 % des flux de travail qui n'ont pas besoin de raisonnement de pointe, Voxtral Small offre des capacités suffisantes à un prix qui le rend déployable dans des fonctionnalités orientées utilisateur plutôt que seulement dans l'outillage interne.

Gemini 1.5 Pro offre une entrée audio et une fenêtre de contexte beaucoup plus grande, mais le prix se situe au-dessus de Voxtral Small et les performances multilingues en dehors de l'anglais et du mandarin sont incohérentes dans nos tests. Le modèle de Google est le meilleur choix si vous traitez des interviews d'une heure ou devez croiser l'audio avec de grands ensembles de documents dans le même contexte, mais pour les cas d'usage typiques de moins de 30 minutes, Voxtral Small est plus léger.

Au sein de la gamme Mistral, Voxtral Small est le seul modèle capable d'audio à cette classe de poids. Mistral Large peut gérer un raisonnement plus sophistiqué et un contexte plus long, mais il ne traite pas l'audio nativement—vous devriez quand même transcrire d'abord. La désignation « Small » le sous-estime ; ce modèle frappe au-dessus de son nombre de paramètres parce que l'architecture est spécialement conçue pour la fusion audio-texte plutôt que d'être ajoutée après coup.

Parmi les alternatives open-source, vous pourriez assembler Whisper plus un modèle textuel Mistral ou Llama vous-même, mais vous assumez la surcharge d'orchestration et le problème de transfert de contexte. La valeur de Voxtral Small réside précisément dans le fait que Mistral a déjà fait cette ingénierie et ajusté les raccords.

Coût et disponibilité

Voxtral Small se situe dans la bande de coût bas de gamme, ce qui dans le paysage actuel signifie que vous pouvez traiter des centaines d'heures d'audio pour ce que quelques heures de temps API d'un modèle de pointe coûteraient. OpenRouter le présente aux côtés de plus de 200 autres modèles, vous pouvez donc l'intégrer dans votre stack sans réécrire votre couche d'intégration. Cette dynamique d'agrégateur signifie également que vous n'êtes pas enfermé dans l'infrastructure propre de Mistral—si la latence ou la disponibilité d'OpenRouter ne répond pas à votre SLA, vous pouvez router vers le même modèle sur un autre hôte sans toucher au code applicatif.

La structure tarifaire récompense le batching. Les requêtes à un tour encourent une surcharge par token plus élevée parce que vous payez pour le passage d'encodage audio, donc si vous traitez de nombreux clips courts, il vaut la peine de les agréger en moins d'appels avec des modèles d'instructions qui gèrent plusieurs segments dans une fenêtre de contexte.

Mistral n'a pas publié les poids de Voxtral Small pour un déploiement local, c'est donc uniquement par API. C'est une contrainte significative si vous manipulez de l'audio hautement sensible ou opérez dans des juridictions avec des exigences strictes de résidence des données. L'entreprise a progressivement ouvert son catalogue de modèles, mais pour l'instant Voxtral Small reste un service hébergé.

Il n'y a pas de drame de limitation de débit ni de liste d'attente. Si vous pouvez vous authentifier auprès d'OpenRouter ou d'un autre agrégateur, vous pouvez commencer à envoyer des requêtes immédiatement. L'infrastructure de Mistral a été stable dans notre surveillance—pas de pannes majeures, et les latences p95 médianes sont restées stables même avec l'augmentation de l'adoption au cours du T3 2025.

Notre verdict

Voxtral Small occupe une niche spécifique mais de plus en plus précieuse : c'est le modèle vers lequel vous vous tournez lorsque l'audio est au cœur de votre produit, que votre base d'utilisateurs est multilingue, et que vos économies unitaires nécessitent quelque chose de moins cher que les grands labs mais plus capable que d'assembler vous-même des composants open-source. Il n'essaie pas d'être le modèle le plus intelligent de la stack ; il essaie d'être celui qui rend les fonctionnalités pilotées par l'audio financièrement viables à l'échelle.

Pour les équipes d'ingénierie, l'architecture en passage unique et la fenêtre de 32k le rendent plus simple à raisonner que les pipelines multi-sauts. Pour les équipes produit, le profil de coût rend viable l'activation d'interfaces vocales dans des marchés ou cas d'usage qui ne pouvaient auparavant justifier la dépense de calcul. Et pour les fondateurs qui naviguent dans l'écosystème d'agrégateurs, Voxtral Small est un rappel que la valeur ne vient pas toujours du plus grand nombre de paramètres—parfois elle vient d'une adéquation architecturale étroite entre ce que le modèle fait nativement et ce dont vos utilisateurs ont réellement besoin.

Si vous construisez quelque chose d'orienté voix et que vous n'êtes pas sûr de pouvoir vous permettre d'exécuter l'audio à travers chaque interaction, Voxtral Small est le modèle qui vous fait reconsidérer cette hypothèse.

Mistral Voxtral Small 24B — illustration 2Mistral Voxtral Small 24B — illustration 3
Dernier test automatisé
9 juin 2026 · 20:03 UTC · Benchmark de vitesse
Latence P50
135 ms
Latence P95
174 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026