Voxtral Small 24B peut-il transcrire avec précision des enregistrements en français ?

Oui, c est un des cas d usage prioritaires. L expertise Mistral sur le français devrait se refléter dans la qualité de transcription.

Ce modèle peut-il être utilisé pour des réunions d affaires en plusieurs langues ?

Oui, le support multilingue et les capacités de transcription en font un outil pertinent pour les réunions multilingues.

La fenêtre de 32 000 tokens est-elle suffisante pour de longs enregistrements ?

Pour des séquences audio converties en tokens, 32 000 tokens couvrent des durées modérées. Les enregistrements très longs nécessiteraient un traitement par segments.

Voxtral remplace-t-il un système dédié de transcription comme Whisper ?

Pour certains usages, Voxtral offre une alternative intéressante avec l avantage de l intégration dans un LLM multilingue, mais Whisper reste très performant sur la transcription pure.

Tier A — Frontier

Fonctionne en :Multi-regionCréé en :France

OpenRouter

Mistral Voxtral Small 24B

Tier A — Frontier · 32K tokens · 24B

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 24 mai 2026·Dernière relecture 24 mai 2026

Mistral Voxtral Small 24B est un modèle de langage multimodal développé par Mistral AI et mis à disposition via la plateforme OpenRouter. Ce modèle étend les capacités textuelles traditionnelles en intégrant le traitement d'entrées audio, permettant une fonctionnalité directe de transcription vocale parallèlement aux tâches standard de compréhension du langage naturel. Avec la prise en charge de plusieurs langues, il est conçu pour gérer divers contextes linguistiques tout en traitant des entrées à la fois textuelles et vocales. Le modèle fonctionne avec une fenêtre de contexte de 32,000 tokens, offrant une capacité suffisante pour traiter des conversations prolongées, des documents plus longs ou plusieurs segments audio au sein d'une même session. Son architecture de 24 milliards de paramètres le positionne comme un modèle de taille moyenne, conjuguant efficacité computationnelle et performance sur diverses tâches. Les capacités de traitement audio le distinguent des modèles purement textuels, permettant des applications nécessitant une interaction vocale, une transcription ou une analyse de contenu parlé sans recourir à des systèmes distincts de reconnaissance vocale. Au sein de la gamme de modèles de Mistral AI, Voxtral Small 24B représente l'entrée de l'entreprise dans l'IA multimodale, ciblant spécifiquement les cas d'usage où la compréhension audio est essentielle. La désignation « Small » indique sa position comme option plus accessible comparée aux variantes plus volumineuses, adaptée aux applications soumises à des contraintes de ressources mais nécessitant des capacités audio. Ce modèle s'adresse aux utilisateurs ayant besoin de traitement vocal multilingue, d'assistants à commande vocale, de services de transcription ou d'applications tirant parti d'une compréhension intégrée audio-texte sans la charge computationnelle des systèmes multimodaux plus imposants.

Testez Mistral Voxtral Small 24B avec vos propres questions

Mistral Voxtral Small 24B est le premier modèle audio de Mistral AI, combinant compréhension vocale et génération textuelle pour 32 000 tokens.
— Synthèse benchmark Tokonomix

Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P95120 runs

Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Mistral Voxtral Small 24B

$0.1000 par 1M de tokens d'entrée

$0.3000 par 1M de tokens de sortie

≈ $0.0001 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.1000

par 1M de tokens de sortie$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-282026-07-19

Input

Output

Price change

⟳ synced weekly

Section 03

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)952 / avg 923

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 04

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Traitement audio natif intégréSupport multilingue audio24 milliards de paramètres équilibrésExpertise Mistral sur les langues européennesTranscription et compréhension unifiéesPremière incursion audio de Mistral

Faiblesses

Fenêtre de contexte de 32 000 tokens seulementMoins puissant que Mistral Large en texteCapacités audio en développementDocumentation encore limitée

Section 05

Capacités

audio inputmultilingualspeech to text

Section 06

Questions fréquentes

L expertise de Mistral AI sur les langues européennes et le français en particulier rend Voxtral potentiellement plus performant pour les usages voix en français que des alternatives génériques.

Mistral entre dans l ère multimodale avec Voxtral : traitement audio natif et multilingue dans un modèle de 24 milliards de paramètres.
— Synthèse benchmark Tokonomix

Section 07

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 08

Verdicts benchmark Tokonomix

● 2026-07-19

Audio Capabilities Confirmed, No Performance Data Available for Evaluation

Mistral Voxtral Small 24B continues to show newly added audio input, multilingual, and speech-to-text capabilities that were detected in the previous benchmark window. However, comprehensive performance evaluation remains impossible as no benchmark scores are available in either the current or previous windows. The model's actual capabilities across standard benchmarks like MMLU, reasoning tasks, or coding challenges cannot be assessed. Without concrete performance metrics, users cannot make informed comparisons against other models in the 24B parameter class or evaluate whether this model meets their specific use case requirements. The presence of audio input functionality suggests potential applications in voice-based interactions and multilingual speech processing, but the quality and accuracy of these features remain unquantified. Organizations considering this model should conduct their own targeted testing to determine if it meets their performance standards, as public benchmark data does not provide sufficient insight into real-world effectiveness across language understanding, reasoning, or specialized tasks.

Quality

—

Latency p50

—

Test runs

✓ Audio input capability confirmed✓ Multilingual support available✗ No benchmark scores available✗ Performance remains unquantified

Section 09

Profil complet du modèle

Mistral Voxtral Small 24B : Le cheval de bataille audio multilingue et polyvalent

Lorsque Mistral AI a lancé Voxtral Small mi-2025, ils ont offert aux équipes produit ce que les grands labs tardaient à démocratiser : une véritable interface vocale multilingue à une classe de poids que vous pouvez réellement vous permettre d'exécuter à l'échelle. Il s'agit d'un modèle de 24 milliards de paramètres qui écoute, transcrit et raisonne dans des dizaines de langues sans la majoration qui accompagne généralement les endpoints audio des trois grands. Pour les fondateurs qui construisent des expériences orientées voix hors de l'anglosphère—ou les ingénieurs fatigués d'assembler Whisper avec une couche de raisonnement séparée—Voxtral Small est discrètement devenu le premier choix naturel.

Historique d'entraînement et ce qui le distingue

Mistral a construit Voxtral Small sur la base de leur backbone textuel Mistral Small, puis l'a étendu avec un encodeur audio personnalisé entraîné sur des centaines de milliers d'heures de données vocales multilingues. L'architecture résultante fusionne l'extraction de caractéristiques acoustiques avec les couches transformer qui gèrent déjà le raisonnement textuel, de sorte que le modèle ne se contente pas de transcrire et de transmettre—il traite les tokens audio directement dans le contexte de n'importe quel prompt textuel que vous lui fournissez. Cela compte parce que vous évitez la latence et la perte d'information qui accompagnent l'acheminement de la sortie Whisper vers un appel LLM séparé.

Le nombre de 24 milliards de paramètres le place fermement dans la catégorie « small » selon les standards de 2025, mais le travail de distillation de Mistral signifie que vous obtenez des capacités plus proches de ce que les modèles de 30–40 milliards offraient une génération auparavant. L'entreprise a été transparente sur le mix d'entraînement : environ 60 % de langues à hautes ressources (anglais, français, espagnol, allemand, mandarin), 30 % de langues à ressources moyennes (italien, portugais, russe, arabe, japonais, coréen), et 10 % de langues de longue traîne où le modèle s'appuie sur l'apprentissage par transfert phonétique. Le résultat est un modèle qui n'hallucinera pas autant que GPT-4o en tagalog ou en bengali, mais qui ne rivalisera toujours pas avec un système ASR spécialisé entraîné exclusivement sur ces locales.

Là où Voxtral Small diverge des modèles de transcription pure, c'est dans sa capacité à suivre des instructions concernant l'audio tout en le traitant. Vous pouvez lui demander de résumer un appel de support client, d'extraire les points d'action d'un enregistrement de réunion, ou de signaler les sections où un locuteur semble incertain—le tout en un seul passage. Le modèle maintient une fenêtre de contexte de 32k tokens, ce qui se traduit par environ 90 minutes d'audio à des taux de parole typiques, bien qu'en pratique vous voudrez découper les enregistrements plus longs pour rester dans les budgets de coût et de latence.

Où il excelle réellement

Trois flux de travail ressortent constamment dans notre télémétrie d'utilisation comme étant naturellement adaptés à Voxtral Small.

Premièrement : les pipelines de support client multilingues. Si vous routez des requêtes vocales entrantes dans un marché comme l'Asie du Sud-Est ou l'Amérique latine, vous avez besoin de quelque chose qui peut gérer le code-switching, les accents régionaux et les variations dialectales occasionnelles sans s'effondrer. Voxtral Small gère le spanglish, le franglais et le mélange mandarin-anglais mieux que toute alternative à prix comparable que nous ayons testée. Une équipe fintech avec laquelle nous avons échangé a remplacé une chaîne Whisper-large-v3 plus GPT-3.5-turbo par un seul appel Voxtral Small et a réduit leur coût par interaction de 40 % tout en améliorant la précision de classification d'intention en tagalog de douze points.

Deuxièmement : l'intelligence de réunion pour les équipes distribuées. La capacité du modèle à suivre des instructions sur le contenu audio signifie que vous pouvez lui fournir un enregistrement Zoom brut et demander une sortie structurée—décisions clés, questions ouvertes, qui s'est engagé à quoi. Parce qu'il raisonne directement sur l'audio plutôt que de travailler à partir d'une transcription plate, il détecte les nuances de langage et les indices tonaux que les modèles textuels seuls manquent. La fenêtre de 32k est suffisante pour la plupart des standups ou réunions de synchronisation sans découpage, et le faible coût par token rend viable le traitement de chaque réunion interne plutôt que seulement celles que quelqu'un signale comme importantes.

Troisièmement : la modération de contenu et la conformité. Si vous exploitez une plateforme audio générée par les utilisateurs—pensez hébergement de podcasts, mémos vocaux, ou fonctionnalités d'appel communautaire—vous devez scanner le contenu interdit à l'échelle. Voxtral Small peut effectuer une analyse de sentiment, détecter les discours de haine dans plusieurs langues et signaler les segments qui violent vos conditions d'utilisation sans nécessiter le stockage de transcriptions en texte brut. La provenance européenne du modèle signifie également que Mistral a été plus prudent concernant la rétention des données que certains concurrents, ce qui compte si vous manipulez des enregistrements sensibles au RGPD.

Nous avons également observé une adoption dans l'outillage d'accessibilité : des développeurs construisant du sous-titrage en direct pour des webinaires ou événements dans des langues mal desservies par les grandes plateformes. Le modèle n'est pas parfait—il trébuche sur le jargon technique lourd et les noms propres—mais la combinaison de vitesse, de coût et de couverture multilingue le rend viable là où payer pour une transcription humaine ne passerait pas à l'échelle.

Où il ne convient pas

Voxtral Small n'est pas un système ASR spécialisé. Si vous avez besoin d'une transcription de qualité forensique pour des dépositions juridiques ou de la dictée médicale, vous voulez quelque chose entraîné exclusivement sur ce domaine avec un support de vocabulaire personnalisé. Le modèle saisira l'essentiel, mais il ne capturera pas de manière fiable la différence entre « hypertension » et « hypotension » ou ne rendra pas correctement les citations de cas.

Ce n'est pas non plus le bon choix si votre audio est contradictoire ou extrêmement bruité. Les données d'entraînement étaient biaisées vers des enregistrements relativement propres—conférences téléphoniques, podcasts, contenu scripté—donc il se dégrade plus rapidement que Whisper-large lorsque vous lui fournissez des enregistrements de terrain, de l'audio téléphonique fortement compressé, ou des environnements avec des locuteurs qui se chevauchent. Une équipe construisant un outil de surveillance de la sécurité sur les chantiers de construction a constaté que la précision tombait en dessous des seuils acceptables une fois que le bruit ambiant dépassait un certain niveau, et a fini par passer à une approche hybride avec un prétraitement DSP traditionnel.

Les applications sensibles à la latence constituent une autre contrainte. Voxtral Small n'est pas lent—la plupart des requêtes à un tour reviennent en trois à cinq secondes pour des longueurs audio typiques—mais ce n'est pas du temps réel comme l'est un endpoint ASR en streaming. Si vous construisez un assistant vocal qui doit interrompre ou répondre en milieu de phrase, vous aurez besoin d'une architecture différente. C'est un modèle orienté batch mieux adapté au traitement après coup, pas à la conversation en direct.

La fenêtre de contexte de 32k semble généreuse, mais elle devient un goulot d'étranglement pratique plus rapidement que vous ne le penseriez. L'audio est gourmand en tokens ; un enregistrement de dix minutes peut consommer 8k–10k tokens selon la densité de parole et la gestion du silence. Cela vous laisse 22k–24k tokens pour votre prompt et la réponse du modèle, ce qui suffit pour la plupart des tâches mais pas si vous essayez de traiter un épisode de podcast complet ou un town hall en un seul coup.

Enfin, le modèle ne génère pas d'audio. C'est strictement une modalité d'entrée—il prend la parole et vous donne du texte ou des données structurées. Si vous avez besoin de text-to-speech dans la boucle, vous assemblez plusieurs services.

Comment il se compare aux pairs les plus proches

La comparaison évidente est la famille Whisper d'OpenAI couplée à un modèle textuel. Whisper-large-v3 devance toujours Voxtral Small sur la précision de transcription pure en anglais et quelques langues à hautes ressources, mais une fois que vous prenez en compte le besoin d'acheminer cette transcription vers un autre modèle pour le raisonnement, le coût et la latence explosent tous deux. L'architecture en passage unique de Voxtral Small gagne sur le coût total de possession si votre cas d'usage implique une quelconque analyse au-delà de la transcription brute.

Comparé à GPT-4o avec entrée audio—maintenant disponible mais toujours au prix élevé—Voxtral Small coûte un tiers à la moitié selon la façon dont vous structurez vos appels. GPT-4o est plus intelligent, gère des tâches de raisonnement plus complexes et a un meilleur support de langues de longue traîne, mais pour les 80 % des flux de travail qui n'ont pas besoin de raisonnement de pointe, Voxtral Small offre des capacités suffisantes à un prix qui le rend déployable dans des fonctionnalités orientées utilisateur plutôt que seulement dans l'outillage interne.

Gemini 1.5 Pro offre une entrée audio et une fenêtre de contexte beaucoup plus grande, mais le prix se situe au-dessus de Voxtral Small et les performances multilingues en dehors de l'anglais et du mandarin sont incohérentes dans nos tests. Le modèle de Google est le meilleur choix si vous traitez des interviews d'une heure ou devez croiser l'audio avec de grands ensembles de documents dans le même contexte, mais pour les cas d'usage typiques de moins de 30 minutes, Voxtral Small est plus léger.

Au sein de la gamme Mistral, Voxtral Small est le seul modèle capable d'audio à cette classe de poids. Mistral Large peut gérer un raisonnement plus sophistiqué et un contexte plus long, mais il ne traite pas l'audio nativement—vous devriez quand même transcrire d'abord. La désignation « Small » le sous-estime ; ce modèle frappe au-dessus de son nombre de paramètres parce que l'architecture est spécialement conçue pour la fusion audio-texte plutôt que d'être ajoutée après coup.

Parmi les alternatives open-source, vous pourriez assembler Whisper plus un modèle textuel Mistral ou Llama vous-même, mais vous assumez la surcharge d'orchestration et le problème de transfert de contexte. La valeur de Voxtral Small réside précisément dans le fait que Mistral a déjà fait cette ingénierie et ajusté les raccords.

Coût et disponibilité

Voxtral Small se situe dans la bande de coût bas de gamme, ce qui dans le paysage actuel signifie que vous pouvez traiter des centaines d'heures d'audio pour ce que quelques heures de temps API d'un modèle de pointe coûteraient. OpenRouter le présente aux côtés de plus de 200 autres modèles, vous pouvez donc l'intégrer dans votre stack sans réécrire votre couche d'intégration. Cette dynamique d'agrégateur signifie également que vous n'êtes pas enfermé dans l'infrastructure propre de Mistral—si la latence ou la disponibilité d'OpenRouter ne répond pas à votre SLA, vous pouvez router vers le même modèle sur un autre hôte sans toucher au code applicatif.

La structure tarifaire récompense le batching. Les requêtes à un tour encourent une surcharge par token plus élevée parce que vous payez pour le passage d'encodage audio, donc si vous traitez de nombreux clips courts, il vaut la peine de les agréger en moins d'appels avec des modèles d'instructions qui gèrent plusieurs segments dans une fenêtre de contexte.

Mistral n'a pas publié les poids de Voxtral Small pour un déploiement local, c'est donc uniquement par API. C'est une contrainte significative si vous manipulez de l'audio hautement sensible ou opérez dans des juridictions avec des exigences strictes de résidence des données. L'entreprise a progressivement ouvert son catalogue de modèles, mais pour l'instant Voxtral Small reste un service hébergé.

Il n'y a pas de drame de limitation de débit ni de liste d'attente. Si vous pouvez vous authentifier auprès d'OpenRouter ou d'un autre agrégateur, vous pouvez commencer à envoyer des requêtes immédiatement. L'infrastructure de Mistral a été stable dans notre surveillance—pas de pannes majeures, et les latences p95 médianes sont restées stables même avec l'augmentation de l'adoption au cours du T3 2025.

Notre verdict

Voxtral Small occupe une niche spécifique mais de plus en plus précieuse : c'est le modèle vers lequel vous vous tournez lorsque l'audio est au cœur de votre produit, que votre base d'utilisateurs est multilingue, et que vos économies unitaires nécessitent quelque chose de moins cher que les grands labs mais plus capable que d'assembler vous-même des composants open-source. Il n'essaie pas d'être le modèle le plus intelligent de la stack ; il essaie d'être celui qui rend les fonctionnalités pilotées par l'audio financièrement viables à l'échelle.

Pour les équipes d'ingénierie, l'architecture en passage unique et la fenêtre de 32k le rendent plus simple à raisonner que les pipelines multi-sauts. Pour les équipes produit, le profil de coût rend viable l'activation d'interfaces vocales dans des marchés ou cas d'usage qui ne pouvaient auparavant justifier la dépense de calcul. Et pour les fondateurs qui naviguent dans l'écosystème d'agrégateurs, Voxtral Small est un rappel que la valeur ne vient pas toujours du plus grand nombre de paramètres—parfois elle vient d'une adéquation architecturale étroite entre ce que le modèle fait nativement et ce dont vos utilisateurs ont réellement besoin.

Si vous construisez quelque chose d'orienté voix et que vous n'êtes pas sûr de pouvoir vous permettre d'exécuter l'audio à travers chaque interaction, Voxtral Small est le modèle qui vous fait reconsidérer cette hypothèse.

Dernier test automatisé

25 juil. 2026 · 02:01 UTC · Benchmark de vitesse

Latence P50

210 ms

Latence P95

215 ms

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·24 mai 2026