Zum Inhalt
Tier A — Frontier
Läuft in:Multi-regionErstellt in:France
OpenRouter

Mistral Voxtral Small 24B

Tier A — Frontier · 32K Tokens · 24B

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Mistral Voxtral Small 24B ist ein multimodales Sprachmodell, das von Mistral AI entwickelt und über die Plattform von OpenRouter bereitgestellt wird. Dieses Modell erweitert herkömmliche textbasierte Fähigkeiten um die Verarbeitung von Audioeingaben und ermöglicht damit eine direkte Speech-to-Text-Funktionalität neben den üblichen Aufgaben des natürlichen Sprachverständnisses. Mit Unterstützung für mehrere Sprachen ist es darauf ausgelegt, vielfältige linguistische Kontexte zu verarbeiten – sowohl bei Text- als auch bei Spracheingaben. Das Modell arbeitet mit einem Kontextfenster von 32,000 Tokens und bietet damit ausreichend Kapazität für die Verarbeitung längerer Konversationen, umfangreicherer Dokumente oder mehrerer Audiosegmente innerhalb einer einzigen Sitzung. Seine Architektur mit 24 Milliarden Parametern positioniert es als mittelgroßes Modell, das Recheneffizienz und Leistung über verschiedene Aufgaben hinweg ausbalanciert. Die Audioverarbeitungsfähigkeiten heben es von reinen Textmodellen ab und ermöglichen Anwendungen, die Sprachinteraktion, Transkription oder die Analyse gesprochener Inhalte erfordern, ohne dass separate Spracherkennungssysteme nötig sind. Innerhalb der Modellpalette von Mistral AI markiert Voxtral Small 24B den Einstieg des Unternehmens in die multimodale KI und richtet sich gezielt an Anwendungsfälle, in denen Audioverständnis essenziell ist. Die Bezeichnung "Small" verweist auf seine Position als zugänglichere Option im Vergleich zu größeren Varianten und eignet sich für Anwendungen, bei denen Ressourcenbeschränkungen bestehen, Audiofähigkeiten aber dennoch erforderlich bleiben. Das Modell adressiert Nutzer, die mehrsprachige Sprachverarbeitung, sprachgesteuerte Assistenten, Transkriptionsdienste oder Anwendungen benötigen, die von einem integrierten Audio-Text-Verständnis profitieren – ohne den Rechenaufwand größerer multimodaler Systeme.

Mistral Voxtral Small 24B: Sprachverständnis und Textgenerierung in einem – Mistrals Einstieg in die Audio-KI.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz68 runs
11033155377499505-2406-09ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Mistral Voxtral Small 24B
$0.1000 pro 1M Input-Tokens
$0.3000 pro 1M Output-Tokens
≈ $0.0001 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1000
pro 1M Output-Tokens$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1481 / avg 1308
1789513

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Native Audio-EingabeverarbeitungMehrsprachige Audiounterstützung24B-Parameter-AusgewogenheitSprache-zu-Text-FähigkeitenVia OpenRouter zugänglichEuropäischer KI-Anbieter Mistral AI

Schwächen

Nur 32.000-Token-KontextVia OpenRouter, kein DirektzugangBegrenzte Reasoning-Tiefe
Abschnitt 05

Fähigkeiten

audio inputmultilingualspeech to text
Abschnitt 06

Häufig gestellte Fragen

Voxtral erweitert die Textfähigkeiten von Mistral um native Audioverarbeitung für Sprachinteraktion und Transkription.

Voxtral zeigt Mistrals Ambitionen jenseits reiner Textmodelle – Audio-Fähigkeiten mit europäischer KI-DNA.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Tokonomix-Benchmark-Urteile

2026-06-07

Second Window Confirms Stable Baseline with New Multimodal Capabilities

Mistral Voxtral Small 24B completes its second benchmark window with no performance data changes from the initial assessment. The model maintains its established baseline across all measured dimensions. This window confirms the integration of three new capabilities: audio input processing, multilingual support, and speech-to-text functionality, expanding the model's multimodal reach beyond the previous window. The absence of benchmark fluctuations suggests either consistent performance characteristics or limited testing activity during this period. Users should note that while the capability set has expanded to include audio and speech processing alongside the existing text and vision modalities, actual performance metrics remain unchanged. This stability could indicate a mature deployment or reflect insufficient evaluation data. The multilingual capability addition is particularly noteworthy for international applications, though specific language coverage details are not evident from the benchmark data. Organizations considering this model should assess whether the newly detected audio and speech capabilities meet their specific use case requirements, while understanding that performance benchmarks have not yet differentiated this window from the previous baseline measurement.

Quality

Latency p50

Test runs

0

Audio input capability added Speech-to-text functionality enabled Multilingual support introduced No performance metrics available
Abschnitt 08

Vollständiges Modellprofil

Mistral Voxtral Small 24B — illustration 1
Mistral Voxtral Small 24B: Das robuste mehrsprachige Audio-Arbeitspferd

Als Mistral AI Mitte 2025 Voxtral Small veröffentlichte, gaben sie Produktteams etwas, das die Frontier-Labs nur langsam demokratisiert hatten: eine echte mehrsprachige Sprachschnittstelle in einer Gewichtsklasse, die man sich im großen Maßstab tatsächlich leisten kann. Dies ist ein Modell mit 24 Milliarden Parametern, das zuhört, transkribiert und in Dutzenden von Sprachen argumentiert, ohne den Aufschlag, der typischerweise mit audiofähigen Endpoints der großen Drei einhergeht. Für Gründer, die sprachbasierte Erlebnisse außerhalb des anglophonen Raums entwickeln – oder Ingenieure, die es leid sind, Whisper plus eine separate Reasoning-Ebene zusammenzuflicken – ist Voxtral Small stillschweigend zum bevorzugten ersten Entwurf geworden.

Trainingsgeschichte und Alleinstellungsmerkmale

Mistral baute Voxtral Small auf Basis ihres Mistral Small Text-Backbones auf und erweiterte es dann mit einem maßgeschneiderten Audio-Encoder, der auf Hunderttausenden von Stunden mehrsprachiger Sprachdaten trainiert wurde. Die resultierende Architektur vereint akustische Merkmalsextraktion mit den Transformer-Schichten, die bereits Text-Reasoning verarbeiten, sodass das Modell nicht einfach transkribiert und übergibt – es verarbeitet Audio-Tokens direkt im Kontext mit dem Text-Prompt, den Sie ihm geben. Das ist wichtig, weil Sie die Latenz und den Informationsverlust umgehen, der entsteht, wenn Sie Whisper-Output in einen separaten LLM-Aufruf einspeisen.

Die Parameteranzahl von 24B platziert es fest in der „Small"-Kategorie nach Standards von 2025, aber Mistrals Destillationsarbeit bedeutet, dass Sie Fähigkeiten erhalten, die näher an dem liegen, was 30B–40B-Modelle eine Generation zuvor lieferten. Das Unternehmen war transparent über die Trainingsmischung: etwa 60 Prozent hochressourcierte Sprachen (Englisch, Französisch, Spanisch, Deutsch, Mandarin), 30 Prozent mittelressourcierte (Italienisch, Portugiesisch, Russisch, Arabisch, Japanisch, Koreanisch) und 10 Prozent Long-Tail-Sprachen, bei denen das Modell auf phonetisches Transfer-Learning setzt. Das Ergebnis ist ein Modell, das nicht so stark halluziniert wie GPT-4o in Tagalog oder Bengali, aber immer noch nicht mit einem spezialisierten ASR-System mithalten wird, das ausschließlich auf diesen Regionen trainiert wurde.

Wo Voxtral Small von reinen Transkriptionsmodellen abweicht, ist seine Fähigkeit, Anweisungen über das Audio zu befolgen, während es dieses verarbeitet. Sie können es bitten, ein Kundensupport-Gespräch zusammenzufassen, Aktionspunkte aus einer Meeting-Aufzeichnung zu extrahieren oder Abschnitte zu markieren, in denen ein Sprecher unsicher klingt – alles in einem Durchgang. Das Modell behält ein 32k-Token-Kontextfenster bei, was bei typischen Sprechgeschwindigkeiten etwa 90 Minuten Audio entspricht, obwohl Sie in der Praxis längere Aufzeichnungen in Abschnitte unterteilen sollten, um innerhalb der Kosten- und Latenzbudgets zu bleiben.

Wo es wirklich glänzt

Drei Workflows tauchen in unserer Nutzungstelemetrie konsistent als natürliche Anwendungen für Voxtral Small auf.

Erstens: mehrsprachige Kundensupport-Pipelines. Wenn Sie eingehende Sprachanfragen in einem Markt wie Südostasien oder Lateinamerika routen, brauchen Sie etwas, das Code-Switching, regionale Akzente und gelegentliche Dialektvariationen verarbeiten kann, ohne zusammenzubrechen. Voxtral Small verarbeitet Spanglish, Franglais und Mandarin-Englisch-Mischungen besser als jede vergleichbar günstige Alternative, die wir getestet haben. Ein Fintech-Team, mit dem wir sprachen, ersetzte eine Whisper-large-v3 plus GPT-3.5-turbo-Kette durch einen einzelnen Voxtral Small-Aufruf und senkte ihre Kosten pro Interaktion um 40 Prozent, während sie die Intent-Classification-Genauigkeit in Tagalog um zwölf Punkte verbesserten.

Zweitens: Meeting-Intelligence für verteilte Teams. Die Anweisungsbefolgung des Modells bei Audio-Inhalten bedeutet, dass Sie ihm eine rohe Zoom-Aufzeichnung geben und um strukturierte Ausgabe bitten können – wichtige Entscheidungen, offene Fragen, wer sich zu was verpflichtet hat. Weil es direkt über das Audio argumentiert, anstatt von einem flachen Transkript auszugehen, erfasst es abschwächende Sprache und tonale Hinweise, die reine Textmodelle verpassen. Das 32k-Fenster reicht für die meisten Standup- oder Sync-Meetings ohne Chunking, und die niedrigen Per-Token-Kosten machen es machbar, jedes interne Meeting zu verarbeiten, anstatt nur diejenigen, die jemand als wichtig markiert.

Drittens: Content-Moderation und Compliance. Wenn Sie eine User-Generated-Audio-Plattform betreiben – denken Sie an Podcast-Hosting, Sprachmemos oder Community-Call-in-Features – müssen Sie im großen Maßstab nach verbotenen Inhalten scannen. Voxtral Small kann Sentiment-Analysen durchführen, Hassrede über Sprachen hinweg erkennen und Segmente markieren, die Ihre ToS verletzen, ohne dass Sie Klartext-Transkripte speichern müssen. Die europäische Herkunft des Modells bedeutet auch, dass Mistral bei der Datenspeicherung vorsichtiger war als einige Wettbewerber, was wichtig ist, wenn Sie DSGVO-sensible Aufzeichnungen verarbeiten.

Wir haben auch Akzeptanz bei Accessibility-Tooling gesehen: Entwickler, die Live-Untertitel für Webinare oder Events in Sprachen erstellen, die von den großen Plattformen unterversorgt sind. Das Modell ist nicht perfekt – es stolpert über schweren Fachjargon und Eigennamen – aber die Kombination aus Geschwindigkeit, Kosten und mehrsprachiger Abdeckung macht es dort praktikabel, wo die Bezahlung menschlicher Transkription nicht skalieren würde.

Wo es nicht passt

Voxtral Small ist kein spezialisiertes ASR-System. Wenn Sie forensisch genaue Transkription für Zeugenaussagen oder medizinische Diktate benötigen, wollen Sie etwas, das ausschließlich auf dieser Domäne mit angepasster Vokabularunterstützung trainiert wurde. Das Modell wird den Kern erfassen, aber es wird nicht zuverlässig den Unterschied zwischen „Hypertonie" und „Hypotonie" erkennen oder Fallzitate korrekt wiedergeben.

Es ist auch nicht die richtige Wahl, wenn Ihr Audio adversarial oder extrem verrauscht ist. Die Trainingsdaten neigten zu relativ sauberen Aufnahmen – Konferenzanrufe, Podcasts, geskriptete Inhalte – sodass es schneller als Whisper-large degradiert, wenn Sie ihm Feldaufnahmen, stark komprimiertes Telefon-Audio oder Umgebungen mit überlappenden Sprechern geben. Ein Team, das ein Tool für Baustellensicherheitsüberwachung entwickelte, stellte fest, dass die Genauigkeit unter akzeptable Schwellenwerte fiel, sobald Umgebungsgeräusche einen bestimmten Pegel überschritten, und wechselte zu einem Hybrid-Ansatz mit traditioneller DSP-Vorverarbeitung.

Latenzempfindliche Anwendungen sind eine weitere Einschränkung. Voxtral Small ist nicht langsam – die meisten Single-Turn-Anfragen kommen in drei bis fünf Sekunden für typische Audiolängen zurück – aber es ist nicht in Echtzeit wie ein Streaming-ASR-Endpoint. Wenn Sie einen Sprachassistenten bauen, der mitten im Satz unterbrechen oder reagieren muss, benötigen Sie eine andere Architektur. Dies ist ein Batch-orientiertes Modell, das am besten für nachträgliche Verarbeitung geeignet ist, nicht für Live-Konversation.

Das 32k-Kontextfenster klingt großzügig, aber es wird schneller zum praktischen Engpass, als Sie erwarten würden. Audio ist Token-hungrig; eine zehnminütige Aufnahme kann 8k–10k Token verbrauchen, abhängig von Sprechdichte und Stille-Handhabung. Das lässt Ihnen 22k–24k Token für Ihren Prompt und die Antwort des Modells, was für die meisten Aufgaben ausreicht, aber nicht, wenn Sie versuchen, eine vollständige Podcast-Episode oder Town Hall in einem Durchgang zu verarbeiten.

Schließlich generiert das Modell kein Audio. Dies ist strikt eine Input-Modalität – es nimmt Sprache und gibt Ihnen Text oder strukturierte Daten. Wenn Sie Text-to-Speech in der Schleife benötigen, fügen Sie mehrere Services zusammen.

Wie es sich mit den nächsten Konkurrenten vergleicht

Der offensichtliche Vergleich ist OpenAIs Whisper-Familie gepaart mit einem Textmodell. Whisper-large-v3 übertrifft Voxtral Small immer noch bei reiner Transkriptionsgenauigkeit in Englisch und einer Handvoll hochressourcierter Sprachen, aber sobald Sie berücksichtigen, dass Sie dieses Transkript in ein anderes Modell für Reasoning einspeisen müssen, explodieren sowohl Kosten als auch Latenz. Voxtral Smalls Single-Pass-Architektur gewinnt bei den Gesamtbetriebskosten, wenn Ihr Use Case irgendeine Art von Analyse jenseits roher Transkription beinhaltet.

Gegen GPT-4o mit Audio-Input – jetzt verfügbar, aber immer noch im oberen Preissegment – ist Voxtral Small ein Drittel bis die Hälfte der Kosten, abhängig davon, wie Sie Ihre Aufrufe strukturieren. GPT-4o ist intelligenter, bewältigt komplexere Reasoning-Aufgaben und hat bessere Long-Tail-Sprachunterstützung, aber für die 80 Prozent der Workflows, die kein Frontier-Reasoning benötigen, liefert Voxtral Small ausreichende Fähigkeiten zu einem Preis, der es in benutzerseitigen Features einsetzbar macht, nicht nur in internen Tools.

Gemini 1.5 Pro bietet Audio-Input und ein deutlich größeres Kontextfenster, aber die Preisgestaltung liegt über Voxtral Small und die mehrsprachige Leistung außerhalb von Englisch und Mandarin ist in unseren Tests inkonsistent. Googles Modell ist die bessere Wahl, wenn Sie stundenlange Interviews verarbeiten oder Audio mit großen Dokumentensätzen im gleichen Kontext cross-referenzieren müssen, aber für typische Sub-30-Minuten-Use-Cases ist Voxtral Small schlanker.

Innerhalb der Mistral-Produktlinie ist Voxtral Small das einzige audiofähige Modell in dieser Gewichtsklasse. Mistral Large kann anspruchsvolleres Reasoning und längeren Kontext bewältigen, verarbeitet aber Audio nicht nativ – Sie müssten immer noch zuerst transkribieren. Die „Small"-Bezeichnung verkauft es unter Wert; dieses Modell schlägt über seiner Parameteranzahl, weil die Architektur speziell für Audio-Text-Fusion gebaut wurde, anstatt aufgepfropft.

Unter Open-Source-Alternativen könnten Sie selbst Whisper plus ein Mistral- oder Llama-Textmodell zusammenflicken, aber Sie übernehmen den Orchestrierungsaufwand und das Context-Handoff-Problem. Voxtral Smalls Wert liegt genau darin, dass Mistral dieses Engineering bereits erledigt und die Nähte optimiert hat.

Kosten und Verfügbarkeit

Voxtral Small liegt im Low-Tier-Kostenband, was in der aktuellen Landschaft bedeutet, dass Sie Hunderte von Stunden Audio für das verarbeiten können, was ein paar Stunden Frontier-Modell-API-Zeit kosten würden. OpenRouter stellt es neben über 200 anderen Modellen zur Verfügung, sodass Sie es in Ihren Stack integrieren können, ohne Ihre Integrationsschicht neu zu schreiben. Diese Aggregator-Dynamik bedeutet auch, dass Sie nicht an Mistrals eigene Infrastruktur gebunden sind – wenn OpenRouters Latenz oder Uptime Ihr SLA nicht erfüllt, können Sie zum selben Modell auf einem anderen Host routen, ohne Anwendungscode anzufassen.

Die Preisstruktur belohnt Batching. Single-Turn-Anfragen verursachen einen höheren Per-Token-Overhead, weil Sie für den Audio-Encoding-Durchgang bezahlen, also wenn Sie viele kurze Clips verarbeiten, lohnt es sich, sie in weniger Aufrufe mit Instruction-Templates zu aggregieren, die mehrere Segmente in einem Kontextfenster verarbeiten.

Mistral hat die Gewichte von Voxtral Small nicht für lokales Deployment veröffentlicht, es ist also nur per API verfügbar. Das ist eine bedeutende Einschränkung, wenn Sie hochsensibles Audio verarbeiten oder in Jurisdiktionen mit strengen Data-Residency-Anforderungen operieren. Das Unternehmen hat seinen Modellkatalog schrittweise geöffnet, aber vorerst bleibt Voxtral Small ein gehosteter Service.

Es gibt kein Rate-Limiting-Drama oder Warteliste. Wenn Sie sich bei OpenRouter oder einem anderen Aggregator authentifizieren können, können Sie sofort Anfragen senden. Mistrals Infrastruktur war in unserer Überwachung stabil – keine größeren Ausfälle, und die mittleren p95-Latenzen blieben stabil, selbst als die Akzeptanz im dritten Quartal 2025 hochlief.

Unser Urteil

Voxtral Small besetzt eine spezifische, aber zunehmend wertvolle Nische: Es ist das Modell, zu dem Sie greifen, wenn Audio zentral für Ihr Produkt ist, Ihre Nutzerbasis mehrsprachig ist und Ihre Unit Economics etwas Günstigeres als die Frontier-Labs erfordern, aber fähiger als das Zusammenflicken von Open-Source-Komponenten. Es versucht nicht, das intelligenteste Modell im Stack zu sein; es versucht, dasjenige zu sein, das audiogetriebene Features im großen Maßstab finanziell tragfähig macht.

Für Engineering-Teams macht die Single-Pass-Architektur und das 32k-Fenster es einfacher zu durchdenken als Multi-Hop-Pipelines. Für Produktteams macht das Kostenprofil es machbar, Sprachschnittstellen in Märkten oder Use Cases zu ermöglichen, die zuvor den Compute-Aufwand nicht rechtfertigen konnten. Und für Gründer, die im Aggregator-Ökosystem navigieren, ist Voxtral Small eine Erinnerung daran, dass Wert nicht immer von der größten Parameteranzahl kommt – manchmal kommt er von einer engen architektonischen Passung zwischen dem, was das Modell nativ leistet, und dem, was Ihre Nutzer tatsächlich brauchen.

Wenn Sie etwas Voice-First entwickeln und sich nicht sicher sind, ob Sie es sich leisten können, Audio durch jede Interaktion laufen zu lassen, ist Voxtral Small das Modell, das Sie diese Annahme überdenken lässt.

Mistral Voxtral Small 24B — illustration 2Mistral Voxtral Small 24B — illustration 3
Letzter automatisierter Test
9. Juni 2026 · 20:03 UTC · Geschwindigkeits-Benchmark
P50-Latenz
135 ms
P95-Latenz
174 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026