Welche Sprachen unterstützt Voxtral Small?

Es ist für mehrsprachige Audioverarbeitung ausgelegt, mit besonderer Stärke in europäischen Sprachen durch Mistrals Trainingsansatz.

Warum ist das Kontextfenster kleiner als bei anderen Mistral-Modellen?

32.000 Tokens ist für die meisten TTS/STT-Anwendungsfälle ausreichend; größere Kontexte erhöhen den Ressourcenbedarf.

Ist Voxtral für Produktion geeignet?

Als neueres Modell in Mistrals Portfolio ist es über OpenRouter zugänglich; produktiver Einsatz sollte evaluiert werden.

Tier A — Frontier

Läuft in:Multi-regionErstellt in:France

OpenRouter

Mistral Voxtral Small 24B

Tier A — Frontier · 32K Tokens · 24B

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 24. Mai 2026·Zuletzt geprüft 24. Mai 2026

Mistral Voxtral Small 24B ist ein multimodales Sprachmodell, das von Mistral AI entwickelt und über die Plattform von OpenRouter bereitgestellt wird. Dieses Modell erweitert herkömmliche textbasierte Fähigkeiten um die Verarbeitung von Audioeingaben und ermöglicht damit eine direkte Speech-to-Text-Funktionalität neben den üblichen Aufgaben des natürlichen Sprachverständnisses. Mit Unterstützung für mehrere Sprachen ist es darauf ausgelegt, vielfältige linguistische Kontexte zu verarbeiten – sowohl bei Text- als auch bei Spracheingaben. Das Modell arbeitet mit einem Kontextfenster von 32,000 Tokens und bietet damit ausreichend Kapazität für die Verarbeitung längerer Konversationen, umfangreicherer Dokumente oder mehrerer Audiosegmente innerhalb einer einzigen Sitzung. Seine Architektur mit 24 Milliarden Parametern positioniert es als mittelgroßes Modell, das Recheneffizienz und Leistung über verschiedene Aufgaben hinweg ausbalanciert. Die Audioverarbeitungsfähigkeiten heben es von reinen Textmodellen ab und ermöglichen Anwendungen, die Sprachinteraktion, Transkription oder die Analyse gesprochener Inhalte erfordern, ohne dass separate Spracherkennungssysteme nötig sind. Innerhalb der Modellpalette von Mistral AI markiert Voxtral Small 24B den Einstieg des Unternehmens in die multimodale KI und richtet sich gezielt an Anwendungsfälle, in denen Audioverständnis essenziell ist. Die Bezeichnung "Small" verweist auf seine Position als zugänglichere Option im Vergleich zu größeren Varianten und eignet sich für Anwendungen, bei denen Ressourcenbeschränkungen bestehen, Audiofähigkeiten aber dennoch erforderlich bleiben. Das Modell adressiert Nutzer, die mehrsprachige Sprachverarbeitung, sprachgesteuerte Assistenten, Transkriptionsdienste oder Anwendungen benötigen, die von einem integrierten Audio-Text-Verständnis profitieren – ohne den Rechenaufwand größerer multimodaler Systeme.

Mistral Voxtral Small 24B mit eigenen Fragen testen

Mistral Voxtral Small 24B: Sprachverständnis und Textgenerierung in einem – Mistrals Einstieg in die Audio-KI.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz120 runs

Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Mistral Voxtral Small 24B

$0.1000 pro 1M Input-Tokens

$0.3000 pro 1M Output-Tokens

≈ $0.0001 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.1000

pro 1M Output-Tokens$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-282026-07-19

Input

Output

Price change

⟳ synced weekly

Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)952 / avg 923

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Native Audio-EingabeverarbeitungMehrsprachige Audiounterstützung24B-Parameter-AusgewogenheitSprache-zu-Text-FähigkeitenVia OpenRouter zugänglichEuropäischer KI-Anbieter Mistral AI

Schwächen

Nur 32.000-Token-KontextVia OpenRouter, kein DirektzugangBegrenzte Reasoning-Tiefe

Abschnitt 05

Fähigkeiten

audio inputmultilingualspeech to text

Abschnitt 06

Häufig gestellte Fragen

Voxtral erweitert die Textfähigkeiten von Mistral um native Audioverarbeitung für Sprachinteraktion und Transkription.

Voxtral zeigt Mistrals Ambitionen jenseits reiner Textmodelle – Audio-Fähigkeiten mit europäischer KI-DNA.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 07

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 08

Tokonomix-Benchmark-Urteile

● 2026-07-19

Audio Capabilities Confirmed, No Performance Data Available for Evaluation

Mistral Voxtral Small 24B continues to show newly added audio input, multilingual, and speech-to-text capabilities that were detected in the previous benchmark window. However, comprehensive performance evaluation remains impossible as no benchmark scores are available in either the current or previous windows. The model's actual capabilities across standard benchmarks like MMLU, reasoning tasks, or coding challenges cannot be assessed. Without concrete performance metrics, users cannot make informed comparisons against other models in the 24B parameter class or evaluate whether this model meets their specific use case requirements. The presence of audio input functionality suggests potential applications in voice-based interactions and multilingual speech processing, but the quality and accuracy of these features remain unquantified. Organizations considering this model should conduct their own targeted testing to determine if it meets their performance standards, as public benchmark data does not provide sufficient insight into real-world effectiveness across language understanding, reasoning, or specialized tasks.

Quality

—

Latency p50

—

Test runs

✓ Audio input capability confirmed✓ Multilingual support available✗ No benchmark scores available✗ Performance remains unquantified

Abschnitt 09

Vollständiges Modellprofil

Mistral Voxtral Small 24B: Das robuste mehrsprachige Audio-Arbeitspferd

Als Mistral AI Mitte 2025 Voxtral Small veröffentlichte, gaben sie Produktteams etwas, das die Frontier-Labs nur langsam demokratisiert hatten: eine echte mehrsprachige Sprachschnittstelle in einer Gewichtsklasse, die man sich im großen Maßstab tatsächlich leisten kann. Dies ist ein Modell mit 24 Milliarden Parametern, das zuhört, transkribiert und in Dutzenden von Sprachen argumentiert, ohne den Aufschlag, der typischerweise mit audiofähigen Endpoints der großen Drei einhergeht. Für Gründer, die sprachbasierte Erlebnisse außerhalb des anglophonen Raums entwickeln – oder Ingenieure, die es leid sind, Whisper plus eine separate Reasoning-Ebene zusammenzuflicken – ist Voxtral Small stillschweigend zum bevorzugten ersten Entwurf geworden.

Trainingsgeschichte und Alleinstellungsmerkmale

Mistral baute Voxtral Small auf Basis ihres Mistral Small Text-Backbones auf und erweiterte es dann mit einem maßgeschneiderten Audio-Encoder, der auf Hunderttausenden von Stunden mehrsprachiger Sprachdaten trainiert wurde. Die resultierende Architektur vereint akustische Merkmalsextraktion mit den Transformer-Schichten, die bereits Text-Reasoning verarbeiten, sodass das Modell nicht einfach transkribiert und übergibt – es verarbeitet Audio-Tokens direkt im Kontext mit dem Text-Prompt, den Sie ihm geben. Das ist wichtig, weil Sie die Latenz und den Informationsverlust umgehen, der entsteht, wenn Sie Whisper-Output in einen separaten LLM-Aufruf einspeisen.

Die Parameteranzahl von 24B platziert es fest in der „Small"-Kategorie nach Standards von 2025, aber Mistrals Destillationsarbeit bedeutet, dass Sie Fähigkeiten erhalten, die näher an dem liegen, was 30B–40B-Modelle eine Generation zuvor lieferten. Das Unternehmen war transparent über die Trainingsmischung: etwa 60 Prozent hochressourcierte Sprachen (Englisch, Französisch, Spanisch, Deutsch, Mandarin), 30 Prozent mittelressourcierte (Italienisch, Portugiesisch, Russisch, Arabisch, Japanisch, Koreanisch) und 10 Prozent Long-Tail-Sprachen, bei denen das Modell auf phonetisches Transfer-Learning setzt. Das Ergebnis ist ein Modell, das nicht so stark halluziniert wie GPT-4o in Tagalog oder Bengali, aber immer noch nicht mit einem spezialisierten ASR-System mithalten wird, das ausschließlich auf diesen Regionen trainiert wurde.

Wo Voxtral Small von reinen Transkriptionsmodellen abweicht, ist seine Fähigkeit, Anweisungen über das Audio zu befolgen, während es dieses verarbeitet. Sie können es bitten, ein Kundensupport-Gespräch zusammenzufassen, Aktionspunkte aus einer Meeting-Aufzeichnung zu extrahieren oder Abschnitte zu markieren, in denen ein Sprecher unsicher klingt – alles in einem Durchgang. Das Modell behält ein 32k-Token-Kontextfenster bei, was bei typischen Sprechgeschwindigkeiten etwa 90 Minuten Audio entspricht, obwohl Sie in der Praxis längere Aufzeichnungen in Abschnitte unterteilen sollten, um innerhalb der Kosten- und Latenzbudgets zu bleiben.

Wo es wirklich glänzt

Drei Workflows tauchen in unserer Nutzungstelemetrie konsistent als natürliche Anwendungen für Voxtral Small auf.

Erstens: mehrsprachige Kundensupport-Pipelines. Wenn Sie eingehende Sprachanfragen in einem Markt wie Südostasien oder Lateinamerika routen, brauchen Sie etwas, das Code-Switching, regionale Akzente und gelegentliche Dialektvariationen verarbeiten kann, ohne zusammenzubrechen. Voxtral Small verarbeitet Spanglish, Franglais und Mandarin-Englisch-Mischungen besser als jede vergleichbar günstige Alternative, die wir getestet haben. Ein Fintech-Team, mit dem wir sprachen, ersetzte eine Whisper-large-v3 plus GPT-3.5-turbo-Kette durch einen einzelnen Voxtral Small-Aufruf und senkte ihre Kosten pro Interaktion um 40 Prozent, während sie die Intent-Classification-Genauigkeit in Tagalog um zwölf Punkte verbesserten.

Zweitens: Meeting-Intelligence für verteilte Teams. Die Anweisungsbefolgung des Modells bei Audio-Inhalten bedeutet, dass Sie ihm eine rohe Zoom-Aufzeichnung geben und um strukturierte Ausgabe bitten können – wichtige Entscheidungen, offene Fragen, wer sich zu was verpflichtet hat. Weil es direkt über das Audio argumentiert, anstatt von einem flachen Transkript auszugehen, erfasst es abschwächende Sprache und tonale Hinweise, die reine Textmodelle verpassen. Das 32k-Fenster reicht für die meisten Standup- oder Sync-Meetings ohne Chunking, und die niedrigen Per-Token-Kosten machen es machbar, jedes interne Meeting zu verarbeiten, anstatt nur diejenigen, die jemand als wichtig markiert.

Drittens: Content-Moderation und Compliance. Wenn Sie eine User-Generated-Audio-Plattform betreiben – denken Sie an Podcast-Hosting, Sprachmemos oder Community-Call-in-Features – müssen Sie im großen Maßstab nach verbotenen Inhalten scannen. Voxtral Small kann Sentiment-Analysen durchführen, Hassrede über Sprachen hinweg erkennen und Segmente markieren, die Ihre ToS verletzen, ohne dass Sie Klartext-Transkripte speichern müssen. Die europäische Herkunft des Modells bedeutet auch, dass Mistral bei der Datenspeicherung vorsichtiger war als einige Wettbewerber, was wichtig ist, wenn Sie DSGVO-sensible Aufzeichnungen verarbeiten.

Wir haben auch Akzeptanz bei Accessibility-Tooling gesehen: Entwickler, die Live-Untertitel für Webinare oder Events in Sprachen erstellen, die von den großen Plattformen unterversorgt sind. Das Modell ist nicht perfekt – es stolpert über schweren Fachjargon und Eigennamen – aber die Kombination aus Geschwindigkeit, Kosten und mehrsprachiger Abdeckung macht es dort praktikabel, wo die Bezahlung menschlicher Transkription nicht skalieren würde.

Wo es nicht passt

Voxtral Small ist kein spezialisiertes ASR-System. Wenn Sie forensisch genaue Transkription für Zeugenaussagen oder medizinische Diktate benötigen, wollen Sie etwas, das ausschließlich auf dieser Domäne mit angepasster Vokabularunterstützung trainiert wurde. Das Modell wird den Kern erfassen, aber es wird nicht zuverlässig den Unterschied zwischen „Hypertonie" und „Hypotonie" erkennen oder Fallzitate korrekt wiedergeben.

Es ist auch nicht die richtige Wahl, wenn Ihr Audio adversarial oder extrem verrauscht ist. Die Trainingsdaten neigten zu relativ sauberen Aufnahmen – Konferenzanrufe, Podcasts, geskriptete Inhalte – sodass es schneller als Whisper-large degradiert, wenn Sie ihm Feldaufnahmen, stark komprimiertes Telefon-Audio oder Umgebungen mit überlappenden Sprechern geben. Ein Team, das ein Tool für Baustellensicherheitsüberwachung entwickelte, stellte fest, dass die Genauigkeit unter akzeptable Schwellenwerte fiel, sobald Umgebungsgeräusche einen bestimmten Pegel überschritten, und wechselte zu einem Hybrid-Ansatz mit traditioneller DSP-Vorverarbeitung.

Latenzempfindliche Anwendungen sind eine weitere Einschränkung. Voxtral Small ist nicht langsam – die meisten Single-Turn-Anfragen kommen in drei bis fünf Sekunden für typische Audiolängen zurück – aber es ist nicht in Echtzeit wie ein Streaming-ASR-Endpoint. Wenn Sie einen Sprachassistenten bauen, der mitten im Satz unterbrechen oder reagieren muss, benötigen Sie eine andere Architektur. Dies ist ein Batch-orientiertes Modell, das am besten für nachträgliche Verarbeitung geeignet ist, nicht für Live-Konversation.

Das 32k-Kontextfenster klingt großzügig, aber es wird schneller zum praktischen Engpass, als Sie erwarten würden. Audio ist Token-hungrig; eine zehnminütige Aufnahme kann 8k–10k Token verbrauchen, abhängig von Sprechdichte und Stille-Handhabung. Das lässt Ihnen 22k–24k Token für Ihren Prompt und die Antwort des Modells, was für die meisten Aufgaben ausreicht, aber nicht, wenn Sie versuchen, eine vollständige Podcast-Episode oder Town Hall in einem Durchgang zu verarbeiten.

Schließlich generiert das Modell kein Audio. Dies ist strikt eine Input-Modalität – es nimmt Sprache und gibt Ihnen Text oder strukturierte Daten. Wenn Sie Text-to-Speech in der Schleife benötigen, fügen Sie mehrere Services zusammen.

Wie es sich mit den nächsten Konkurrenten vergleicht

Der offensichtliche Vergleich ist OpenAIs Whisper-Familie gepaart mit einem Textmodell. Whisper-large-v3 übertrifft Voxtral Small immer noch bei reiner Transkriptionsgenauigkeit in Englisch und einer Handvoll hochressourcierter Sprachen, aber sobald Sie berücksichtigen, dass Sie dieses Transkript in ein anderes Modell für Reasoning einspeisen müssen, explodieren sowohl Kosten als auch Latenz. Voxtral Smalls Single-Pass-Architektur gewinnt bei den Gesamtbetriebskosten, wenn Ihr Use Case irgendeine Art von Analyse jenseits roher Transkription beinhaltet.

Gegen GPT-4o mit Audio-Input – jetzt verfügbar, aber immer noch im oberen Preissegment – ist Voxtral Small ein Drittel bis die Hälfte der Kosten, abhängig davon, wie Sie Ihre Aufrufe strukturieren. GPT-4o ist intelligenter, bewältigt komplexere Reasoning-Aufgaben und hat bessere Long-Tail-Sprachunterstützung, aber für die 80 Prozent der Workflows, die kein Frontier-Reasoning benötigen, liefert Voxtral Small ausreichende Fähigkeiten zu einem Preis, der es in benutzerseitigen Features einsetzbar macht, nicht nur in internen Tools.

Gemini 1.5 Pro bietet Audio-Input und ein deutlich größeres Kontextfenster, aber die Preisgestaltung liegt über Voxtral Small und die mehrsprachige Leistung außerhalb von Englisch und Mandarin ist in unseren Tests inkonsistent. Googles Modell ist die bessere Wahl, wenn Sie stundenlange Interviews verarbeiten oder Audio mit großen Dokumentensätzen im gleichen Kontext cross-referenzieren müssen, aber für typische Sub-30-Minuten-Use-Cases ist Voxtral Small schlanker.

Innerhalb der Mistral-Produktlinie ist Voxtral Small das einzige audiofähige Modell in dieser Gewichtsklasse. Mistral Large kann anspruchsvolleres Reasoning und längeren Kontext bewältigen, verarbeitet aber Audio nicht nativ – Sie müssten immer noch zuerst transkribieren. Die „Small"-Bezeichnung verkauft es unter Wert; dieses Modell schlägt über seiner Parameteranzahl, weil die Architektur speziell für Audio-Text-Fusion gebaut wurde, anstatt aufgepfropft.

Unter Open-Source-Alternativen könnten Sie selbst Whisper plus ein Mistral- oder Llama-Textmodell zusammenflicken, aber Sie übernehmen den Orchestrierungsaufwand und das Context-Handoff-Problem. Voxtral Smalls Wert liegt genau darin, dass Mistral dieses Engineering bereits erledigt und die Nähte optimiert hat.

Kosten und Verfügbarkeit

Voxtral Small liegt im Low-Tier-Kostenband, was in der aktuellen Landschaft bedeutet, dass Sie Hunderte von Stunden Audio für das verarbeiten können, was ein paar Stunden Frontier-Modell-API-Zeit kosten würden. OpenRouter stellt es neben über 200 anderen Modellen zur Verfügung, sodass Sie es in Ihren Stack integrieren können, ohne Ihre Integrationsschicht neu zu schreiben. Diese Aggregator-Dynamik bedeutet auch, dass Sie nicht an Mistrals eigene Infrastruktur gebunden sind – wenn OpenRouters Latenz oder Uptime Ihr SLA nicht erfüllt, können Sie zum selben Modell auf einem anderen Host routen, ohne Anwendungscode anzufassen.

Die Preisstruktur belohnt Batching. Single-Turn-Anfragen verursachen einen höheren Per-Token-Overhead, weil Sie für den Audio-Encoding-Durchgang bezahlen, also wenn Sie viele kurze Clips verarbeiten, lohnt es sich, sie in weniger Aufrufe mit Instruction-Templates zu aggregieren, die mehrere Segmente in einem Kontextfenster verarbeiten.

Mistral hat die Gewichte von Voxtral Small nicht für lokales Deployment veröffentlicht, es ist also nur per API verfügbar. Das ist eine bedeutende Einschränkung, wenn Sie hochsensibles Audio verarbeiten oder in Jurisdiktionen mit strengen Data-Residency-Anforderungen operieren. Das Unternehmen hat seinen Modellkatalog schrittweise geöffnet, aber vorerst bleibt Voxtral Small ein gehosteter Service.

Es gibt kein Rate-Limiting-Drama oder Warteliste. Wenn Sie sich bei OpenRouter oder einem anderen Aggregator authentifizieren können, können Sie sofort Anfragen senden. Mistrals Infrastruktur war in unserer Überwachung stabil – keine größeren Ausfälle, und die mittleren p95-Latenzen blieben stabil, selbst als die Akzeptanz im dritten Quartal 2025 hochlief.

Unser Urteil

Voxtral Small besetzt eine spezifische, aber zunehmend wertvolle Nische: Es ist das Modell, zu dem Sie greifen, wenn Audio zentral für Ihr Produkt ist, Ihre Nutzerbasis mehrsprachig ist und Ihre Unit Economics etwas Günstigeres als die Frontier-Labs erfordern, aber fähiger als das Zusammenflicken von Open-Source-Komponenten. Es versucht nicht, das intelligenteste Modell im Stack zu sein; es versucht, dasjenige zu sein, das audiogetriebene Features im großen Maßstab finanziell tragfähig macht.

Für Engineering-Teams macht die Single-Pass-Architektur und das 32k-Fenster es einfacher zu durchdenken als Multi-Hop-Pipelines. Für Produktteams macht das Kostenprofil es machbar, Sprachschnittstellen in Märkten oder Use Cases zu ermöglichen, die zuvor den Compute-Aufwand nicht rechtfertigen konnten. Und für Gründer, die im Aggregator-Ökosystem navigieren, ist Voxtral Small eine Erinnerung daran, dass Wert nicht immer von der größten Parameteranzahl kommt – manchmal kommt er von einer engen architektonischen Passung zwischen dem, was das Modell nativ leistet, und dem, was Ihre Nutzer tatsächlich brauchen.

Wenn Sie etwas Voice-First entwickeln und sich nicht sicher sind, ob Sie es sich leisten können, Audio durch jede Interaktion laufen zu lassen, ist Voxtral Small das Modell, das Sie diese Annahme überdenken lässt.

Letzter automatisierter Test

25. Juli 2026 · 02:01 UTC · Geschwindigkeits-Benchmark

P50-Latenz

210 ms

P95-Latenz

215 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026