Tier B — Produktion

Läuft in:FranceErstellt in:France

Mistral-Small-3.2-24B-Instruct-2506

Tier B — Produktion

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 27. Mai 2026·Zuletzt geprüft 30. Juli 2026

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz101 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Mistral-Small-3.2-24B-Instruct-2506

$0.0900 pro 1M Input-Tokens

$0.2800 pro 1M Output-Tokens

≈ $0.0001 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.0900

pro 1M Output-Tokens$0.2800

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0900

input / 1M

— stable

$0.2800

output / 1M

— stable

2026-06-142026-07-052026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)529 / avg 1460

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Fähigkeiten

ownedBy: mistralai

Abschnitt 06

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=1,151

Letzte 30 Tage

100.0%

n=6,068

Mediane Antwortzeit

1,888ms

n=6,068

Basierend auf 6,448 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

6,068

OK-Antworten (30d)

6,068

Gesamte Aufrufe (7d)

1,151

OK-Antworten (7d)

1,151

Bildqualitäts-Pilot (2026-06-10)

Recall

9.4%

n=300

Fehlalarmrate

12.1%

n=300

Vollständige Ergebnisse →

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-593/100 · 48 runs

43 correct5 partial0 wrong90% accuracy

● 2026-07-26

Quality drops 10.2 points to 84.6 amid 38% latency increase

Mistral-Small-3.2-24B-Instruct-2506 experienced notable performance degradation in this benchmark window, with overall quality declining from 94.8 to 84.6 points while latency increased by 38% to a median of 6559 milliseconds. The model maintained exceptional multilingual capabilities at 100 points, consistent with previous performance. However, significant shifts occurred in tested categories: coding performance disappeared from evaluation while new reasoning scores emerged strong at 95 points. Creative output remained relatively stable, moving from 85 to 87 points. The most concerning change appears in factual accuracy, which scored only 57 points in the current window, representing a substantial weakness compared to the model's other capabilities. The combination of slower response times and lower quality scores suggests possible infrastructure or configuration issues at the OVH AI Endpoints GRA deployment. Users should expect longer wait times for responses and exercise caution with factual queries, though the model continues to excel at multilingual tasks and demonstrates strong reasoning abilities. The performance decline warrants monitoring in upcoming benchmark windows to determine whether this represents a temporary regression or a sustained shift in model behavior.

Quality

84.6

Latency p50

6,559 ms

Test runs

✗ Quality dropped 10.2 points✗ Latency increased 38%✗ Factual score only 57✓ Multilingual remains perfect 100

Letzter automatisierter Test

30. Juli 2026 · 08:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

378 ms

P95-Latenz

378 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·30. Juli 2026