Tier B — Production

Fonctionne en :FranceCréé en :France

Mistral-Small-3.2-24B-Instruct-2506

Tier B — Production

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 27 mai 2026·Dernière relecture 30 juillet 2026

Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P95101 runs

Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

Créatif

Factuel

100

Multilingue

Raisonnement

Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Mistral-Small-3.2-24B-Instruct-2506

$0.0900 par 1M de tokens d'entrée

$0.2800 par 1M de tokens de sortie

≈ $0.0001 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.0900

par 1M de tokens de sortie$0.2800

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0900

input / 1M

— stable

$0.2800

output / 1M

— stable

2026-06-142026-07-052026-07-26

Input

Output

Price change

⟳ synced weekly

Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)529 / avg 1460

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Capacités

ownedBy: mistralai

Section 06

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

100.0%

n=1,217

30 derniers jours

100.0%

n=6,094

Temps de réponse médian

1,912ms

n=6,094

Basé sur 6,474 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

6,094

Réponses OK (30d)

6,094

Total des appels (7d)

1,217

Réponses OK (7d)

1,217

Pilote contrôle qualité image (2026-06-10)

Rappel

9.4%

n=300

Faux positifs

12.1%

n=300

Résultats complets →

Section 07

Verdicts benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-593/100 · 48 runs

43 correct5 partial0 wrong90% accuracy

● 2026-07-26

Quality drops 10.2 points to 84.6 amid 38% latency increase

Mistral-Small-3.2-24B-Instruct-2506 experienced notable performance degradation in this benchmark window, with overall quality declining from 94.8 to 84.6 points while latency increased by 38% to a median of 6559 milliseconds. The model maintained exceptional multilingual capabilities at 100 points, consistent with previous performance. However, significant shifts occurred in tested categories: coding performance disappeared from evaluation while new reasoning scores emerged strong at 95 points. Creative output remained relatively stable, moving from 85 to 87 points. The most concerning change appears in factual accuracy, which scored only 57 points in the current window, representing a substantial weakness compared to the model's other capabilities. The combination of slower response times and lower quality scores suggests possible infrastructure or configuration issues at the OVH AI Endpoints GRA deployment. Users should expect longer wait times for responses and exercise caution with factual queries, though the model continues to excel at multilingual tasks and demonstrates strong reasoning abilities. The performance decline warrants monitoring in upcoming benchmark windows to determine whether this represents a temporary regression or a sustained shift in model behavior.

Quality

84.6

Latency p50

6,559 ms

Test runs

✗ Quality dropped 10.2 points✗ Latency increased 38%✗ Factual score only 57✓ Multilingual remains perfect 100

Dernier test automatisé

30 juil. 2026 · 08:04 UTC · Benchmark de vitesse

Latence P50

378 ms

Latence P95

378 ms

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·30 juillet 2026