Mistral-Small-3.2-24B-Instruct-2506
Analyse de vitesse
Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.
Scores de qualité
Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.
Historique des tarifs
Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.
Pricing over time
Input & output per 1M tokens · step-line = price changes
$0.0900
input / 1M
— stable
$0.2800
output / 1M
— stable
Tokens par seconde
Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.
Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.
Capacités
Disponibilité
Disponibilité
La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.
7 derniers jours
100.0%
n=8
30 derniers jours
100.0%
n=8
Temps de réponse médian
6,342ms
n=8
Basé sur 76 mesures au cours des 30 derniers jours.
Détails techniques
Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.
Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.
Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.
Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.
Total des appels (30d)
8
Réponses OK (30d)
8
Total des appels (7d)
8
Réponses OK (7d)
8
Pilote contrôle qualité image (2026-06-10)
Rappel
9.4%
n=300
Faux positifs
12.1%
n=300
Verdicts benchmark Tokonomix
Stable performance maintained with expanded category testing
Mistral-Small-3.2-24B-Instruct-2506 continues to demonstrate exceptional performance in this benchmark window, maintaining its perfect quality score of 100.0 across expanded testing. The model now shows consistently high performance across multiple categories including coding, creative writing, instruction following, and multilingual tasks, all scoring at the maximum level. This represents a broader evaluation than the previous window which focused solely on multilingual capabilities. Latency characteristics show notable improvement, with the median response time dropping from 5689ms to 926ms, representing an approximately 84% reduction in typical response times. The 95th percentile latency of 1180ms indicates consistent performance with minimal variation. The model demonstrates particularly strong results in mathematical reasoning and structured data handling, areas that were not evaluated in the baseline window. With 20 test runs completed in this window compared to the single baseline run, the results provide substantially more statistical confidence. Users can expect reliable performance across diverse workloads, from technical programming tasks to creative content generation, with significantly faster response times than initially observed.
Quality
—
Latency p50
—
Test runs
0
Mistral-Small-3.2-24B-Instruct-2506
par OVH AI Endpoints (GRA)
- Fenêtre de contexte
- — tokens
- Prix d'entrée
- $0.0900 / 1M
- Prix de sortie
- $0.2800 / 1M
- Tier
- —
- Modalité
- Texte
- Type d'API
- REST · streaming
- Exécutions benchmark
- 91
Plus de OVH AI Endpoints (GRA)