Tier B — Producción

Se ejecuta en:FranceCreado en:France

Mistral-Small-3.2-24B-Instruct-2506

Tier B — Producción

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 27 de mayo de 2026·Última revisión 30 de julio de 2026

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95102 runs

Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

Razonamiento

Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Mistral-Small-3.2-24B-Instruct-2506

$0.0900 por 1M de tokens de entrada

$0.2800 por 1M de tokens de salida

≈ $0.0001 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.0900

por 1M de tokens de salida$0.2800

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0900

input / 1M

— stable

$0.2800

output / 1M

— stable

2026-06-142026-07-052026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1667 / avg 1462

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Capacidades

ownedBy: mistralai

Sección 06

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=1,227

Últimos 30 días

100.0%

n=6,101

Tiempo de respuesta mediano

1,913ms

n=6,101

Basado en 6,481 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

6,101

Respuestas OK (30d)

6,101

Total de llamadas (7d)

1,227

Respuestas OK (7d)

1,227

Piloto de calidad de imagen (2026-06-10)

Recall

9.4%

n=300

Falsa alarma

12.1%

n=300

Resultados completos →

Sección 07

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-593/100 · 48 runs

43 correct5 partial0 wrong90% accuracy

● 2026-07-26

Quality drops 10.2 points to 84.6 amid 38% latency increase

Mistral-Small-3.2-24B-Instruct-2506 experienced notable performance degradation in this benchmark window, with overall quality declining from 94.8 to 84.6 points while latency increased by 38% to a median of 6559 milliseconds. The model maintained exceptional multilingual capabilities at 100 points, consistent with previous performance. However, significant shifts occurred in tested categories: coding performance disappeared from evaluation while new reasoning scores emerged strong at 95 points. Creative output remained relatively stable, moving from 85 to 87 points. The most concerning change appears in factual accuracy, which scored only 57 points in the current window, representing a substantial weakness compared to the model's other capabilities. The combination of slower response times and lower quality scores suggests possible infrastructure or configuration issues at the OVH AI Endpoints GRA deployment. Users should expect longer wait times for responses and exercise caution with factual queries, though the model continues to excel at multilingual tasks and demonstrates strong reasoning abilities. The performance decline warrants monitoring in upcoming benchmark windows to determine whether this represents a temporary regression or a sustained shift in model behavior.

Quality

84.6

Latency p50

6,559 ms

Test runs

✗ Quality dropped 10.2 points✗ Latency increased 38%✗ Factual score only 57✓ Multilingual remains perfect 100

Última prueba automática

30 jul 2026 · 14:04 UTC · Benchmark de velocidad

Latencia P50

120 ms

Latencia P95

164 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·30 de julio de 2026