Mistral-Small-3.2-24B-Instruct-2506
Análisis de velocidad
Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.
Puntuaciones de calidad
Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.
Historial de precios
Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.
Pricing over time
Input & output per 1M tokens · step-line = price changes
$0.0900
input / 1M
— stable
$0.2800
output / 1M
— stable
Tokens por segundo
Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.
Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.
Capacidades
Disponibilidad
Disponibilidad
Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.
Últimos 7 días
100.0%
n=8
Últimos 30 días
100.0%
n=8
Tiempo de respuesta mediano
6,342ms
n=8
Basado en 76 mediciones en los últimos 30 días.
Detalles técnicos
Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.
Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.
Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.
Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.
Total de llamadas (30d)
8
Respuestas OK (30d)
8
Total de llamadas (7d)
8
Respuestas OK (7d)
8
Veredictos del benchmark Tokonomix
Stable performance maintained with expanded category testing
Mistral-Small-3.2-24B-Instruct-2506 continues to demonstrate exceptional performance in this benchmark window, maintaining its perfect quality score of 100.0 across expanded testing. The model now shows consistently high performance across multiple categories including coding, creative writing, instruction following, and multilingual tasks, all scoring at the maximum level. This represents a broader evaluation than the previous window which focused solely on multilingual capabilities. Latency characteristics show notable improvement, with the median response time dropping from 5689ms to 926ms, representing an approximately 84% reduction in typical response times. The 95th percentile latency of 1180ms indicates consistent performance with minimal variation. The model demonstrates particularly strong results in mathematical reasoning and structured data handling, areas that were not evaluated in the baseline window. With 20 test runs completed in this window compared to the single baseline run, the results provide substantially more statistical confidence. Users can expect reliable performance across diverse workloads, from technical programming tasks to creative content generation, with significantly faster response times than initially observed.
Quality
—
Latency p50
—
Test runs
0
Mistral-Small-3.2-24B-Instruct-2506
por OVH AI Endpoints (GRA)
- Ventana de contexto
- — tokens
- Precio de entrada
- $0.0900 / 1M
- Precio de salida
- $0.2800 / 1M
- Tier
- —
- Modalidad
- Texto
- Tipo de API
- REST · streaming
- Ejecuciones benchmark
- 91
Más de OVH AI Endpoints (GRA)