Ir al contenido
Se ejecuta en:FranceCreado en:China
Equipo editorial Tokonomix·Revisado por Mes Kalkan··
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9573 runs
362107417852497320805-2806-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

95
Generación de código
73
Multilingüe
88
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Qwen3-32B
$0.0800 por 1M de tokens de entrada
$0.2300 por 1M de tokens de salida
≈ <$0.0001 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.0800
por 1M de tokens de salida$0.2300

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.2300

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)471 / avg 452
546291

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Capacidades

ownedBy: Qwen
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-587/100 · 7 runs
5 correct2 partial0 wrong71% accuracy
2026-06-14

Qwen3-32B maintains consistent performance with configuration update

Qwen3-32B by OVH AI Endpoints continues to demonstrate stable performance characteristics following a configuration update. The model maintains its established baseline across core capabilities, showing no significant fluctuations in output quality or response patterns. Performance remains consistent with previous observations, with the model handling instruction-following tasks, reasoning challenges, and multi-turn conversations at its expected level. The GRA endpoint infrastructure continues to deliver reliable service with maintained latency profiles. Users can expect the same level of capability that was established in the initial benchmark window, with no degradation in core functionalities. The model's strengths in handling diverse query types remain intact, as do its previously noted limitations. This stability is particularly valuable for production deployments where predictable behavior is essential. Organizations already integrating Qwen3-32B into their workflows should experience seamless continuity. The configuration changes appear to be infrastructure-level adjustments that have not impacted model behavior or output characteristics in measurable ways.

Quality

Latency p50

Test runs

0

Performance stability maintained Configuration updated successfully
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
425 ms
Latencia P95
447 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·15 de junio de 2026