Tier B — Production

Fonctionne en :FranceCréé en :China

Qwen3-32B

Tier B — Production

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 27 mai 2026·Dernière relecture 30 juillet 2026

Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P95101 runs

Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

Créatif

Factuel

Multilingue

Raisonnement

Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Qwen3-32B

$0.0800 par 1M de tokens d'entrée

$0.2300 par 1M de tokens de sortie

≈ <$0.0001 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.0800

par 1M de tokens de sortie$0.2300

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.2300

output / 1M

— stable

2026-06-142026-07-122026-07-26

Input

Output

Price change

⟳ synced weekly

Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)421 / avg 420

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Capacités

ownedBy: Qwen

Section 06

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

—

30 derniers jours

100.0%

n=33

Temps de réponse médian

145,961ms

n=33

Basé sur 413 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

Réponses OK (30d)

Total des appels (7d)

Réponses OK (7d)

Section 07

Verdicts benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a95/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-584/100 · 47 runs

34 correct9 partial4 wrong72% accuracy

● 2026-07-26

Qwen3-32B shows 34% latency gain but factual score plummets to 35

The current benchmark window reveals a mixed performance picture for Qwen3-32B deployed on OVH AI Endpoints. While latency has improved substantially with p50 dropping from 24595ms to 16206ms, representing a 34% speed increase, the overall quality score has declined slightly from 73.4 to 72.3. The most concerning development is the dramatic collapse in factual performance, now scoring just 35 compared to the previous window where factual capabilities weren't measured but coding achieved 94. This suggests a significant regression in knowledge accuracy and reliability. On the positive side, multilingual capabilities have strengthened from 86 to 95, and reasoning performance stands strong at 83. Creative writing has rebounded impressively from 40 to 76, reversing the sharp decline noted in the previous period. The model appears to have shifted its strengths, excelling at multilingual tasks and creative generation while struggling with factual accuracy. Users requiring precise factual responses should exercise caution, while those focused on creative multilingual applications may find the current configuration more suitable. The latency improvements make the service more responsive overall, but the factual performance gap represents a critical weakness for general-purpose deployments.

Quality

72.3

Latency p50

16,206 ms

Test runs

✓ Latency improved 34%✗ Factual score dropped to 35✓ Multilingual performance up to 95✓ Creative rebounds from 40 to 76

Dernier test automatisé

30 juil. 2026 · 08:04 UTC · Benchmark de vitesse

Latence P50

475 ms

Latence P95

620 ms

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·30 juillet 2026