Aller au contenu
Fonctionne en :FranceCréé en :China
Équipe éditoriale Tokonomix·Relu par Mes Kalkan··
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9573 runs
362107417852497320805-2806-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

95
Génération de code
73
Multilingue
88
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Qwen3-32B
$0.0800 par 1M de tokens d'entrée
$0.2300 par 1M de tokens de sortie
≈ <$0.0001 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.0800
par 1M de tokens de sortie$0.2300

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.2300

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)471 / avg 452
546291

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Capacités

ownedBy: Qwen
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-587/100 · 7 runs
5 correct2 partial0 wrong71% accuracy
2026-06-14

Qwen3-32B maintains consistent performance with configuration update

Qwen3-32B by OVH AI Endpoints continues to demonstrate stable performance characteristics following a configuration update. The model maintains its established baseline across core capabilities, showing no significant fluctuations in output quality or response patterns. Performance remains consistent with previous observations, with the model handling instruction-following tasks, reasoning challenges, and multi-turn conversations at its expected level. The GRA endpoint infrastructure continues to deliver reliable service with maintained latency profiles. Users can expect the same level of capability that was established in the initial benchmark window, with no degradation in core functionalities. The model's strengths in handling diverse query types remain intact, as do its previously noted limitations. This stability is particularly valuable for production deployments where predictable behavior is essential. Organizations already integrating Qwen3-32B into their workflows should experience seamless continuity. The configuration changes appear to be infrastructure-level adjustments that have not impacted model behavior or output characteristics in measurable ways.

Quality

Latency p50

Test runs

0

Performance stability maintained Configuration updated successfully
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
425 ms
Latence P95
447 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·15 juin 2026