Naar inhoud
Draait in:FranceGemaakt in:China
Tokonomix-redactie·Gecontroleerd door Mes Kalkan··
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency73 runs
362107417852497320805-2806-15ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

95
Code generatie
73
Meertaligheid
88
Redeneren
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Qwen3-32B
$0.0800 per 1M input-tokens
$0.2300 per 1M output-tokens
≈ <$0.0001 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.0800
per 1M output-tokens$0.2300

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.2300

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)471 / avg 452
546291

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Mogelijkheden

ownedBy: Qwen
Sectie 06

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 07

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-587/100 · 7 runs
5 correct2 partial0 wrong71% accuracy
2026-06-14

Qwen3-32B maintains consistent performance with configuration update

Qwen3-32B by OVH AI Endpoints continues to demonstrate stable performance characteristics following a configuration update. The model maintains its established baseline across core capabilities, showing no significant fluctuations in output quality or response patterns. Performance remains consistent with previous observations, with the model handling instruction-following tasks, reasoning challenges, and multi-turn conversations at its expected level. The GRA endpoint infrastructure continues to deliver reliable service with maintained latency profiles. Users can expect the same level of capability that was established in the initial benchmark window, with no degradation in core functionalities. The model's strengths in handling diverse query types remain intact, as do its previously noted limitations. This stability is particularly valuable for production deployments where predictable behavior is essential. Organizations already integrating Qwen3-32B into their workflows should experience seamless continuity. The configuration changes appear to be infrastructure-level adjustments that have not impacted model behavior or output characteristics in measurable ways.

Quality

Latency p50

Test runs

0

Performance stability maintained Configuration updated successfully
Laatste automatische test
15 jun 2026 · 08:00 UTC · Snelheidstest
P50 latency
425 ms
P95 latency
447 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·15 juni 2026