Tier B — Produktion

Läuft in:FranceErstellt in:China

Qwen3-32B

Tier B — Produktion

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 27. Mai 2026·Zuletzt geprüft 30. Juli 2026

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz101 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

Mehrsprachig

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Qwen3-32B

$0.0800 pro 1M Input-Tokens

$0.2300 pro 1M Output-Tokens

≈ <$0.0001 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.0800

pro 1M Output-Tokens$0.2300

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.2300

output / 1M

— stable

2026-06-142026-07-122026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)421 / avg 420

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Fähigkeiten

ownedBy: Qwen

Abschnitt 06

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

—

Letzte 30 Tage

100.0%

n=33

Mediane Antwortzeit

145,961ms

n=33

Basierend auf 413 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

OK-Antworten (30d)

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a95/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-584/100 · 47 runs

34 correct9 partial4 wrong72% accuracy

● 2026-07-26

Qwen3-32B shows 34% latency gain but factual score plummets to 35

The current benchmark window reveals a mixed performance picture for Qwen3-32B deployed on OVH AI Endpoints. While latency has improved substantially with p50 dropping from 24595ms to 16206ms, representing a 34% speed increase, the overall quality score has declined slightly from 73.4 to 72.3. The most concerning development is the dramatic collapse in factual performance, now scoring just 35 compared to the previous window where factual capabilities weren't measured but coding achieved 94. This suggests a significant regression in knowledge accuracy and reliability. On the positive side, multilingual capabilities have strengthened from 86 to 95, and reasoning performance stands strong at 83. Creative writing has rebounded impressively from 40 to 76, reversing the sharp decline noted in the previous period. The model appears to have shifted its strengths, excelling at multilingual tasks and creative generation while struggling with factual accuracy. Users requiring precise factual responses should exercise caution, while those focused on creative multilingual applications may find the current configuration more suitable. The latency improvements make the service more responsive overall, but the factual performance gap represents a critical weakness for general-purpose deployments.

Quality

72.3

Latency p50

16,206 ms

Test runs

✓ Latency improved 34%✗ Factual score dropped to 35✓ Multilingual performance up to 95✓ Creative rebounds from 40 to 76

Letzter automatisierter Test

30. Juli 2026 · 08:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

475 ms

P95-Latenz

620 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·30. Juli 2026