Seviye B — Üretim

Çalıştığı yer:FranceYapıldığı yer:China

Qwen3-32B

Seviye B — Üretim

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 27 Mayıs 2026·Son inceleme 30 Temmuz 2026

Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme101 runs

Bölüm 02

Kalite puanları

Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.

Yaratıcı

Olgusal

Çok dilli

Akıl yürütme

Bölüm 03

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰

API tarifeleri — Qwen3-32B

$0.0800 1M giriş token başına

$0.2300 1M çıkış token başına

≈ <$0.0001 tipik konuşma başına (800 token)

Giriş vs çıkış fiyatı (1M token başına)

1M giriş token başına$0.0800

1M çıkış token başına$0.2300

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.2300

output / 1M

— stable

2026-06-142026-07-122026-07-26

Input

Output

Price change

⟳ synced weekly

Bölüm 04

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)421 / avg 420

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 05

Yetenekler

ownedBy: Qwen

Bölüm 06

Kullanılabilirlik

Bu modelin çağrıldığında ne sıklıkla yanıt verdiği — son 30 gün içindeki gerçek API istekleri ve canlı testler üzerinden ölçülmüştür. Bu kaliteden bağımsızdır: bu sayılar yalnızca modelin yanıt verip vermediğini gösterir, yanıtın ne kadar iyi olduğunu değil.

Son 7 gün

—

Son 30 gün

100.0%

n=33

Medyan yanıt süresi

145,961ms

n=33

Baz alınan 413 ölçüm son 30 gün içinde.

Teknik detaylar

Yalnızca gerçek API çağrıları ve canlı test istekleri sayılır — dahili yoklamalar ve kıyaslama çalıştırmaları hariçtir.

Özel API anahtarıyla (BYOK) yapılan çağrılar hariçtir: bu hatalar anahtara özgüdür, model kesintisinin işareti değildir.

Başarısız çağrılar kalite puanlarına DAHİL EDİLMEZ — kalite yalnızca başarılı yanıtlar üzerinden ölçülür. Kullanılabilirlik ve kalite bağımsız sinyallerdir.

Kaydedilmiş süreye sahip başarılı çağrılarda medyan yanıt süresi (p50). Aykırı değerler medyanı ortalamadan daha az etkiler.

Toplam çağrı (30d)

OK yanıtlar (30d)

Toplam çağrı (7d)

OK yanıtlar (7d)

Bölüm 07

Tokonomix kıyaslama kararları

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a95/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-584/100 · 47 runs

34 correct9 partial4 wrong72% accuracy

● 2026-07-26

Qwen3-32B shows 34% latency gain but factual score plummets to 35

The current benchmark window reveals a mixed performance picture for Qwen3-32B deployed on OVH AI Endpoints. While latency has improved substantially with p50 dropping from 24595ms to 16206ms, representing a 34% speed increase, the overall quality score has declined slightly from 73.4 to 72.3. The most concerning development is the dramatic collapse in factual performance, now scoring just 35 compared to the previous window where factual capabilities weren't measured but coding achieved 94. This suggests a significant regression in knowledge accuracy and reliability. On the positive side, multilingual capabilities have strengthened from 86 to 95, and reasoning performance stands strong at 83. Creative writing has rebounded impressively from 40 to 76, reversing the sharp decline noted in the previous period. The model appears to have shifted its strengths, excelling at multilingual tasks and creative generation while struggling with factual accuracy. Users requiring precise factual responses should exercise caution, while those focused on creative multilingual applications may find the current configuration more suitable. The latency improvements make the service more responsive overall, but the factual performance gap represents a critical weakness for general-purpose deployments.

Quality

72.3

Latency p50

16,206 ms

Test runs

✓ Latency improved 34%✗ Factual score dropped to 35✓ Multilingual performance up to 95✓ Creative rebounds from 40 to 76

Son otomatik test

30 Tem 2026 · 08:04 UTC · Hız testi

P50 gecikme

475 ms

P95 gecikme

620 ms

Hatalar

0 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·30 Temmuz 2026