Seviye B — Üretim

Çalıştığı yer:FranceYapıldığı yer:China

Qwen2.5-VL-72B-Instruct

Seviye B — Üretim

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 27 Mayıs 2026·Son inceleme 30 Temmuz 2026

Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme101 runs

Bölüm 02

Kalite puanları

Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.

Yaratıcı

Olgusal

100

Çok dilli

100

Akıl yürütme

Bölüm 03

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰

API tarifeleri — Qwen2.5-VL-72B-Instruct

$0.9100 1M giriş token başına

$0.9100 1M çıkış token başına

≈ $0.0007 tipik konuşma başına (800 token)

Giriş vs çıkış fiyatı (1M token başına)

1M giriş token başına$0.9100

1M çıkış token başına$0.9100

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.9100

input / 1M

— stable

$0.9100

output / 1M

— stable

2026-06-142026-07-052026-07-26

Input

Output

Price change

⟳ synced weekly

Bölüm 04

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)1538 / avg 1404

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 05

Yetenekler

visionownedBy: Qwen

Bölüm 06

Kullanılabilirlik

Bu modelin çağrıldığında ne sıklıkla yanıt verdiği — son 30 gün içindeki gerçek API istekleri ve canlı testler üzerinden ölçülmüştür. Bu kaliteden bağımsızdır: bu sayılar yalnızca modelin yanıt verip vermediğini gösterir, yanıtın ne kadar iyi olduğunu değil.

Son 7 gün

—

Son 30 gün

100.0%

n=36

Medyan yanıt süresi

4,186ms

n=36

Baz alınan 426 ölçüm son 30 gün içinde.

Teknik detaylar

Yalnızca gerçek API çağrıları ve canlı test istekleri sayılır — dahili yoklamalar ve kıyaslama çalıştırmaları hariçtir.

Özel API anahtarıyla (BYOK) yapılan çağrılar hariçtir: bu hatalar anahtara özgüdür, model kesintisinin işareti değildir.

Başarısız çağrılar kalite puanlarına DAHİL EDİLMEZ — kalite yalnızca başarılı yanıtlar üzerinden ölçülür. Kullanılabilirlik ve kalite bağımsız sinyallerdir.

Kaydedilmiş süreye sahip başarılı çağrılarda medyan yanıt süresi (p50). Aykırı değerler medyanı ortalamadan daha az etkiler.

Toplam çağrı (30d)

OK yanıtlar (30d)

Toplam çağrı (7d)

OK yanıtlar (7d)

Bölüm 07

Tokonomix kıyaslama kararları

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-595/100 · 47 runs

43 correct4 partial0 wrong91% accuracy

● 2026-07-26

Quality drops 10 points with slower response times and factual weakness

Qwen2.5-VL-72B-Instruct experienced a notable decline in this benchmark window, with overall quality falling from 98.8 to 88.8 points while latency increased by 37 percent to 8.9 seconds at the median. The model demonstrates exceptional strength in multilingual and reasoning tasks, both scoring perfect 100s, and maintains outstanding creative capabilities at 98 points. However, factual accuracy emerged as a significant weakness, scoring just 57 points and representing a substantial gap in the model's performance profile. The previous window included coding benchmarks where the model scored 98, but this category was not tested in the current window, making direct comparison incomplete. Thelatency increase from 6.5 to 8.9 seconds suggests either infrastructure changes or increased processing complexity. Despite the quality decline, the model retains strong capabilities in three of four tested categories. Users should be aware of the factual accuracy limitations when deploying this model for knowledge-intensive applications, while the model remains well-suited for creative, multilingual, and reasoning-heavy workloads where it continues to excel.

Quality

88.8

Latency p50

8,876 ms

Test runs

✗ Quality dropped 10 points✗ Latency increased 37%✗ Factual accuracy only 57✓ Perfect multilingual and reasoning scores

Son otomatik test

30 Tem 2026 · 08:04 UTC · Hız testi

P50 gecikme

130 ms

P95 gecikme

1115 ms

Hatalar

0 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·30 Temmuz 2026