Tier B — Production

Fonctionne en :FranceCréé en :China

Qwen2.5-VL-72B-Instruct

Tier B — Production

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 27 mai 2026·Dernière relecture 3 août 2026

Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P95100 runs

Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100

Génération de code

Factuel

100

Raisonnement

Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Qwen2.5-VL-72B-Instruct

$0.9100 par 1M de tokens d'entrée

$0.9100 par 1M de tokens de sortie

≈ $0.0007 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.9100

par 1M de tokens de sortie$0.9100

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.9100

input / 1M

— stable

$0.9100

output / 1M

— stable

2026-06-142026-07-122026-08-02

Input

Output

Price change

⟳ synced weekly

Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)1361 / avg 1381

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Capacités

visionownedBy: Qwen

Section 06

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

100.0%

n=3

30 derniers jours

100.0%

n=27

Temps de réponse médian

4,412ms

n=27

Basé sur 422 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

Réponses OK (30d)

Total des appels (7d)

Réponses OK (7d)

Section 07

Verdicts benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-595/100 · 52 runs

47 correct5 partial0 wrong90% accuracy

● 2026-08-02

Quality rebounds to 93.3 with vision added, but latency doubles to 16s

Qwen2.5-VL-72B-Instruct shows significant quality improvement this window, climbing from 88.8 to 93.3 overall. The model has gained vision capabilities, marking its first multimodal offering. Performance across categories is more balanced than before, with factual scores recovering from a previous low of 57 to reach 87, though still the weakest category. Creative writing maintains excellence at 100, while reasoning holds steady at a perfect score. Multilingual capabilities remain strong at 87. The major concern is latency, which has doubled from 8.9 seconds to 16.4 seconds at the median. This substantial slowdown likely correlates with the addition of vision processing, but represents a notable degradation in responsiveness that will impact user experience. The model processed 13 test runs this window compared to 5 previously, providing a more robust sample size for these metrics. Users gain a more capable model with improved factual accuracy and new visual understanding, but must weigh this against significantly longer wait times. The quality gains are meaningful, particularly for applications requiring balanced performance across diverse tasks, though latency-sensitive use cases may find the slower response problematic.

Qualité

—

Latence p50

—

Exécutions de test

✓ Quality improved to 93.3✓ Vision capabilities added✓ Factual scores recovered significantly✗ Latency doubled to 16 seconds

Dernier test automatisé

3 août 2026 · 02:03 UTC · Benchmark de vitesse

Latence P50

147 ms

Latence P95

186 ms

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·3 août 2026