Aller au contenu
Fonctionne en :FranceCréé en :China
OVH AI Endpoints (GRA)

Qwen2.5-VL-72B-Instruct

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9573 runs
89144928084168552705-2806-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
98
Multilingue
100
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Qwen2.5-VL-72B-Instruct
$0.9100 par 1M de tokens d'entrée
$0.9100 par 1M de tokens de sortie
≈ $0.0007 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.9100
par 1M de tokens de sortie$0.9100

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.9100

input / 1M

— stable

$0.9100

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)1600 / avg 1451
222344

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Capacités

ownedBy: Qwen
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 7 runs
6 correct1 partial0 wrong86% accuracy
2026-06-14

Consistent performance maintained across all vision-language benchmarks

Qwen2.5-VL-72B-Instruct demonstrates stable performance across both benchmark windows with no measurable changes in capability metrics. The model continues to deliver strong vision-language understanding across diverse evaluation tasks. All core benchmarks remain unchanged, indicating consistent inference quality and model behavior. This stability suggests reliable production-grade performance for applications requiring visual question answering, image understanding, and multimodal reasoning tasks. The model maintains its positioning as a capable large-scale vision-language solution, with the 72 billion parameter architecture delivering the same level of accuracy and comprehension observed in the previous evaluation period. Users can expect predictable performance characteristics when deploying this model for visual AI workflows. The consistency across benchmark windows demonstrates that the service maintains stable model weights and inference configurations, providing a dependable foundation for applications requiring repeatable vision-language processing outcomes. No degradation or improvement in capabilities has been observed, making this a steady choice for teams seeking unchanging performance profiles in their multimodal AI infrastructure.

Quality

Latency p50

Test runs

0

Performance remains stable No capability degradation observed
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
125 ms
Latence P95
541 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·15 juin 2026