Aller au contenu
Tier A — Frontier
Fonctionne en :Multi-regionCréé en :China
OpenRouter

Qwen 2.5 VL 72B Instruct

Tier A — Frontier · 131K tokens · 72B

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Qwen 2.5 VL 72B Instruct est un modèle vision-langage à grande échelle développé par l'équipe Qwen d'Alibaba Cloud. Ce modèle combine des capacités de compréhension visuelle et textuelle, lui permettant de traiter et d'analyser à la fois des images et du texte au sein d'une architecture unifiée. Avec 72 milliards de paramètres, il représente une implémentation substantielle conçue pour des tâches de raisonnement multimodal complexes nécessitant une compréhension détaillée du contenu visuel associée au langage naturel. Le modèle dispose d'une fenêtre de contexte de 131 000 tokens, lui permettant de traiter des documents étendus, des conversations longues et plusieurs images au sein d'une même session d'inférence. Ses capacités principales incluent la compréhension de documents, l'analyse d'images, la réponse à des questions visuelles et le traitement de texte multilingue, avec une force particulière pour les tâches en langue chinoise. La nature instruction-tuned de ce modèle le rend adapté au suivi de directives spécifiques dans diverses applications vision-langage, de l'analyse de graphiques et diagrammes à l'extraction d'informations depuis des documents visuels complexes. Au sein du catalogue de modèles d'OpenRouter, Qwen 2.5 VL 72B Instruct se positionne comme une option multimodale à haute capacité pour les développeurs nécessitant un traitement vision-langage robuste. Le modèle dessert des applications exigeant un raisonnement visuel sophistiqué combiné à une solide compréhension du langage, en particulier pour les utilisateurs travaillant avec du contenu chinois ou requérant un support multilingue. Son grand nombre de paramètres et sa fenêtre de contexte étendue le rendent approprié pour le traitement documentaire en entreprise, l'analyse détaillée d'images et les applications où maintenir le contexte à travers plusieurs entrées visuelles et textuelles est essentiel.

Qwen 2.5 VL 72B Instruct est un modèle vision-langage de 72 milliards de paramètres avec 131 000 tokens de contexte multimodal.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9568 runs
111159130724552603205-2406-09ms
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Qwen 2.5 VL 72B Instruct
$0.2500 par 1M de tokens d'entrée
$0.7500 par 1M de tokens de sortie
≈ $0.0003 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.2500
par 1M de tokens de sortie$0.7500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2500

input / 1M

— stable

$0.7500

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Section 03

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)733 / avg 874
177529

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 04

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Compréhension visuelle avancéeContexte de 131 000 tokens72 milliards de paramètresFort support du chinois et multilingueExcellence en compréhension documentaireRaisonnement visuel-textuel solide

Faiblesses

Ressources importantes pour 72BLatence potentiellement élevéeDonnées routées via OpenRouterMoins optimisé pour les langues européennes
Section 05

Capacités

visionchinesemultilingualdocument understanding
Section 06

Questions fréquentes

Il est particulièrement fort sur les documents structurés comme tableaux et formulaires, et sur les langues asiatiques. GPT-4o a ses propres atouts sur d autres dimensions.

Une référence en vision-langage pour les équipes nécessitant compréhension visuelle avancée et fort support multilingue.

Synthèse benchmark Tokonomix
Section 07

Verdicts benchmark Tokonomix

2026-06-07

Qwen 2.5 VL 72B Instruct: Vision-capable multilingual model debuts

Qwen 2.5 VL 72B Instruct enters the benchmark landscape as a vision-language model with strong multilingual capabilities, particularly in Chinese. The model demonstrates competent performance across vision tasks including document understanding, image analysis, and visual question answering. Its 72 billion parameter architecture positions it as a substantial offering in the multimodal space. The model supports extensive context windows suitable for processing complex documents and multiple images simultaneously. Early adoption patterns indicate usage across document processing workflows, multilingual applications, and vision-related tasks where Chinese language support is beneficial. As this is the initial benchmark window, no performance trends can be established yet, though the model's capability set suggests it targets users requiring vision-language understanding with emphasis on Asian language support. Users should note this is a first-generation entry in our benchmarking system, so longitudinal performance data and stability metrics will become available in subsequent windows. The model appears optimized for scenarios combining visual input with text generation across multiple languages.

Quality

Latency p50

Test runs

0

Vision capabilities added Multilingual support enabled Document understanding available Chinese language proficiency
Section 08

Profil complet du modèle

Qwen 2.5 VL 72B Instruct — illustration 1
Qwen 2.5 VL 72B Instruct : le modèle vision-langage open source d'Alibaba pour les équipes en production

Lorsque vous avez besoin de capacités visuelles qui vont au-delà des captures d'écran UI anglaises et des factures PDF, Qwen 2.5 VL 72B Instruct entre en jeu. Il s'agit du modèle vision-langage open source phare d'Alibaba Cloud, entraîné avec une attention particulière à la compréhension de documents chinois et aux contextes multilingues souvent négligés dans les sessions d'entraînement des modèles occidentaux. Il se situe dans la catégorie des 72 milliards de paramètres—suffisamment large pour gérer le raisonnement sur des documents visuels complexes, suffisamment compact pour exécuter l'inférence à un coût qui rend viables les flux de travail de production à haut volume.

Les équipes construisant des pipelines de traitement de documents pour les marchés asiatiques, les entreprises nécessitant des modèles vision capables de comprendre les caractères chinois en conditions réelles, et les organisations d'ingénierie privilégiant l'indépendance vis-à-vis des fournisseurs constituent l'audience naturelle. Le modèle transite par OpenRouter et d'autres plateformes d'agrégation, ce qui signifie que vous n'êtes pas verrouillé au temps de disponibilité ou aux changements de tarification d'un seul fournisseur. Pour les fondateurs évaluant s'ils doivent s'engager avec GPT-4V ou Claude Sonnet pour des tâches visuelles, Qwen 2.5 VL 72B représente l'alternative open source qui performe étonnamment proche sur des benchmarks concrets tout en offrant une flexibilité de déploiement que les API du top-3 ne peuvent fondamentalement pas égaler.

Historique d'entraînement et capacités techniques

Qwen 2.5 VL 72B provient de la division de recherche Tongyi Qianwen d'Alibaba, partie d'une famille de modèles qui itère ouvertement depuis 2023. La désignation VL signale une architecture vision-langage—ce n'est pas un modèle texte avec la vision ajoutée tardivement dans l'entraînement, mais une conception de base qui traite les images et le texte via des mécanismes d'attention unifiés. Le compte de 72 milliards de paramètres le place dans la même catégorie de poids que les anciens dérivés de Llama 2 70B, mais l'architecture ici est plus récente, incorporant les leçons de la génération 2024 de transformers denses.

Le corpus d'entraînement est là où les choses divergent des modèles occidentaux. Alibaba a entraîné celui-ci spécifiquement sur des données web chinoises, de la documentation technique d'écosystèmes logiciels asiatiques, et un volume substantiel de documents réels incluant des scripts mixtes. Si vous traitez des factures de fabricants de Shenzhen, des contrats avec des mentions légales en chinois traditionnel, ou des images téléchargées par les utilisateurs contenant des enseignes de magasins à Hangzhou, ce modèle a vu des ordres de grandeur plus de données similaires pendant l'entraînement que GPT-4V ou Claude. Cela compte en production—non pas parce que les modèles occidentaux ne peuvent pas reconnaître les caractères chinois, mais parce que Qwen a appris la structure statistique de la façon dont ces caractères apparaissent dans les documents réels, incluant les scans dégradés, les annotations manuscrites et les captures photo mobiles avec un mauvais éclairage.

La fenêtre de contexte de 131k tokens est généreuse. Beaucoup de tâches visuelles impliquent de traiter des PDF multipages ou des lots d'images connexes, et avoir de la place pour inclure le document complet plus des instructions détaillées sans troncature rend l'ingénierie des prompts substantiellement plus simple. Vous ne passez pas de cycles d'ingénierie à découper des documents ou à concevoir des stratégies de récupération quand une seule passe avant peut gérer le contexte complet.

Où il excelle : flux de travail de production axés sur les documents

L'adéquation la plus claire concerne les pipelines de compréhension de documents où le contenu chinois ou multilingue est de premier ordre, pas une réflexion après coup. Considérez une plateforme logistique traitant des formulaires douaniers d'expéditions transfrontalières. Ces documents arrivent sous forme de PDF scannés, souvent avec des tampons, des corrections manuscrites et un mélange de descriptions de produits en anglais plus des détails d'expéditeur en chinois. Qwen 2.5 VL 72B peut extraire des données structurées de ceux-ci en une seule passe—descriptions d'articles, codes SH, valeurs déclarées—avec une précision comparable aux services d'IA documentaire spécialisés mais sans verrouillage fournisseur ni paliers de tarification par page.

De même, les entreprises de commerce électronique opérant sur les marchés d'Asie du Sud-Est l'utilisent pour la modération de produits. Les vendeurs téléchargent des images de produits avec des superpositions de texte en thaï, vietnamien ou bahasa indonésien. Le modèle peut classifier si l'annonce viole les politiques de la plateforme, extraire les informations de prix intégrées dans les images, et signaler des motifs suspects—tout en comprenant le contexte culturel de la façon dont le langage promotionnel fonctionne sur ces marchés. Les modèles vision occidentaux gèrent cela aussi, mais la non-concordance de distribution d'entraînement se manifeste dans les taux d'erreur sur les cas limites.

Un autre créneau de production : les systèmes de support technique où les utilisateurs soumettent des photos de messages d'erreur ou d'installations matérielles. Si votre base d'utilisateurs s'étend à la Chine continentale, Taïwan et Hong Kong, vous traitez du chinois simplifié, du chinois traditionnel et de l'anglais dans la même file d'attente de support. Qwen traite ces images, extrait les codes d'erreur ou numéros de série matériels visibles dans les photos, et génère des réponses dans la variante linguistique appropriée sans nécessiter d'appels de modèle séparés ou de pré-traitement de détection de langue.

La capacité de compréhension de documents s'étend également aux organigrammes, diagrammes d'architecture et schémas techniques qui mélangent des éléments visuels avec des annotations chinoises denses. Les équipes d'ingénierie chez les fabricants de matériel ont utilisé des modèles de cette famille pour automatiser la revue de documentation de contrôle qualité, où le modèle vérifie si les diagrammes d'assemblage correspondent aux procédures spécifiées dans le texte accompagnant.

Où il ne convient pas

Ce n'est pas le modèle pour le raisonnement visuel de pointe sur des contextes purement occidentaux ou lorsque la performance de pointe sur des benchmarks vision en langue anglaise est l'exigence stricte. Si votre tâche consiste à analyser l'imagerie médicale pour un système hospitalier américain, interpréter l'imagerie satellite pour l'agriculture de précision dans l'Iowa, ou construire une application grand public qui décrit des articles de mode pour des utilisateurs anglophones, vous gagnez peu de la distribution d'entraînement de Qwen et sacrifiez les améliorations de précision incrémentales que GPT-4 Turbo avec vision ou Claude Sonnet délivrent sur ces tâches.

Le comportement de suivi des instructions, bien que solide, n'a pas le même polissage que l'entraînement constitutionnel d'Anthropic ou le raffinement RLHF d'OpenAI pour gérer les demandes utilisateur cas limites. Si vous avez besoin d'un modèle vision pour décliner gracieusement les demandes inappropriées, expliquer son raisonnement en étapes pédagogiques soignées, ou maintenir une personnalité spécifique tout au long de longues conversations, les modèles occidentaux ont plus d'effort d'entraînement investi dans ces schémas d'interaction.

La performance sur les tâches pures de raisonnement visuel—comprendre les relations spatiales dans des diagrammes abstraits, résoudre des puzzles visuels, ou interpréter la composition artistique—est compétente mais pas leader de catégorie. L'emphase d'entraînement était sur les documents et la reconnaissance de texte en conditions réelles, pas sur repousser la frontière du sens commun visuel ou du raisonnement abstrait sur les images. C'est un choix de conception, pas une faiblesse, mais cela signifie que certains cas d'usage de recherche ou applications créatives ne bénéficieront pas des forces particulières de Qwen.

Enfin, le modèle est optimisé pour le traitement par lots et l'extraction structurée, pas pour les expériences interactives en temps réel. La latence d'inférence via les plateformes d'agrégation est acceptable pour les flux de travail côté serveur mais pas idéale si vous construisez une application mobile où les utilisateurs attendent des réponses instantanées aux photos téléchargées. Vous regardez des secondes, pas des temps de réponse sub-seconde, même avec un regroupement agressif.

Comparaison aux pairs les plus proches

Dans l'espace open source vision-langage, la comparaison naturelle est LLaVA-1.6 dans sa configuration 34B et la famille Idefics de Hugging Face. Qwen 2.5 VL 72B est substantiellement plus large, ce qui se traduit par une meilleure gestion de documents complexes avec texte dense. LLaVA excelle dans la description d'images générales et la réponse aux questions visuelles mais peine davantage avec les flux de travail de documents multipages. Idefics a un support multilingue solide mais manque l'entraînement spécifique de Qwen sur les distributions de documents chinois.

Face à la concurrence propriétaire—GPT-4 Turbo avec vision, Claude Sonnet, Gemini 1.5 Pro—Qwen occupe un créneau différent. Sur les benchmarks vision en langue anglaise, l'écart s'est considérablement réduit comparé aux modèles de l'ère 2023, mais le top-3 mène toujours sur les métriques agrégées. Où Qwen prend de l'avance, c'est l'efficacité des coûts pour les charges de travail à haut volume et la performance sur les tâches de documents chinois. Si vous traitez des milliers de documents quotidiennement et que chacun contient du texte chinois, le coût total de possession favorise substantiellement Qwen. Le modèle est de niveau bas sur l'axe des coûts, ce qui signifie que vous pouvez exécuter beaucoup plus d'inférences pour le même budget comparé à tout router via OpenAI ou Anthropic.

L'autre dimension est la flexibilité de déploiement. Parce que Qwen est à poids ouverts, les équipes avec des exigences de conformité autour de la résidence des données ou de l'auditabilité du modèle peuvent auto-héberger. Vous pouvez exécuter cela sur votre propre infrastructure, ce qui compte pour les entreprises de services financiers traitant des documents sensibles ou les contractants gouvernementaux avec des exigences de sas étanche. Les API vision du top-3 n'offrent aucun chemin équivalent.

Histoire des coûts et disponibilité

Qwen 2.5 VL 72B transite par OpenRouter, qui agrège plus de 200 modèles et fournit un accès API unifié. Cela compte parce que cela découple votre logique d'application de tout fournisseur unique. Si le fournisseur en amont d'OpenRouter pour Qwen a une panne, vous pouvez basculer vers un autre agrégateur ou héberger sans réécrire le code d'intégration. La structure de coûts est de niveau bas—parmi les modèles vision-langage les plus abordables à ce niveau de capacité.

Pour les équipes de production, ce positionnement de coût permet des cas d'usage qui ne fonctionneraient pas avec les API premium. Considérez un flux de travail de conformité scannant des documents d'identité téléchargés pour une application fintech. Aux prix des API occidentales, le coût marginal par utilisateur pourrait vous pousser vers des services d'IA documentaire spécialisés avec engagements mensuels. Avec la tarification de Qwen, vous pouvez gérer le flux entier avec un modèle vision-langage, obtenant extraction structurée plus réponses en langage naturel pour les cas ambigus, sans que la structure de coûts force des compromis architecturaux.

L'économie de la fenêtre de contexte est particulièrement pertinente. Parce que le modèle supporte 131k tokens, vous pouvez emballer plusieurs images haute résolution dans une seule requête sans atteindre les limites. Cela signifie moins d'appels API, latence plus faible grâce à la réduction des allers-retours, et gestion des erreurs plus simple. Le coût par token est suffisamment bas pour qu'utiliser la fenêtre de contexte complète pour des documents complexes ne crée pas d'anxiété de facturation.

OpenRouter fournit également un routage de secours et un équilibrage de charge entre fournisseurs, ce qui compte pour la fiabilité de production. Si vous construisez un service qui traite des documents 24/7, avoir un basculement automatisé entre différents fournisseurs d'hébergement exécutant le même modèle réduit votre surcharge opérationnelle comparé à gérer plusieurs relations fournisseurs directement.

L'auto-hébergement est l'autre voie. Les poids du modèle sont ouverts, donc les équipes avec infrastructure ML peuvent exécuter l'inférence sur leurs propres clusters GPU. Pour les organisations opérant déjà des clusters Kubernetes avec nœuds GPU, cela élimine entièrement les coûts API continus en échange d'une surcharge de gestion d'infrastructure. Le compte de 72 milliards de paramètres est suffisamment large pour nécessiter du matériel substantiel—attendez-vous à des GPU A100 ou H100 pour un débit raisonnable—mais pas si large qu'il soit hors de portée pour les équipes d'ingénierie de taille moyenne.

Notre verdict

Qwen 2.5 VL 72B Instruct occupe une position spécifique mais importante dans le paysage des modèles vision-langage. Ce n'est pas le choix par défaut pour chaque tâche visuelle, ni n'essaie-t-il de l'être. Ce qu'il offre est une compréhension de documents de qualité production avec un support de langue chinoise de premier ordre, à un point de coût qui rend les flux de travail à haut volume économiquement viables, avec la flexibilité de déploiement qui vient des poids ouverts.

Si votre feuille de route produit implique le traitement de documents des marchés asiatiques, si vous construisez une infrastructure où le verrouillage fournisseur est exclu, ou si l'économie unitaire de votre pipeline vision ne fonctionne qu'à une tarification de niveau bas, ce modèle mérite une évaluation sérieuse. La capacité technique est suffisante pour la plupart des tâches documentaires réelles, la performance multilingue est véritablement différenciée, et le coût total de possession est convaincant.

Le compromis est que vous n'obtenez pas la performance absolument la plus élevée sur les benchmarks vision en langue anglaise ou le comportement de suivi d'instructions le plus raffiné pour les cas limites. Pour beaucoup de cas d'usage de production, c'est un compromis acceptable. L'écart entre Qwen et la frontière s'est compressé au point où la décision se réduit à vos exigences spécifiques autour du support linguistique, de la structure de coûts et des contraintes de déploiement plutôt qu'aux différences de capacité brute.

Pour les équipes déjà engagées dans l'écosystème OpenRouter ou évaluant des alternatives open source pour réduire la dépendance aux API du top-3, Qwen 2.5 VL 72B est un choix pragmatique qui délivre là où ça compte. Il ne fera pas les gros titres pour la performance benchmark, mais il gérera tranquillement votre pipeline documentaire à une fraction du coût, ce qui est souvent ce dont l'ingénierie de production a réellement besoin.

Qwen 2.5 VL 72B Instruct — illustration 2
Dernier test automatisé
9 juin 2026 · 20:02 UTC · Benchmark de vitesse
Latence P50
273 ms
Latence P95
1303 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026