Ce modèle gère-t-il l arabe et d autres langues non latines ?

Oui, comme les modèles Qwen en général, il supporte de nombreuses langues dont le chinois, l arabe et d autres langues asiatiques et MENA.

L hébergement OVH est-il adapté pour les entreprises européennes ?

Oui, l hébergement à Gravelines offre résidence des données en France, ce qui facilite la conformité aux réglementations européennes.

Peut-on analyser des images de produits avec ce modèle ?

Oui, l analyse d images produit, la génération de descriptions et l extraction d informations visuelles sont des usages bien adaptés.

Comment ce modèle se compare-t-il à GPT-4o pour la vision ?

Qwen2.5-VL-72B est particulièrement fort sur les documents structurés et les langues asiatiques, tandis que GPT-4o offre une intégration plus native dans l écosystème OpenAI.

Tier C — Spécialiste

Fonctionne en :FranceCréé en :China

OVH AI Endpoints (GRA)

Qwen2.5-VL-72B-Instruct

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

Qwen2.5-VL-72B-Instruct est un modèle vision-langage à grande échelle développé par l'équipe Qwen d'Alibaba Cloud, accessible via OVH AI Endpoints dans leur région de datacenter de Gravelines (GRA). Ce modèle appartient à la série Qwen 2.5 et représente une variante multimodale ajustée par instructions, capable de traiter à la fois des entrées textuelles et visuelles. Avec 72 milliards de paramètres, il se positionne comme un modèle haute capacité conçu pour des tâches de raisonnement complexes nécessitant la compréhension des relations entre informations textuelles et visuelles. Le modèle est optimisé pour des tâches vision-langage incluant la génération de légendes d'images, les réponses à des questions visuelles, la compréhension de documents et le raisonnement multimodal. Sa nature ajustée par instructions signifie qu'il a été spécifiquement affiné pour suivre les instructions utilisateur et générer des réponses cohérentes et contextuellement appropriées basées sur des entrées combinant texte et images. Le modèle prend en charge les capacités standard de génération de texte en complément de ses fonctions de compréhension visuelle, le rendant polyvalent pour des applications nécessitant les deux modalités. Au sein de l'offre AI Endpoints d'OVH, Qwen2.5-VL-72B-Instruct sert de point de terminaison d'inférence géré, permettant aux développeurs d'accéder aux capacités du modèle sans gérer l'infrastructure sous-jacente. OVH héberge ce modèle dans leurs datacenters européens, offrant des options de déploiement régional pour les organisations ayant des exigences de résidence des données. La spécification de la fenêtre de contexte reste non divulguée dans la documentation publique, bien que les modèles de cette classe prennent généralement en charge plusieurs milliers de tokens pour les tâches combinant traitement de texte et d'images.

Testez Qwen2.5-VL-72B-Instruct avec vos propres questions

Qwen2.5-VL-72B-Instruct est un modèle vision-langage de 72B paramètres d Alibaba Cloud, accessible via OVH AI Endpoints en Europe.
— Synthèse benchmark Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Qwen2.5-VL-72B-Instruct

$0.1500 par 1M de tokens d'entrée

$0.4500 par 1M de tokens de sortie

≈ $0.0002 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.1500

par 1M de tokens de sortie$0.4500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.4500

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

72 milliards de paramètres multimodauxHébergement datacenter européenRaisonnement visuel-textuel avancéExcellente compréhension documentaireFort support du chinois et autres languesRésidence des données en UE

Faiblesses

Ressources importantes pour 72BLatence potentiellement élevéeContexte non précisé pour ce déploiementDéploiement OVH, pas directement Alibaba

Section 03

Capacités

ownedBy: Qwen

Section 04

Questions fréquentes

Oui, la compréhension documentaire est l un de ses points forts. Il peut analyser des documents complexes avec textes et tableaux.

Un modèle vision-langage puissant d Alibaba Cloud avec hébergement européen via les datacenters OVH de Gravelines.
— Synthèse benchmark Tokonomix

Section 05

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-595/100 · 5 runs

5 correct0 partial0 wrong100% accuracy

● 2026-05-24

Qwen2.5-VL-72B-Instruct établit une performance de référence sur le point d'accès GRA

Ce verdict établit le profil de performance de référence pour Qwen2.5-VL-72B-Instruct déployé sur OVH AI Endpoints dans la région GRA. En tant que modèle vision-langage doté de 72 milliards de paramètres, ce point d'accès représente l'offre multimodale à grande échelle de Qwen, capable de traiter à la fois des entrées textuelles et visuelles. Le modèle rejoint l'écosystème croissant des modèles vision-langage conçus pour traiter des tâches complexes nécessitant une compréhension simultanée d'informations visuelles et textuelles. S'agissant de la première fenêtre de benchmark, nous ne disposons d'aucune donnée comparative permettant d'évaluer les tendances de performance, les schémas de fiabilité ou les indicateurs qualité dans la durée. Les utilisateurs doivent être conscients qu'il s'agit d'un déploiement de première génération sur cette infrastructure, et que les fenêtres de benchmark suivantes révéleront des caractéristiques importantes telles que la constance des réponses, la stabilité du débit et le maintien de la qualité sous différentes conditions de charge. Le déploiement dans la région GRA suggère une résidence européenne des données pour les utilisateurs soumis à des exigences de conformité régionale. Les prochains verdicts permettront de suivre si le point d'accès conserve des caractéristiques de performance stables et comment il se compare à d'autres déploiements de modèles vision-langage en termes de précision, de latence et de fiabilité opérationnelle.

Quality

—

Latency p50

—

Test runs

✓ Référence établie pour le suivi

Section 07

Profil complet du modèle

Qwen2.5-VL 72B Instruct sur OVH AI Endpoints

Qwen2.5-VL 72B Instruct est le modèle vision-langage poids lourd d'Alibaba issu de la génération Qwen2.5. Il prend en entrée du texte et des images et renvoie du texte. OVH AI Endpoints héberge l'inférence dans ses centres de données français, ce qui constitue l'élément le plus intéressant de cette offre pour les équipes de production européennes : un modèle de vision sérieux, à cette échelle, avec résidence dans l'UE.

Ce qu'il fait

Le modèle accepte des images accompagnées de texte dans une seule invite et produit une sortie textuelle. Les entrées pratiques incluent les captures d'écran, les documents numérisés, les photos d'objets physiques, les graphiques, les diagrammes, les maquettes d'interface utilisateur et les images extraites de vidéos. Il peut décrire ce qu'il voit, extraire des données structurées de documents, répondre à des questions ancrées dans une image et raisonner sur les dispositions et les relations visuelles.

Pour le travail orienté document, le modèle traite les factures, les formulaires, les tableaux, les reçus et d'autres matériaux structurés similaires avec une qualité utilisable en production avec un validateur en amont. Pour les images naturelles, il produit de bonnes descriptions et répond aux questions sur le contenu de manière suffisamment fiable pour les flux de travail de modération, d'accessibilité et de balisage pour la recherche. La compréhension des diagrammes est solide pour les types standard de graphiques professionnels.

Les invites textuelles seules fonctionnent également très bien. Le modèle possède le même comportement conversationnel ajusté par instructions que le reste de la gamme Qwen2.5, vous pouvez donc l'utiliser pour des flux de travail mixtes qui incluent parfois des images et parfois non, sans avoir à démarrer un point de terminaison distinct.

Là où il excelle

L'extraction de documents est le cas d'usage pratique le plus fort. Si vous avez un pipeline qui prend des PDF téléchargés ou des reçus photographiés et doit extraire des postes, des dates, des totaux ou toute information structurée, Qwen2.5-VL 72B est l'un des choix crédibles dans la catégorie des modèles hébergés dans l'UE.

La gestion multilingue du côté textuel est étendue. Les modèles Qwen couvrent traditionnellement bien le chinois et les principales langues européennes, plus une longue traîne d'autres langues avec une qualité variable. Pour les documents en scripts non latins, le comportement de type OCR se maintient mieux que de nombreuses alternatives.

La latence correspond à ce que l'on attend d'un modèle de 72B traitant des images. Ni rapide, ni douloureusement lent. La diffusion en continu de la sortie textuelle maintient les sessions interactives réactives une fois le traitement de l'image terminé.

Là où il montre des limites

La qualité de l'image compte énormément. Les entrées propres, bien éclairées et nettes fonctionnent bien. Les photos de téléphone floues prises en angle, les numérisations mal compressées ou les documents à faible contraste produiront une baisse significative de la qualité d'extraction. Si vos entrées réelles tendent vers le brut, prévoyez une étape de prétraitement ou une couche de révision humaine.

Le modèle ne remplace pas un OCR dédié lorsque la capture de texte au pixel près est l'exigence. Pour une compréhension sémantique mixte plus une extraction de texte approximative, il est excellent. Pour une OCR littérale caractère par caractère sur des documents denses, associez-le à un véritable moteur OCR et utilisez Qwen2.5-VL pour la couche de raisonnement.

L'entrée vidéo n'est pas gérée nativement comme un flux unique. Vous pouvez fournir des images individuelles et demander au modèle de raisonner à travers elles, mais ce n'est pas la même chose que le raisonnement temporel que vous obtiendriez d'un modèle avec support vidéo natif.

L'appel d'outils est disponible via la surface API compatible OpenAI. La sortie JSON est fiable lorsque vous contraignez soigneusement le schéma dans l'invite.

L'angle de la résidence dans l'UE

Les modèles de vision hébergés dans l'UE à cette échelle ne sont pas courants. L'argument d'OVH ici est concret : l'inférence se déroule sur le sol français, pas d'entraînement sur les invites des clients, le DPA est du type qu'une équipe d'approvisionnement européenne peut signer. Pour tout flux de travail qui traite des images de documents réglementés, d'identification personnelle ou de matériel sensible, l'histoire de la résidence est l'unique raison pour laquelle ce point de terminaison figure sur la liste restreinte.

Les alternatives dans ce créneau tendent à être des API de vision hébergées aux États-Unis avec une capacité globale plus forte mais une posture de résidence plus faible. Le côté de ce compromis qui convient dépend de ce que vous traitez et de qui doit approuver.

Tarification

Listée sur la page OVH AI Endpoints. Les modèles de classe 72B capables de vision portent des coûts par appel significativement plus élevés que les modèles plus petits textuels uniquement, comme vous vous y attendez. Nous ne republions pas les tarifs.

Choisir Qwen2.5-VL 72B par rapport aux alternatives

Si vous avez besoin de vision plus résidence dans l'UE : mettez celui-ci sur votre liste restreinte. Si vous avez besoin de vision et pouvez tolérer l'hébergement aux États-Unis : le catalogue s'élargit. Si vous n'avez besoin que de texte et n'avez pas besoin de la capacité vision aujourd'hui : choisissez un modèle textuel uniquement à moindre coût. Si vous avez besoin d'une qualité vision de premier ordre et que la résidence ne vous contraint pas : il existe des options plus fortes ailleurs, particulièrement pour l'IA documentaire à grand volume.

Pour des tests en conditions réelles avec vos invites, la page méthodologie couvre ce que nous évaluons ; intelligence et classement portent les scores actuels par rapport aux alternatives.

Conclusion

Un modèle vision-langage poids lourd sur infrastructure française. Qwen2.5-VL 72B est la réponse hébergée dans l'UE pour un travail sérieux sur les documents et les images. Ce n'est pas le modèle de vision le plus puissant du marché en 2026. C'est l'un des plus utiles lorsque la résidence fait partie du cahier des charges.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

27 mai 2026 · 21:44 UTC · Benchmark de vitesse

Latence P50

108 ms

Latence P95

136 ms

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026