
Qwen2.5-VL 72B Instruct est le modèle vision-langage poids lourd d'Alibaba issu de la génération Qwen2.5. Il prend en entrée du texte et des images et renvoie du texte. OVH AI Endpoints héberge l'inférence dans ses centres de données français, ce qui constitue l'élément le plus intéressant de cette offre pour les équipes de production européennes : un modèle de vision sérieux, à cette échelle, avec résidence dans l'UE.
Ce qu'il fait
Le modèle accepte des images accompagnées de texte dans une seule invite et produit une sortie textuelle. Les entrées pratiques incluent les captures d'écran, les documents numérisés, les photos d'objets physiques, les graphiques, les diagrammes, les maquettes d'interface utilisateur et les images extraites de vidéos. Il peut décrire ce qu'il voit, extraire des données structurées de documents, répondre à des questions ancrées dans une image et raisonner sur les dispositions et les relations visuelles.
Pour le travail orienté document, le modèle traite les factures, les formulaires, les tableaux, les reçus et d'autres matériaux structurés similaires avec une qualité utilisable en production avec un validateur en amont. Pour les images naturelles, il produit de bonnes descriptions et répond aux questions sur le contenu de manière suffisamment fiable pour les flux de travail de modération, d'accessibilité et de balisage pour la recherche. La compréhension des diagrammes est solide pour les types standard de graphiques professionnels.
Les invites textuelles seules fonctionnent également très bien. Le modèle possède le même comportement conversationnel ajusté par instructions que le reste de la gamme Qwen2.5, vous pouvez donc l'utiliser pour des flux de travail mixtes qui incluent parfois des images et parfois non, sans avoir à démarrer un point de terminaison distinct.
Là où il excelle
L'extraction de documents est le cas d'usage pratique le plus fort. Si vous avez un pipeline qui prend des PDF téléchargés ou des reçus photographiés et doit extraire des postes, des dates, des totaux ou toute information structurée, Qwen2.5-VL 72B est l'un des choix crédibles dans la catégorie des modèles hébergés dans l'UE.
La gestion multilingue du côté textuel est étendue. Les modèles Qwen couvrent traditionnellement bien le chinois et les principales langues européennes, plus une longue traîne d'autres langues avec une qualité variable. Pour les documents en scripts non latins, le comportement de type OCR se maintient mieux que de nombreuses alternatives.
La latence correspond à ce que l'on attend d'un modèle de 72B traitant des images. Ni rapide, ni douloureusement lent. La diffusion en continu de la sortie textuelle maintient les sessions interactives réactives une fois le traitement de l'image terminé.
Là où il montre des limites
La qualité de l'image compte énormément. Les entrées propres, bien éclairées et nettes fonctionnent bien. Les photos de téléphone floues prises en angle, les numérisations mal compressées ou les documents à faible contraste produiront une baisse significative de la qualité d'extraction. Si vos entrées réelles tendent vers le brut, prévoyez une étape de prétraitement ou une couche de révision humaine.
Le modèle ne remplace pas un OCR dédié lorsque la capture de texte au pixel près est l'exigence. Pour une compréhension sémantique mixte plus une extraction de texte approximative, il est excellent. Pour une OCR littérale caractère par caractère sur des documents denses, associez-le à un véritable moteur OCR et utilisez Qwen2.5-VL pour la couche de raisonnement.
L'entrée vidéo n'est pas gérée nativement comme un flux unique. Vous pouvez fournir des images individuelles et demander au modèle de raisonner à travers elles, mais ce n'est pas la même chose que le raisonnement temporel que vous obtiendriez d'un modèle avec support vidéo natif.
L'appel d'outils est disponible via la surface API compatible OpenAI. La sortie JSON est fiable lorsque vous contraignez soigneusement le schéma dans l'invite.
L'angle de la résidence dans l'UE
Les modèles de vision hébergés dans l'UE à cette échelle ne sont pas courants. L'argument d'OVH ici est concret : l'inférence se déroule sur le sol français, pas d'entraînement sur les invites des clients, le DPA est du type qu'une équipe d'approvisionnement européenne peut signer. Pour tout flux de travail qui traite des images de documents réglementés, d'identification personnelle ou de matériel sensible, l'histoire de la résidence est l'unique raison pour laquelle ce point de terminaison figure sur la liste restreinte.
Les alternatives dans ce créneau tendent à être des API de vision hébergées aux États-Unis avec une capacité globale plus forte mais une posture de résidence plus faible. Le côté de ce compromis qui convient dépend de ce que vous traitez et de qui doit approuver.
Tarification
Listée sur la page OVH AI Endpoints. Les modèles de classe 72B capables de vision portent des coûts par appel significativement plus élevés que les modèles plus petits textuels uniquement, comme vous vous y attendez. Nous ne republions pas les tarifs.
Choisir Qwen2.5-VL 72B par rapport aux alternatives
Si vous avez besoin de vision plus résidence dans l'UE : mettez celui-ci sur votre liste restreinte. Si vous avez besoin de vision et pouvez tolérer l'hébergement aux États-Unis : le catalogue s'élargit. Si vous n'avez besoin que de texte et n'avez pas besoin de la capacité vision aujourd'hui : choisissez un modèle textuel uniquement à moindre coût. Si vous avez besoin d'une qualité vision de premier ordre et que la résidence ne vous contraint pas : il existe des options plus fortes ailleurs, particulièrement pour l'IA documentaire à grand volume.
Pour des tests en conditions réelles avec vos invites, la page méthodologie couvre ce que nous évaluons ; intelligence et classement portent les scores actuels par rapport aux alternatives.
Conclusion
Un modèle vision-langage poids lourd sur infrastructure française. Qwen2.5-VL 72B est la réponse hébergée dans l'UE pour un travail sérieux sur les documents et les images. Ce n'est pas le modèle de vision le plus puissant du marché en 2026. C'est l'un des plus utiles lorsque la résidence fait partie du cahier des charges.
Dernière revue technique : 2026-05-22 — Tokonomix.ai

