
Qwen2.5-VL 72B Instruct es el modelo pesado de visión-lenguaje de Alibaba procedente de la generación Qwen2.5. Acepta entrada de texto e imagen y devuelve texto. OVH AI Endpoints aloja la inferencia en sus centros de datos franceses, lo cual constituye el aspecto más interesante de esta oferta para equipos de producción europeos: un modelo de visión serio, a esta escala, con residencia en la UE.
Qué hace
El modelo acepta imágenes junto con texto en un único prompt y produce salida de texto. Las entradas prácticas incluyen capturas de pantalla, documentos escaneados, fotografías de objetos físicos, gráficos, diagramas, maquetas de interfaces de usuario y fotogramas extraídos de vídeo. Puede describir lo que ve, extraer datos estructurados de documentos, responder preguntas fundamentadas en una imagen y razonar sobre diseños y relaciones visuales.
Para trabajo orientado a documentos, el modelo maneja facturas, formularios, tablas, recibos y material estructurado similar con una calidad utilizable en producción cuando se coloca un validador encima. Para imágenes naturales produce buenas descripciones y responde preguntas sobre contenido con la fiabilidad suficiente para flujos de trabajo de moderación, accesibilidad y etiquetado para búsqueda. La comprensión de diagramas es sólida para los tipos estándar de gráficos empresariales.
Los prompts de solo texto también funcionan perfectamente. El modelo tiene el mismo comportamiento de chat ajustado por instrucciones que el resto de la línea Qwen2.5, de modo que puede utilizarse para flujos de trabajo mixtos que a veces incluyen imágenes y a veces no, sin necesidad de poner en marcha un endpoint separado.
Dónde destaca
La extracción de documentos es el caso de uso práctico más fuerte. Si tiene una canalización que recibe PDFs cargados o recibos fotografiados y necesita extraer partidas individuales, fechas, totales o cualquier información estructurada, Qwen2.5-VL 72B es una de las opciones creíbles dentro del conjunto de modelos alojados en la UE.
El manejo multilingüe en el lado del texto es amplio. Los modelos Qwen tradicionalmente cubren bien el chino y los principales idiomas europeos, además de una larga cola de otros idiomas con calidad variable. Para documentos en escrituras no latinas, el comportamiento tipo OCR se mantiene mejor que muchas alternativas.
La latencia es la que cabría esperar de un modelo de 72B que procesa imágenes. No es rápido, pero tampoco dolorosamente lento. La salida de texto en streaming mantiene las sesiones interactivas con sensación de respuesta una vez completado el procesamiento de la imagen.
Dónde presenta limitaciones
La calidad de la imagen importa mucho. Las entradas limpias, bien iluminadas y enfocadas funcionan bien. Fotografías borrosas tomadas con el teléfono desde ángulos inadecuados, escaneos muy comprimidos o documentos con bajo contraste producirán una caída significativa en la calidad de extracción. Si sus entradas del mundo real tienden a ser deficientes, planifique un paso de preprocesamiento o una capa de revisión humana.
El modelo no sustituye al OCR dedicado cuando el requisito es captura de texto con precisión de píxel. Para comprensión semántica mixta más extracción de texto aproximada es excelente. Para OCR literal carácter por carácter en documentos densos, combínelo con un motor de OCR propiamente dicho y utilice Qwen2.5-VL para la capa de razonamiento.
La entrada de vídeo no se maneja de forma nativa como un flujo único. Puede alimentar fotogramas como imágenes individuales y pedir al modelo que razone entre ellos, pero esto no es lo mismo que el razonamiento temporal que obtendría de un modelo con soporte nativo de vídeo.
La llamada a herramientas está disponible a través de la superficie de API compatible con OpenAI. La salida JSON es fiable cuando se restringe el esquema cuidadosamente en el prompt.
El aspecto de residencia en la UE
Los modelos de visión alojados en la UE a esta escala no son comunes. La propuesta de OVH aquí es concreta: la inferencia ocurre en suelo francés, sin entrenamiento con prompts de clientes, el DPA es del tipo que un equipo de compras europeo puede firmar. Para cualquier flujo de trabajo que procese imágenes de documentos regulados, identificación personal o material sensible, la historia de residencia es la razón entera por la que este endpoint está en la lista corta.
Las alternativas en esta categoría tienden a ser APIs de visión alojadas en Estados Unidos con capacidad general más fuerte pero postura de residencia más débil. Qué lado de ese compromiso es el correcto depende de qué está procesando y quién tiene que aprobar.
Precios
Listados en la página de OVH AI Endpoints. Los modelos de clase 72B con capacidad de visión conllevan costes por llamada significativamente más altos que modelos más pequeños de solo texto, como cabría esperar. No republicamos tarifas.
Elegir Qwen2.5-VL 72B frente a alternativas
Si necesita visión más residencia en la UE: incluya esto en su lista corta. Si necesita visión y puede tolerar alojamiento en Estados Unidos: el catálogo se amplía. Si solo necesita texto y no necesita la capacidad de visión hoy: elija un modelo de solo texto a menor coste. Si necesita calidad de visión de primer nivel y la residencia no le vincula: hay opciones más potentes en otro lugar, particularmente para IA de documentos de alto volumen.
Para pruebas del mundo real con sus prompts, la página de metodología cubre lo que evaluamos; inteligencia y tabla de clasificación llevan las puntuaciones actuales frente a alternativas.
Conclusión
Un modelo pesado de visión-lenguaje en infraestructura francesa. Qwen2.5-VL 72B es la respuesta alojada en la UE para trabajo serio con documentos e imágenes. No es el modelo de visión más potente del mercado en 2026. Es uno de los más útiles cuando la residencia forma parte del briefing.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

