¿Destaca en chino o es igual en todos los idiomas?

Como modelo de Alibaba Cloud, tiene fortaleza particular en chino-mandarín, aunque soporta múltiples idiomas con buena calidad.

¿Por qué usar OVH para este modelo?

Para organizaciones con requisitos de residencia de datos en Europa que necesitan capacidades multimodales avanzadas.

¿Puede analizar tablas en imágenes?

Sí, la comprensión de documentos incluye extracción de información de tablas y gráficos dentro de imágenes.

Tier C — Especialista

Se ejecuta en:FranceCreado en:China

OVH AI Endpoints (GRA)

Qwen2.5-VL-72B-Instruct

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

Qwen2.5-VL-72B-Instruct es un modelo de visión-lenguaje a gran escala desarrollado por el equipo Qwen de Alibaba Cloud, disponible a través de OVH AI Endpoints en su región de datacenter de Gravelines (GRA). Este modelo pertenece a la serie Qwen 2.5 y representa una variante multimodal ajustada por instrucciones capaz de procesar entradas tanto textuales como visuales. Con 72 mil millones de parámetros, se posiciona como un modelo de alta capacidad diseñado para tareas de razonamiento complejo que requieren comprender relaciones entre información textual y visual. El modelo está optimizado para tareas de visión-lenguaje que incluyen descripción de imágenes, respuesta a preguntas visuales, comprensión de documentos y razonamiento multimodal. Su naturaleza ajustada por instrucciones significa que ha sido específicamente afinado para seguir indicaciones de usuario y generar respuestas coherentes y contextualmente apropiadas basadas en entradas combinadas de texto e imagen. El modelo admite capacidades estándar de generación de texto junto con sus funciones de comprensión visual, haciéndolo versátil para aplicaciones que requieren ambas modalidades. Dentro de la oferta AI Endpoints de OVH, Qwen2.5-VL-72B-Instruct funciona como un endpoint de inferencia gestionado, permitiendo a los desarrolladores acceder a las capacidades del modelo sin gestionar la infraestructura subyacente. OVH aloja este modelo en sus centros de datos europeos, proporcionando opciones de despliegue regional para organizaciones con requisitos de residencia de datos. La especificación de la ventana de contexto permanece sin divulgar en la documentación públicamente disponible, aunque los modelos de esta clase típicamente admiten varios miles de tokens para tareas combinadas de procesamiento de texto e imagen.

Prueba Qwen2.5-VL-72B-Instruct con tus propias preguntas

Qwen 2.5 VL 72B Instruct de Alibaba Cloud es un modelo de visión-lenguaje de 72B parámetros disponible en OVH para análisis multimodal en infraestructura europea.
— Resumen de benchmark Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Qwen2.5-VL-72B-Instruct

$0.1500 por 1M de tokens de entrada

$0.4500 por 1M de tokens de salida

≈ $0.0002 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.1500

por 1M de tokens de salida$0.4500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.4500

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Comprensión visual y textual integrada72B parámetros de alta capacidadInfraestructura europea OVHAnálisis de documentos con imágenesExcelente en chino y multilingüeRespuesta a preguntas visuales avanzada

Debilidades

Contexto no documentado para este despliegueMayor latencia por procesamiento visualCosto elevado por modelo de 72BAlta demanda de recursos computacionales

Sección 03

Capacidades

ownedBy: Qwen

Sección 04

Preguntas frecuentes

Análisis de imágenes, interpretación de gráficos, comprensión de documentos con figuras y respuesta a preguntas sobre contenido visual.

La combinación de 72B parámetros, comprensión visual avanzada y hosting europeo lo hace único para aplicaciones multimodales con requisitos de residencia de datos.
— Resumen de benchmark Tokonomix

Sección 05

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-595/100 · 5 runs

5 correct0 partial0 wrong100% accuracy

● 2026-05-24

Qwen2.5-VL-72B-Instruct establece el rendimiento de referencia en el endpoint GRA

Este veredicto establece el perfil de rendimiento de referencia para Qwen2.5-VL-72B-Instruct desplegado en OVH AI Endpoints en la región GRA. Como modelo de visión-lenguaje con 72 mil millones de parámetros, este endpoint representa la oferta multimodal a gran escala de Qwen, capaz de procesar entradas tanto de texto como de imagen. El modelo se suma al creciente ecosistema de modelos de visión-lenguaje diseñados para manejar tareas complejas que requieren la comprensión simultánea de información visual y textual. Al tratarse de la ventana inicial de benchmark, no disponemos de datos comparativos para evaluar tendencias de rendimiento, patrones de fiabilidad o métricas de calidad a lo largo del tiempo. Los usuarios deben tener en cuenta que se trata de un despliegue de primera generación sobre esta infraestructura, y las ventanas de benchmark posteriores revelarán características importantes como la consistencia de respuesta, la estabilidad del throughput y el mantenimiento de la calidad bajo distintas condiciones de carga. El despliegue en la región GRA sugiere residencia europea de datos para usuarios que requieran cumplimiento regional. Los próximos veredictos harán seguimiento de si el endpoint mantiene características de rendimiento estables y cómo se compara con despliegues alternativos de modelos de visión-lenguaje en términos de precisión, latencia y fiabilidad operativa.

Quality

—

Latency p50

—

Test runs

✓ Línea de base establecida para el seguimiento

Sección 07

Perfil completo del modelo

Qwen2.5-VL 72B Instruct en OVH AI Endpoints

Qwen2.5-VL 72B Instruct es el modelo pesado de visión-lenguaje de Alibaba procedente de la generación Qwen2.5. Acepta entrada de texto e imagen y devuelve texto. OVH AI Endpoints aloja la inferencia en sus centros de datos franceses, lo cual constituye el aspecto más interesante de esta oferta para equipos de producción europeos: un modelo de visión serio, a esta escala, con residencia en la UE.

Qué hace

El modelo acepta imágenes junto con texto en un único prompt y produce salida de texto. Las entradas prácticas incluyen capturas de pantalla, documentos escaneados, fotografías de objetos físicos, gráficos, diagramas, maquetas de interfaces de usuario y fotogramas extraídos de vídeo. Puede describir lo que ve, extraer datos estructurados de documentos, responder preguntas fundamentadas en una imagen y razonar sobre diseños y relaciones visuales.

Para trabajo orientado a documentos, el modelo maneja facturas, formularios, tablas, recibos y material estructurado similar con una calidad utilizable en producción cuando se coloca un validador encima. Para imágenes naturales produce buenas descripciones y responde preguntas sobre contenido con la fiabilidad suficiente para flujos de trabajo de moderación, accesibilidad y etiquetado para búsqueda. La comprensión de diagramas es sólida para los tipos estándar de gráficos empresariales.

Los prompts de solo texto también funcionan perfectamente. El modelo tiene el mismo comportamiento de chat ajustado por instrucciones que el resto de la línea Qwen2.5, de modo que puede utilizarse para flujos de trabajo mixtos que a veces incluyen imágenes y a veces no, sin necesidad de poner en marcha un endpoint separado.

Dónde destaca

La extracción de documentos es el caso de uso práctico más fuerte. Si tiene una canalización que recibe PDFs cargados o recibos fotografiados y necesita extraer partidas individuales, fechas, totales o cualquier información estructurada, Qwen2.5-VL 72B es una de las opciones creíbles dentro del conjunto de modelos alojados en la UE.

El manejo multilingüe en el lado del texto es amplio. Los modelos Qwen tradicionalmente cubren bien el chino y los principales idiomas europeos, además de una larga cola de otros idiomas con calidad variable. Para documentos en escrituras no latinas, el comportamiento tipo OCR se mantiene mejor que muchas alternativas.

La latencia es la que cabría esperar de un modelo de 72B que procesa imágenes. No es rápido, pero tampoco dolorosamente lento. La salida de texto en streaming mantiene las sesiones interactivas con sensación de respuesta una vez completado el procesamiento de la imagen.

Dónde presenta limitaciones

La calidad de la imagen importa mucho. Las entradas limpias, bien iluminadas y enfocadas funcionan bien. Fotografías borrosas tomadas con el teléfono desde ángulos inadecuados, escaneos muy comprimidos o documentos con bajo contraste producirán una caída significativa en la calidad de extracción. Si sus entradas del mundo real tienden a ser deficientes, planifique un paso de preprocesamiento o una capa de revisión humana.

El modelo no sustituye al OCR dedicado cuando el requisito es captura de texto con precisión de píxel. Para comprensión semántica mixta más extracción de texto aproximada es excelente. Para OCR literal carácter por carácter en documentos densos, combínelo con un motor de OCR propiamente dicho y utilice Qwen2.5-VL para la capa de razonamiento.

La entrada de vídeo no se maneja de forma nativa como un flujo único. Puede alimentar fotogramas como imágenes individuales y pedir al modelo que razone entre ellos, pero esto no es lo mismo que el razonamiento temporal que obtendría de un modelo con soporte nativo de vídeo.

La llamada a herramientas está disponible a través de la superficie de API compatible con OpenAI. La salida JSON es fiable cuando se restringe el esquema cuidadosamente en el prompt.

El aspecto de residencia en la UE

Los modelos de visión alojados en la UE a esta escala no son comunes. La propuesta de OVH aquí es concreta: la inferencia ocurre en suelo francés, sin entrenamiento con prompts de clientes, el DPA es del tipo que un equipo de compras europeo puede firmar. Para cualquier flujo de trabajo que procese imágenes de documentos regulados, identificación personal o material sensible, la historia de residencia es la razón entera por la que este endpoint está en la lista corta.

Las alternativas en esta categoría tienden a ser APIs de visión alojadas en Estados Unidos con capacidad general más fuerte pero postura de residencia más débil. Qué lado de ese compromiso es el correcto depende de qué está procesando y quién tiene que aprobar.

Precios

Listados en la página de OVH AI Endpoints. Los modelos de clase 72B con capacidad de visión conllevan costes por llamada significativamente más altos que modelos más pequeños de solo texto, como cabría esperar. No republicamos tarifas.

Elegir Qwen2.5-VL 72B frente a alternativas

Si necesita visión más residencia en la UE: incluya esto en su lista corta. Si necesita visión y puede tolerar alojamiento en Estados Unidos: el catálogo se amplía. Si solo necesita texto y no necesita la capacidad de visión hoy: elija un modelo de solo texto a menor coste. Si necesita calidad de visión de primer nivel y la residencia no le vincula: hay opciones más potentes en otro lugar, particularmente para IA de documentos de alto volumen.

Para pruebas del mundo real con sus prompts, la página de metodología cubre lo que evaluamos; inteligencia y tabla de clasificación llevan las puntuaciones actuales frente a alternativas.

Conclusión

Un modelo pesado de visión-lenguaje en infraestructura francesa. Qwen2.5-VL 72B es la respuesta alojada en la UE para trabajo serio con documentos e imágenes. No es el modelo de visión más potente del mercado en 2026. Es uno de los más útiles cuando la residencia forma parte del briefing.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

27 may 2026 · 21:44 UTC · Benchmark de velocidad

Latencia P50

108 ms

Latencia P95

136 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026