Ir al contenido
Se ejecuta en:FranceCreado en:China
OVH AI Endpoints (GRA)

Qwen2.5-VL-72B-Instruct

Equipo editorial Tokonomix·Revisado por Mes Kalkan··
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9573 runs
89144928084168552705-2806-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
98
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Qwen2.5-VL-72B-Instruct
$0.9100 por 1M de tokens de entrada
$0.9100 por 1M de tokens de salida
≈ $0.0007 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.9100
por 1M de tokens de salida$0.9100

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.9100

input / 1M

— stable

$0.9100

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1600 / avg 1451
222344

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Capacidades

ownedBy: Qwen
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 7 runs
6 correct1 partial0 wrong86% accuracy
2026-06-14

Consistent performance maintained across all vision-language benchmarks

Qwen2.5-VL-72B-Instruct demonstrates stable performance across both benchmark windows with no measurable changes in capability metrics. The model continues to deliver strong vision-language understanding across diverse evaluation tasks. All core benchmarks remain unchanged, indicating consistent inference quality and model behavior. This stability suggests reliable production-grade performance for applications requiring visual question answering, image understanding, and multimodal reasoning tasks. The model maintains its positioning as a capable large-scale vision-language solution, with the 72 billion parameter architecture delivering the same level of accuracy and comprehension observed in the previous evaluation period. Users can expect predictable performance characteristics when deploying this model for visual AI workflows. The consistency across benchmark windows demonstrates that the service maintains stable model weights and inference configurations, providing a dependable foundation for applications requiring repeatable vision-language processing outcomes. No degradation or improvement in capabilities has been observed, making this a steady choice for teams seeking unchanging performance profiles in their multimodal AI infrastructure.

Quality

Latency p50

Test runs

0

Performance remains stable No capability degradation observed
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
125 ms
Latencia P95
541 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·15 de junio de 2026