Tier B — Producción

Se ejecuta en:FranceCreado en:China

Qwen2.5-VL-72B-Instruct

Tier B — Producción

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 27 de mayo de 2026·Última revisión 3 de agosto de 2026

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95100 runs

Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100

Generación de código

Factual

100

Razonamiento

Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Qwen2.5-VL-72B-Instruct

$0.9100 por 1M de tokens de entrada

$0.9100 por 1M de tokens de salida

≈ $0.0007 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.9100

por 1M de tokens de salida$0.9100

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.9100

input / 1M

— stable

$0.9100

output / 1M

— stable

2026-06-142026-07-122026-08-02

Input

Output

Price change

⟳ synced weekly

Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1361 / avg 1381

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Capacidades

visionownedBy: Qwen

Sección 06

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=3

Últimos 30 días

100.0%

n=27

Tiempo de respuesta mediano

4,412ms

n=27

Basado en 422 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

Respuestas OK (30d)

Total de llamadas (7d)

Respuestas OK (7d)

Sección 07

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-595/100 · 52 runs

47 correct5 partial0 wrong90% accuracy

● 2026-08-02

Quality rebounds to 93.3 with vision added, but latency doubles to 16s

Qwen2.5-VL-72B-Instruct shows significant quality improvement this window, climbing from 88.8 to 93.3 overall. The model has gained vision capabilities, marking its first multimodal offering. Performance across categories is more balanced than before, with factual scores recovering from a previous low of 57 to reach 87, though still the weakest category. Creative writing maintains excellence at 100, while reasoning holds steady at a perfect score. Multilingual capabilities remain strong at 87. The major concern is latency, which has doubled from 8.9 seconds to 16.4 seconds at the median. This substantial slowdown likely correlates with the addition of vision processing, but represents a notable degradation in responsiveness that will impact user experience. The model processed 13 test runs this window compared to 5 previously, providing a more robust sample size for these metrics. Users gain a more capable model with improved factual accuracy and new visual understanding, but must weigh this against significantly longer wait times. The quality gains are meaningful, particularly for applications requiring balanced performance across diverse tasks, though latency-sensitive use cases may find the slower response problematic.

Calidad

—

Latencia p50

—

Ejecuciones de test

✓ Quality improved to 93.3✓ Vision capabilities added✓ Factual scores recovered significantly✗ Latency doubled to 16 seconds

Última prueba automática

3 ago 2026 · 02:03 UTC · Benchmark de velocidad

Latencia P50

147 ms

Latencia P95

186 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·3 de agosto de 2026