Naar inhoud
Draait in:FranceGemaakt in:China
OVH AI Endpoints (GRA)

Qwen2.5-VL-72B-Instruct

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency73 runs
89144928084168552705-2806-15ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

100
Code generatie
98
Meertaligheid
100
Redeneren
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Qwen2.5-VL-72B-Instruct
$0.9100 per 1M input-tokens
$0.9100 per 1M output-tokens
≈ $0.0007 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.9100
per 1M output-tokens$0.9100

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.9100

input / 1M

— stable

$0.9100

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)1600 / avg 1451
222344

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Mogelijkheden

ownedBy: Qwen
Sectie 06

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 07

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 7 runs
6 correct1 partial0 wrong86% accuracy
2026-06-14

Consistent performance maintained across all vision-language benchmarks

Qwen2.5-VL-72B-Instruct demonstrates stable performance across both benchmark windows with no measurable changes in capability metrics. The model continues to deliver strong vision-language understanding across diverse evaluation tasks. All core benchmarks remain unchanged, indicating consistent inference quality and model behavior. This stability suggests reliable production-grade performance for applications requiring visual question answering, image understanding, and multimodal reasoning tasks. The model maintains its positioning as a capable large-scale vision-language solution, with the 72 billion parameter architecture delivering the same level of accuracy and comprehension observed in the previous evaluation period. Users can expect predictable performance characteristics when deploying this model for visual AI workflows. The consistency across benchmark windows demonstrates that the service maintains stable model weights and inference configurations, providing a dependable foundation for applications requiring repeatable vision-language processing outcomes. No degradation or improvement in capabilities has been observed, making this a steady choice for teams seeking unchanging performance profiles in their multimodal AI infrastructure.

Quality

Latency p50

Test runs

0

Performance remains stable No capability degradation observed
Laatste automatische test
15 jun 2026 · 08:00 UTC · Snelheidstest
P50 latency
125 ms
P95 latency
541 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·15 juni 2026