Zum Inhalt
Läuft in:FranceErstellt in:China
OVH AI Endpoints (GRA)

Qwen2.5-VL-72B-Instruct

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz73 runs
89144928084168552705-2806-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
98
Mehrsprachig
100
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Qwen2.5-VL-72B-Instruct
$0.9100 pro 1M Input-Tokens
$0.9100 pro 1M Output-Tokens
≈ $0.0007 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.9100
pro 1M Output-Tokens$0.9100

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.9100

input / 1M

— stable

$0.9100

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1600 / avg 1451
222344

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Fähigkeiten

ownedBy: Qwen
Abschnitt 06

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 7 runs
6 correct1 partial0 wrong86% accuracy
2026-06-14

Consistent performance maintained across all vision-language benchmarks

Qwen2.5-VL-72B-Instruct demonstrates stable performance across both benchmark windows with no measurable changes in capability metrics. The model continues to deliver strong vision-language understanding across diverse evaluation tasks. All core benchmarks remain unchanged, indicating consistent inference quality and model behavior. This stability suggests reliable production-grade performance for applications requiring visual question answering, image understanding, and multimodal reasoning tasks. The model maintains its positioning as a capable large-scale vision-language solution, with the 72 billion parameter architecture delivering the same level of accuracy and comprehension observed in the previous evaluation period. Users can expect predictable performance characteristics when deploying this model for visual AI workflows. The consistency across benchmark windows demonstrates that the service maintains stable model weights and inference configurations, providing a dependable foundation for applications requiring repeatable vision-language processing outcomes. No degradation or improvement in capabilities has been observed, making this a steady choice for teams seeking unchanging performance profiles in their multimodal AI infrastructure.

Quality

Latency p50

Test runs

0

Performance remains stable No capability degradation observed
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
125 ms
P95-Latenz
541 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·15. Juni 2026