Tier B — Produktion

Läuft in:FranceErstellt in:China

Qwen2.5-VL-72B-Instruct

Tier B — Produktion

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 27. Mai 2026·Zuletzt geprüft 30. Juli 2026

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz101 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

100

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Qwen2.5-VL-72B-Instruct

$0.9100 pro 1M Input-Tokens

$0.9100 pro 1M Output-Tokens

≈ $0.0007 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.9100

pro 1M Output-Tokens$0.9100

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.9100

input / 1M

— stable

$0.9100

output / 1M

— stable

2026-06-142026-07-052026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1538 / avg 1404

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Fähigkeiten

visionownedBy: Qwen

Abschnitt 06

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

—

Letzte 30 Tage

100.0%

n=36

Mediane Antwortzeit

4,186ms

n=36

Basierend auf 426 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

OK-Antworten (30d)

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-595/100 · 47 runs

43 correct4 partial0 wrong91% accuracy

● 2026-07-26

Quality drops 10 points with slower response times and factual weakness

Qwen2.5-VL-72B-Instruct experienced a notable decline in this benchmark window, with overall quality falling from 98.8 to 88.8 points while latency increased by 37 percent to 8.9 seconds at the median. The model demonstrates exceptional strength in multilingual and reasoning tasks, both scoring perfect 100s, and maintains outstanding creative capabilities at 98 points. However, factual accuracy emerged as a significant weakness, scoring just 57 points and representing a substantial gap in the model's performance profile. The previous window included coding benchmarks where the model scored 98, but this category was not tested in the current window, making direct comparison incomplete. Thelatency increase from 6.5 to 8.9 seconds suggests either infrastructure changes or increased processing complexity. Despite the quality decline, the model retains strong capabilities in three of four tested categories. Users should be aware of the factual accuracy limitations when deploying this model for knowledge-intensive applications, while the model remains well-suited for creative, multilingual, and reasoning-heavy workloads where it continues to excel.

Quality

88.8

Latency p50

8,876 ms

Test runs

✗ Quality dropped 10 points✗ Latency increased 37%✗ Factual accuracy only 57✓ Perfect multilingual and reasoning scores

Letzter automatisierter Test

30. Juli 2026 · 08:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

130 ms

P95-Latenz

1115 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·30. Juli 2026