Zum Inhalt
Tier C — Spezialist
Läuft in:FranceErstellt in:China
OVH AI Endpoints (GRA)

Qwen2.5-VL-72B-Instruct

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Qwen2.5-VL-72B-Instruct ist ein großskaliertes Vision-Language-Modell, das vom Qwen-Team von Alibaba Cloud entwickelt wurde und über OVH AI Endpoints in deren Rechenzentrumsregion Gravelines (GRA) verfügbar gemacht wird. Dieses Modell gehört zur Qwen 2.5-Serie und stellt eine multimodale, instruktionsoptimierte Variante dar, die sowohl Text- als auch visuelle Eingaben verarbeiten kann. Mit 72 Milliarden Parametern ist es als hochkapazitives Modell positioniert, das für komplexe Reasoning-Aufgaben konzipiert ist, die das Verständnis von Beziehungen zwischen textuellen und visuellen Informationen erfordern. Das Modell ist für Vision-Language-Aufgaben optimiert, einschließlich Bildbeschriftung, visueller Fragenbeantwortung, Dokumentenverständnis und multimodalem Reasoning. Seine instruktionsoptimierte Natur bedeutet, dass es speziell darauf feinabgestimmt wurde, Nutzeraufforderungen zu folgen und kohärente, kontextuell angemessene Antworten auf Basis kombinierter Text- und Bildeingaben zu generieren. Das Modell unterstützt standardmäßige Textgenerierungsfunktionen neben seinen visuellen Verständnisfunktionen, was es vielseitig für Anwendungen macht, die beide Modalitäten erfordern. Innerhalb des AI Endpoints-Angebots von OVH dient Qwen2.5-VL-72B-Instruct als verwalteter Inference-Endpoint, der es Entwicklern ermöglicht, auf die Fähigkeiten des Modells zuzugreifen, ohne die zugrunde liegende Infrastruktur verwalten zu müssen. OVH hostet dieses Modell in seinen europäischen Rechenzentren und bietet regionale Deployment-Optionen für Organisationen mit Anforderungen an die Datenresidenz. Die Spezifikation des Kontextfensters bleibt in öffentlich verfügbarer Dokumentation ungenannt, obwohl Modelle dieser Klasse typischerweise mehrere tausend Tokens für kombinierte Text- und Bildverarbeitungsaufgaben unterstützen.

Qwen2.5-VL-72B: Alibabas großes Vision-Language-Modell mit 72 Milliarden Parametern auf europäischer OVH-Infrastruktur.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz69 runs
86794015793236473150005-1105-27ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Qwen2.5-VL-72B-Instruct
$0.1500 pro 1M Input-Tokens
$0.4500 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1500
pro 1M Output-Tokens$0.4500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.4500

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1852 / avg 1404
22925

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Vision-Language-Multimodalität72-Milliarden-Parameter-KapazitätDokumentenverständnis visuellInstruction-Tuning für visuellen KontextOVH EU-DatenresidenzChinesisch und Mehrsprachigkeit

Schwächen

Kontextgröße nicht dokumentiertHoher Ressourcenbedarf (72B)Spezialisierter als reine Textmodelle
Abschnitt 05

Fähigkeiten

ownedBy: Qwen
Abschnitt 06

Häufig gestellte Fragen

Es verarbeitet Bild- und Textinformationen gemeinsam in einer einheitlichen Architektur für multimodale Reasoning-Aufgaben.

Für anspruchsvolle multimodale Aufgaben mit EU-Datenresidenz ist Qwen2.5-VL-72B auf OVH eine bemerkenswerte Kombination.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 5 runs
5 correct0 partial0 wrong100% accuracy
2026-05-24

Qwen2.5-VL-72B-Instruct etabliert Baseline-Performance auf GRA-Endpoint

Dieses Urteil etabliert das Basis-Leistungsprofil für Qwen2.5-VL-72B-Instruct, bereitgestellt auf OVH AI Endpoints in der Region GRA. Als Vision-Language-Modell mit 72 Milliarden Parametern stellt dieser Endpoint das großskalige multimodale Angebot von Qwen dar, das sowohl Text- als auch Bildeingaben verarbeiten kann. Das Modell reiht sich in das wachsende Ökosystem von Vision-Language-Modellen ein, die für komplexe Aufgaben mit gleichzeitigem visuellem und textuellem Verständnis konzipiert sind. Da es sich um das erste Benchmark-Fenster handelt, liegen uns keine Vergleichsdaten zur Bewertung von Leistungstrends, Zuverlässigkeitsmustern oder Qualitätskennzahlen über die Zeit vor. Nutzer sollten beachten, dass dies ein erstmaliger Deployment-Lauf auf dieser Infrastruktur ist. Nachfolgende Benchmark-Fenster werden wichtige Merkmale aufzeigen, etwa Antwortkonsistenz, Durchsatzstabilität und Qualitätsbeständigkeit unter verschiedenen Lastbedingungen. Die Bereitstellung in der Region GRA deutet auf europäische Datenhaltung hin – relevant für Nutzer mit regionalen Compliance-Anforderungen. Zukünftige Urteile werden verfolgen, ob der Endpoint stabile Leistungsmerkmale beibehält und wie er sich im Vergleich zu alternativen Vision-Language-Deployments hinsichtlich Genauigkeit, Latenz und Betriebszuverlässigkeit positioniert.

Quality

Latency p50

Test runs

0

Ausgangswert für die Nachverfolgung festgelegt
Abschnitt 08

Vollständiges Modellprofil

qwen2.5-vl-72b-instruct — illustration 1
Qwen2.5-VL 72B Instruct auf OVH AI Endpoints

Qwen2.5-VL 72B Instruct ist Alibabas Schwergewichts-Vision-Language-Modell aus der Qwen2.5-Generation. Es verarbeitet Text- und Bildeingaben und liefert Text zurück. OVH AI Endpoints hostet die Inferenz in ihren französischen Rechenzentren, was das Interessanteste an diesem Angebot für europäische Produktionsteams ist: ein ernstzunehmendes Vision-Modell in dieser Größenordnung mit EU-Residenz.

Was es leistet

Das Modell akzeptiert Bilder zusammen mit Text in einem einzigen Prompt und erzeugt Textausgaben. Zu den praktischen Eingaben gehören Screenshots, gescannte Dokumente, Fotos physischer Objekte, Diagramme, Charts, UI-Mockups und aus Videos extrahierte Einzelbilder. Es kann beschreiben, was es sieht, strukturierte Daten aus Dokumenten extrahieren, Fragen beantworten, die sich auf ein Bild beziehen, und über Layouts und visuelle Zusammenhänge reasoning betreiben.

Für dokumentenorientierte Arbeit verarbeitet das Modell Rechnungen, Formulare, Tabellen, Quittungen und ähnliches strukturiertes Material mit einer Qualität, die in der Produktion mit einem Validator darüber verwendbar ist. Bei natürlichen Bildern liefert es gute Beschreibungen und beantwortet Fragen zum Inhalt zuverlässig genug für Moderation, Barrierefreiheit und Such-Tagging-Workflows. Das Verständnis von Diagrammen ist solide für die Standardtypen von Business-Grafiken.

Reine Text-Prompts funktionieren ebenfalls einwandfrei. Das Modell hat dasselbe instruction-getunte Chat-Verhalten wie der Rest der Qwen2.5-Linie, sodass Sie es für gemischte Workflows verwenden können, die manchmal Bilder enthalten und manchmal nicht, ohne einen separaten Endpoint hochzufahren.

Wo es gut abschneidet

Die Dokumentenextraktion ist der stärkste praktische Anwendungsfall. Wenn Sie eine Pipeline haben, die hochgeladene PDFs oder fotografierte Belege verarbeitet und Einzelposten, Daten, Summen oder beliebige strukturierte Informationen extrahieren muss, ist Qwen2.5-VL 72B eine der glaubwürdigen Optionen im EU-gehosteten Segment.

Die mehrsprachige Verarbeitung auf der Textseite ist umfassend. Qwen-Modelle decken traditionell Chinesisch und die wichtigsten europäischen Sprachen gut ab, plus eine lange Liste weiterer Sprachen mit variabler Qualität. Bei Dokumenten in nicht-lateinischen Schriften hält das OCR-ähnliche Verhalten besser stand als viele Alternativen.

Die Latenz entspricht dem, was Sie von einem 72B-Modell erwarten würden, das Bilder verarbeitet. Nicht schnell, nicht schmerzhaft langsam. Die gestreamte Textausgabe lässt interaktive Sessions responsiv anfühlen, sobald die Bildverarbeitung abgeschlossen ist.

Wo es Schwächen zeigt

Die Bildqualität spielt eine große Rolle. Saubere, gut beleuchtete, scharfe Eingaben funktionieren gut. Unscharfe Handyfotos aus ungünstigen Winkeln, stark komprimierte Scans oder Dokumente mit geringem Kontrast führen zu einem spürbaren Rückgang der Extraktionsqualität. Wenn Ihre realen Eingaben tendenziell rau sind, planen Sie einen Vorverarbeitungsschritt oder eine menschliche Überprüfungsebene ein.

Das Modell ist kein Ersatz für dedizierte OCR, wenn pixelgenaue Texterfassung die Anforderung ist. Für gemischtes semantisches Verständnis plus grobe Textextraktion ist es ausgezeichnet. Für buchstabengetreue OCR auf dichten Dokumenten koppeln Sie es mit einer echten OCR-Engine und nutzen Qwen2.5-VL für die Reasoning-Ebene.

Video-Eingabe wird nicht nativ als einzelner Stream verarbeitet. Sie können Frames als einzelne Bilder eingeben und das Modell bitten, über sie hinweg zu reasoning zu betreiben, aber das ist nicht dasselbe wie das temporale Reasoning, das Sie von einem Modell mit nativer Video-Unterstützung erhalten würden.

Tool Calling ist über die OpenAI-kompatible API-Oberfläche verfügbar. JSON-Ausgabe ist zuverlässig, wenn Sie das Schema im Prompt sorgfältig einschränken.

Der EU-Residenz-Aspekt

Vision-Modelle, die in der EU in dieser Größenordnung gehostet werden, sind nicht häufig. OVHs Pitch hier ist konkret: Inferenz findet auf französischem Boden statt, kein Training auf Kunden-Prompts, die DPA ist von der Art, die ein europäisches Beschaffungsteam unterschreiben kann. Für jeden Workflow, der Bilder von regulierten Dokumenten, persönlicher Identifikation oder sensiblem Material verarbeitet, ist die Residenz-Geschichte der einzige Grund, warum dieser Endpoint auf der Shortlist steht.

Die Alternativen in diesem Segment sind tendenziell US-gehostete Vision-APIs mit insgesamt stärkerer Capability, aber schwächerer Residenz-Positionierung. Welche Seite dieses Trade-offs die richtige ist, hängt davon ab, was Sie verarbeiten und wer abzeichnen muss.

Preisgestaltung

Aufgeführt auf der OVH AI Endpoints-Seite. Vision-fähige 72B-Klasse-Modelle haben deutlich höhere Pro-Call-Kosten als kleinere reine Text-Modelle, wie zu erwarten ist. Wir veröffentlichen keine Preise.

Qwen2.5-VL 72B versus Alternativen

Wenn Sie Vision plus EU-Residenz benötigen: setzen Sie dies auf die Shortlist. Wenn Sie Vision benötigen und US-Hosting tolerieren können: der Katalog wird breiter. Wenn Sie nur Text benötigen und die Vision-Capability heute nicht brauchen: wählen Sie ein reines Text-Modell zu niedrigeren Kosten. Wenn Sie erstklassige Vision-Qualität benötigen und Residenz Sie nicht bindet: es gibt stärkere Optionen anderswo, besonders für hochvolumige Dokumenten-KI.

Für reale Tests mit Ihren Prompts deckt die Seite Methodik ab, was wir evaluieren; Intelligence und Leaderboard führen die aktuellen Scores gegen Alternativen.

Fazit

Ein Schwergewichts-Vision-Language-Modell auf französischer Infrastruktur. Qwen2.5-VL 72B ist die EU-gehostete Antwort für ernsthafte Dokumenten- und Bildarbeit. Es ist nicht das leistungsfähigste Vision-Modell auf dem Markt 2026. Es ist eines der nützlichsten, wenn Residenz Teil des Briefings ist.

Letzter technischer Review: 2026-05-22 — Tokonomix.ai

qwen2.5-vl-72b-instruct — illustration 2qwen2.5-vl-72b-instruct — illustration 3
Letzter automatisierter Test
27. Mai 2026 · 21:44 UTC · Geschwindigkeits-Benchmark
P50-Latenz
108 ms
P95-Latenz
136 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026