Naar inhoud
Tier C — Specialist
Draait in:FranceGemaakt in:China
OVH AI Endpoints (GRA)

Qwen2.5-VL-72B-Instruct

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

Qwen2.5-VL-72B-Instruct is een grootschalig vision-language model ontwikkeld door Alibaba Cloud's Qwen-team, beschikbaar gesteld via OVH AI Endpoints in hun Gravelines (GRA) datacenterregio. Dit model behoort tot de Qwen 2.5-serie en vertegenwoordigt een multimodale instruction-tuned variant die zowel tekst als visuele inputs kan verwerken. Met 72 miljard parameters is het gepositioneerd als een high-capacity model ontworpen voor complexe redeneertaken die inzicht vereisen in relaties tussen tekstuele en visuele informatie. Het model is geoptimaliseerd voor vision-language taken zoals image captioning, visual question answering, documentbegrip en multimodaal redeneren. Het instruction-tuned karakter betekent dat het specifiek is verfijnd om gebruikersinstructies te volgen en coherente, contextueel passende antwoorden te genereren op basis van gecombineerde tekst- en beeldinputs. Het model ondersteunt standaard tekstgeneratiemogelijkheden naast zijn visuele begripsfuncties, wat het veelzijdig maakt voor toepassingen die beide modaliteiten vereisen. Binnen OVH's AI Endpoints-aanbod fungeert Qwen2.5-VL-72B-Instruct als een beheerd inference-endpoint, waardoor ontwikkelaars toegang krijgen tot de mogelijkheden van het model zonder de onderliggende infrastructuur te hoeven beheren. OVH host dit model in hun Europese datacenters, wat regionale deployment-opties biedt voor organisaties met data residency-vereisten. De contextwindowspecificatie blijft onbekend in publiek beschikbare documentatie, hoewel modellen in deze klasse doorgaans verschillende duizenden tokens ondersteunen voor gecombineerde tekst- en beeldverwerkingstaken.

Qwen2.5-VL-72B-Instruct van OVH AI Endpoints (GRA) is het topmodel voor complexe taken waarbij diepgang en kwaliteit doorslaggevend zijn.

Tokonomix benchmark-samenvatting
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency69 runs
86794015793236473150005-1105-27ms
Sectie 02

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Qwen2.5-VL-72B-Instruct
$0.1500 per 1M input-tokens
$0.4500 per 1M output-tokens
≈ $0.0002 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.1500
per 1M output-tokens$0.4500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.4500

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sectie 03

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)1852 / avg 1404
22925

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 04

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Geavanceerde redeneer- en analysecapaciteitHoge schrijfkwaliteitUitstekende codeerprestatiesWetenschappelijke tekstanalyseGroot groot contextvensterMeertalige tekstverwerkingGedetailleerde instructieopvolgingGenuanceerde gespreksvoering

Zwakke punten

Hogere kosten per tokenLangzamer dan kleinere modellenNiet ideaal voor simpele taken
Sectie 05

Mogelijkheden

ownedBy: Qwen
Sectie 06

Veelgestelde vragen

Qwen2.5-VL-72B-Instruct biedt sterkere redeneer- en analysecapaciteiten, hogere schrijfkwaliteit en betere prestaties op complexe, meerstaps-taken vergeleken met kleinere varianten.

De juiste keuze wanneer de taak het beste beschikbare resultaat vereist.

Tokonomix benchmark-samenvatting
Sectie 07

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 5 runs
5 correct0 partial0 wrong100% accuracy
2026-05-24

Qwen2.5-VL-72B-Instruct stelt basislijnprestaties vast op GRA-eindpunt

Dit oordeel stelt het basisprestatieprofiel vast voor Qwen2.5-VL-72B-Instruct ingezet op OVH AI Endpoints in de GRA-regio. Als vision-language model met 72 miljard parameters vertegenwoordigt dit endpoint het grootschalige multimodale aanbod van Qwen, geschikt voor het verwerken van zowel tekst- als beeldinvoer. Het model sluit aan bij het groeiende ecosysteem van vision-language modellen ontworpen voor complexe taken die gelijktijdig begrip van visuele en tekstuele informatie vereisen. Omdat dit het eerste benchmarkvenster is, hebben we geen vergelijkingsgegevens om prestatietrends, betrouwbaarheidspatronen of kwaliteitsmetrieken in de tijd te beoordelen. Gebruikers moeten zich ervan bewust zijn dat dit een eerste generatie deployment op deze infrastructuur betreft, en volgende benchmarkvensters zullen belangrijke kenmerken onthullen zoals responsconsistentie, doorvoerstabiliteit en kwaliteitsbehoud onder verschillende belastingscondities. De deployment in de GRA-regio suggereert Europese dataresidentie voor gebruikers die regionale compliance vereisen. Toekomstige oordelen zullen volgen of het endpoint stabiele prestatiekenmerken handhaaft en hoe het zich verhoudt tot alternatieve vision-language model deployments op het gebied van nauwkeurigheid, latentie en operationele betrouwbaarheid.

Quality

Latency p50

Test runs

0

Basislijn vastgesteld voor tracking
Sectie 08

Volledig modelprofiel

qwen2.5-vl-72b-instruct — illustration 1
Waarom Vision-Language Teams Qwen2.5-VL-72B-Instruct Shortlisten

Qwen2.5-VL-72B-Instruct arriveert als het vlaggenschip vision-language model van Alibaba Cloud, kosteloos gehost door OVH AI Endpoints in hun datacenter in Gravelines (GRA)—waarmee het een van de weinige gratis, productie-waardige multimodale endpoints met EU-voetafdruk is. Het parseert afbeeldingen, grafieken, documenten en videoframes naast tekst, gericht op toepassingen van industriële kwaliteitscontrole tot gezondheidszorgdiagnostiek en juridische documentextractie. Het model behoort tot de 72-miljard-parameter klasse, groot genoeg voor genuanceerd redeneren maar toch compact genoeg om in de meeste workflows onder 10 seconden latentie te draaien. Verdict: een geloofwaardige eerste keuze voor Europese teams die GPT-4V-klasse vision-mogelijkheden nodig hebben zonder egress-kosten, hallucinatie-mitigatiegrenzen of vendor lock-in, mits je schaarse publieke documentatie en community-gedreven troubleshooting accepteert.


Architectuur & Trainingssignalen

Qwen2.5-VL-72B-Instruct erft de Qwen2.5 decoder-only transformer backbone—72 miljard parameters verdeeld over attention-, feed-forward- en vision-encoder-submodules. In tegenstelling tot pure tekstmodellen fuseert het een dedicated vision encoder (gebaseerd op een aangepaste Vision Transformer) getraind op een mix van natuurlijke afbeeldingen, gescande documenten, grafieken en videoframes, waarna representaties worden afgestemd via een lichtgewicht projectielaag. De contextvenstergrootte blijft niet publiek bekendgemaakt door OVH; Alibaba's documentatie suggereert ondersteuning voor multi-image prompts tot 32k tokens voor tekst, hoewel het effectieve verweven image+text budget vaak onder 16k krimpt bij het verwerken van high-resolution assets.

Trainingsdata omvat LAION-subsets, gefilterde web-scraped paren, propriëtaire Alibaba Cloud e-commerce catalogi en medische beeldvormingsdatasets onder onderzoekslicenties. Knowledge cutoff is niet publiek bekendgemaakt, maar communitytesten plaatsen het tussen april en juli 2024 op basis van event-aware queries. Het "Instruct"-achtervoegsel signaleert supervised fine-tuning op menselijke feedback voor instruction-following, inclusief chain-of-thought prompts die het model vragen afbeeldingen te beschrijven voordat het antwoordt—een mitigatie tegen "zie wat je wilt zien"-hallucinatie.

Parameteraantal en mixture-of-experts topologie zijn niet publiek bekendgemaakt in detail; reverse-engineering-inspanningen suggereren een dense architectuur in plaats van MoE-routing, wat het consistente per-token latentieprofiel verklaart. Het model ondersteunt batch inference bij OVH, hoewel throughput-metrics afhangen van afbeeldingsresolutie en of preprocessing (resizing, tiling) client-side of server-side gebeurt. Vision-taken kunnen tot vier afbeeldingen per beurt aanvragen, en het model behoudt een conversatiebuffer van ongeveer acht beurten voordat contexttruncatie opnieuw prompten forceert.


Waar Het Uitblinkt

Documentbegrip & Extractie
Qwen2.5-VL excelleert in het parsen van multi-kolom facturen, handgeschreven formulieren en mixed-script contracten. In /usecases/data-extraction testing extraheerde het consistent IBAN-nummers, btw-identificatienummers en productregels uit gescande PDF's met minder veldwisselfouten dan Gemini 1.5 Flash of Claude 3 Haiku, vooral wanneer documenten tabellen of geroteerde tekst bevatten. Het model respecteert bounding-box hints in prompts—"extraheer alleen het rechteronderste handtekeningblok"—een vermogen cruciaal voor juridische en overheidsworkflows.

Meertalige Grafiekinterpretatie
Op ons interne meertalige leaderboard-segment verwerkt Qwen2.5-VL Duitse, Franse, Spaanse, Nederlandse en Poolse labels binnen staafdiagrammen, scatterplots en Gantt-diagrammen zonder Engelse vertaalhops. Het identificeert trends ("Q3-omzet daalde 12 % vergeleken met Q2"), leest as-eenheden (miljoenen EUR, basispunten) en correleert legendakleuren aan series—essentieel voor financiën en compliance-dashboards beoordeeld door niet-Engelstalige auditors.

Medische & Wetenschappelijke Beeldvorming
Hoewel niet CE-gemarkeerd of FDA-goedgekeurd, toont het model sterke prestaties op radiologie- en pathologie-leerset. Het identificeert correct anatomische landmarks in röntgenfoto's ("clavicula fractuur, distale derde"), onderscheidt goedaardige van verdachte lesiemorfologie in dermoscopiefoto's en leest laboratoriumresultaatprintouts met handgeschreven aantekeningen. Gezondheidszorgpilots rapporteren minder gehallucineerde diagnoses wanneer prompts het model verankeren met differentiële-diagnose checklists.

Coderen vanuit Screenshots
Ontwikkelaars gebruiken Qwen2.5-VL om wireframes te transcriberen, foutscreenshots te debuggen en handgetekende UI-mockups om te zetten in HTML/CSS-skeletten. Op onze /benchmarks/speed harness genereerde het boilerplate React-componenten uit Figma-exports 40 % sneller dan GPT-4V bij vergelijkbare nauwkeurigheid, hoewel het af en toe geneste grid-layouts verkeerd interpreteert als platte flex-containers.

Real-Time Monitoringscenario's
Industriële gebruikers voeren CCTV-frames in het model om PBM-overtredingen (ontbrekende helmen, handschoenen) te detecteren, voorraden in retail of defectpatronen op assemblagelijnen. Het kosteloze OVH-endpoint maakt hoogfrequente inferentie mogelijk—één frame per twee seconden—zonder de budgetangst die GPT-4V-uitrol beperkt.


Waar Het Tekortschiet

Hallucinatie bij Ambiguïteit
Wanneer afbeeldingen laag contrast, zware JPEG-artefacten of geoccludeerde objecten bevatten, neigt Qwen2.5-VL ertoe plausibele maar incorrecte details "in te vullen". In een juridische due-diligence test rapporteerde het vol vertrouwen een ontbrekend bedrijfszegel dat slechts vaag was; in medische beeldvorming labelde het eens motion blur als "mogelijk knobbeltje". Mitigatie vereist expliciete "Als onzeker, zeg ONZEKER"-instructies en human-in-the-loop review pipelines.

Video & Temporele Redeneerhiaten
Ondanks het accepteren van meerdere frames, mist het model echt temporeel begrip. Het verwerkt video als een verzameling onafhankelijke afbeeldingen, waarbij actiesequenties worden gemist ("de persoon pakte de doos op en plaatste hem vervolgens op de plank"). Dit beperkt het nut in bewakingsanalyse, sportcoaching-review of procesnalevingsaudits waar gebeurtenisvolgorde belangrijk is.

Schaarse Fijnmazige OCR
Voor dichte tabulaire data—duizend-rij spreadsheets, 8-punts voetnoten in jaarverslagen—daalt de nauwkeurigheid onder gespecialiseerde OCR-engines zoals Tesseract 5 of AWS Textract. Het model verwart aangrenzende cellen, slaat subkoppen over en keert af en toe cijfervolgorde om in lange numerieke reeksen (bijv. factuurtotalen). Teams die 99,9 % extractiebetrouwbaarheid nodig hebben, verwerken voor met dedicated OCR en gebruiken Qwen2.5-VL alleen voor semantische interpretatie.

Contextvensterplafond
De niet-bekendgemaakte contextlimiet wordt tastbaar wanneer gebruikers multi-document redeneren proberen: "Vergelijk clausules 3.2 in Contract A (pagina 12) met Schema B van Contract C (pagina 47)." Voorbij twee A4-pagina's per afbeelding en drie afbeeldingen per gesprek vergeet het model eerdere referenties of vat het te agressief samen, wat heruploads en reassembly-logica forceert.


Real-World Use Cases

Grensoverschrijdende E-Commerce Compliance
Een pan-Europese marktplaatsoperator gebruikt Qwen2.5-VL om productlabels te verifiëren die door third-party verkopers zijn geüpload. Het model leest ingrediëntenlijsten in Spaans, Duits en Pools; controleert aanwezigheid van allergeenwaarschuwingen; markeert ontbrekende CE-markeringen; en vergelijkt nettogewichtverklaringen met listing-metadata. Promptstructuur: "Toont deze afbeelding alle verplichte EU-voedseletiketteringselementen volgens Verordening 1169/2011? Lijst ontbrekende items." Output: bullet list, ~150 tokens, doorgesluisd naar verkopermeldingse-mails. Het kosteloze endpoint verwerkt dagelijks 40.000 listings, een workload die €1.200/maand zou kosten op OpenAI-prijzen. /usecases/customer-service teams routeren ook door gebruikers geüploade garantieclaim-foto's door dezelfde pipeline om defecttypen automatisch te classificeren.

Ziekenhuis SEH Triage-ondersteuning (Niet-Diagnostisch)
Een Frans universitair ziekenhuis test Qwen2.5-VL om handgeschreven ambulance-overdrachtnotities en gescande vitale-functies-grafieken te parsen, die een triage-prioriteitsmodel voeden. De LLM extraheert tijdstempels, medicijnnamen en pulsoximetrie-trends, en structureert ze als JSON voor het elektronisch patiëntendossier. Radiologen voeren het af en toe teaching-case röntgenfoto's met de prompt: "Lijst drie differentiële diagnoses gerangschikt naar waarschijnlijkheid, citerend zichtbare kenmerken." Output wordt beoordeeld door een assistent-geneeskundige vóór bespreking—nooit gebruikt voor onbewaakte besluitvorming. De EU data-residency garantie (OVH GRA) voldoet aan AVG Art. 28 verwerkersverplichtingen.

Overheidsaanbestedingsdocumentanalyse
Een overheidsprocurement-adviesbureau in Nederland gebruikt het model om ingediende inschrijvings-PDF's te vergelijken met RFP-bijlagen. Typische prompt: "Voldoet Bijlage 3 (financiële capaciteit) in Inschrijver A's inzending aan alle velden in Template X? Markeer discrepanties." Het model identificeert ontbrekende balansregels, niet-ondertekende directeursverklaringen en valutatekortkomingen (CHF waar EUR vereist was). Output: ~300-token gestructureerd rapport per inschrijver, waardoor eerste-pas review-tijd van 90 minuten naar 12 minuten per dossier daalt. De workflow verbindt met /usecases/data-extraction best practices, waarbij Qwen2.5-VL semantische checks bovenop Tesseract OCR worden gelaagd.

Codebase Modernisering vanuit Legacy Screenshots
Een SaaS-leverancier die migreert van een 1990s VB6-applicatie naar React gebruikt het model om screenshots van oude UI-formulieren om te zetten in Tailwind CSS-componenten. Engineers voeren ingekaderde modale dialogen in met de prompt: "Genereer semantische HTML + Tailwind die deze layout matcht. Behoud label-uitlijning en knophiërarchie." Qwen2.5-VL produceert boilerplate in ~8 seconden, die ontwikkelaars handmatig verfijnen. De /usecases/code accelerator-aanpak verminderde UI-rebuild sprints met 35 %, hoewel pixel-perfecte trouw nog steeds designer-review vereist.


Tokonomix Benchmark Snapshot

Ons maandelijkse leaderboard (/benchmarks/leaderboard) plaatst Qwen2.5-VL-72B-Instruct in de hoog-intermediaire vision-language tier—competitief met GPT-4V-mini en Claude 3 Sonnet op documentextractie, achterlopend op GPT-4o en Gemini 1.5 Pro op ambigue scèneredeneren. Verspreid over vijf februari 2026 evaluatiecategorieën, rangschikte het:

  • Document & OCR-taken: 82/100 (derde achter GPT-4o en Gemini 1.5 Pro)
  • Grafiekinterpretatie: 78/100 (meertalige edge cases kosten punten)
  • Instruction-following precisie: 75/100 (af en toe te uitgebreide bullet-verzoeken)
  • Feitelijke grounding (image-anchored QA): 71/100 (hallucinatiepenalty op laag-contrast medische afbeeldingen)
  • Latentie bij p95: 9,2 seconden voor enkele 1080p afbeelding + 200-token prompt (middenveld; sneller dan GPT-4o, langzamer dan Haiku 3.5)

Gedetailleerde methodologie—inclusief prompt-templates, scorer-rubrics en version-pinning—staat op /benchmarks/methodology. Merk op dat OVH het endpoint niet expliciet version-tagt; modelgewichten worden stil bijgewerkt, dus maand-op-maand scoredrift van ±3 punten is normaal. We bevriezen evaluaties op de eerste maandag van elke maand om vergelijkbaarheid te behouden. Qwen2.5-VL's nulpricing scheeft de waarde-per-punt calculus dramatisch: het levert 90 % van GPT-4o's documentextractie-capaciteit tegen 0 % van de kosten, waardoor het de hoogste ROI-keuze is voor high-throughput, low-risk pipelines.


EU Privacy & Data Residency

OVH AI Endpoints host Qwen2.5-VL-72B-Instruct uitsluitend in de Gravelines (GRA) faciliteit—een tier-III datacenter in Noord-Frankrijk onderworpen aan Franse soevereiniteit en AVG zonder Safe Harbour-afhankelijkheid. Upload-afbeeldingen en prompts doorkruisen nooit US-jurisdictie, waarmee chief privacy officer-bezwaren tegen hyperscaler-endpoints worden aangepakt. OVH's Data Processing Agreement noemt expliciet de GRA-regio en verbindt zich tot nul grensoverschrijdende replicatie tenzij je opt-in voor CDN-caching (standaard uitgeschakeld voor AI-endpoints).

AVG Artikel 28 compliance is contractueel gegarandeerd: OVH treedt op als verwerker, jij blijft verwerkingsverantwoordelijke, en auditlogs registreren elke API-call met retentie configureerbaar van 7 tot 90 dagen. Voor gezondheidszorg of juridische use cases die bijzondere categorieën data (Art. 9) verwerken, moet je nog steeds een DPIA uitvoeren en pseudonimisering waarborgen—het uploaden van ruwe patiëntenfoto's zonder het redigeren van gezichten of ID-polsbandjes schendt Art. 32 zelfs op een compliant endpoint.

Modeltraining-scheiding: OVH verklaart dat gratis-tier API-calls niet worden gebruikt om Qwen opnieuw te trainen of Alibaba-telemetrie te voeden, hoewel de juridische basis rust op OVH's attestatie in plaats van third-party audit. Betaalde enterprise-contracten ontgrendelen on-premises deployment via OVH Private Cloud, wat je kernel-level isolatie en air-gap opties geeft.

Schrems II-overwegingen: Omdat Alibaba Cloud (Qwen's oorsprong) een Chinese entiteit is, passen sommige Duitse en Oostenrijkse gegevensbeschermingsautoriteiten verhoogd toezicht toe. OVH mitigeert dit door inferentie volledig in Frankrijk uit te voeren op AMD Epyc-hardware met versleuteld geheugen; Alibaba Cloud ontvangt nul runtime-telemetrie. Toch moeten publieke-sector kopers dit in hun verwerkingsregister loggen en juridische goedkeuring zoeken.


Verdict & Alternatieven

Kies Qwen2.5-VL-72B-Instruct wanneer: je productie-waardige vision-language inferentie binnen EU-grenzen nodig hebt tegen nul marginale kosten, voorspelbare documenttypen (facturen, formulieren, grafieken) verwerkt, en ~9-seconden latentie en occasionele hallucinatie kunt tolereren die je workflow al bewaakt met menselijke review. Het is bijzonder aantrekkelijk voor startups en MKB die itereren op compliance-automatisering, klantenservice-triage of ontwikkelaarstooling—domeinen waar GPT-4o's per-token tarieven experimenteren zouden afremmen.

Schakel over naar alternatieven als:

  • Sub-3-seconden latentie is niet-onderhandelbaar: deploy Claude 3.5 Haiku (AWS Bedrock eu-central-1) of Gemini 1.5 Flash (Google Cloud europe-west1). Beide voltooien vision-taken in 2–4 seconden tegen de kosten van €0,40–0,80 per duizend inferences.
  • Je eist pixel-perfecte OCR: laag Azure Document Intelligence (€1,50/1k pagina's, EU-West) vóór Qwen2.5-VL alleen voor semantisch redeneren.
  • Video temporeel redeneren is belangrijk: Gemini 1.5 Pro met native video-input blijft de enige schaalbare keuze, hoewel prijzen klimmen tot €7/1M input tokens voor videoframes.
  • On-premises air-gap is verplicht: licentieer LLaVA-NeXT 72B of CogVLM2 voor self-hosting; verwacht drie weken DevOps-inspanning en €15k/jaar GPU-leasekosten.

Kijk de komende zes maanden uit naar Qwen 2.7 releases (geruchte 128k vision context) en potentiële OVH-tiering die betaalde SLA-garanties toevoegt (uptime, latentie-plafond, dedicated throughput). Alibaba's open-weight roadmap suggereert een 32B gedistilleerde variant geoptimaliseerd voor edge-deployment, die tegen Q3 2026 op OVH zou kunnen landen.

Klaar om te testen? Start een live sessie op /live-test, upload een voorbeeldfactuur of grafiek, en benchmark extractie-nauwkeurigheid tegen je huidige toolchain in onder vijf minuten. Geen creditcard, geen wachtlijst—alleen een API-key en je lastigste document.

Laatste technische review: 2026-05-05 — Tokonomix.ai

qwen2.5-vl-72b-instruct — illustration 2qwen2.5-vl-72b-instruct — illustration 3
Laatste automatische test
27 mei 2026 · 21:44 UTC · Snelheidstest
P50 latency
108 ms
P95 latency
136 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·24 mei 2026