Use cases/Lokaal & zelf-gehost

Welk open-weight model moet je zelf hosten?

Zelf een taalmodel hosten is de optie die teams te snel afschrijven en te laat omarmen. Je hoort te vaak dat het "achterloopt op de hosted frontier" — maar je kunt vandaag draaien wat twaalf maanden geleden state-of-the-art was, voor een fractie van de recurring cost. De adoptie komt dan alsnog in een paniekbeweging, nadat een compliance-review een dealbreaker oplevert in de servicevoorwaarden van iemand anders. Deze gids kiest vijf open-weight modellen waarop we nu een zelf-gehoste stack zouden bouwen, plus de dimensies die bepalen welk model bij jouw hardware past.

Zelf-gehost GPU-rack — conceptafbeelding — Het juiste open-weight model op de juiste kaart is bij schaal goedkoper dan elk hosted alternatief.

Waarom zelf hosten een tweede kans verdient

Het argument tegen open-weight modellen was vroeger eenvoudig: de hosted frontier loopt zo ver voor dat alles anders een valse besparing is. Dat argument werd elk kwartaal van 2024 en 2025 zwakker. De sterkste open modellen van nu evenaren wat een jaar geleden de hosted topmodellen waren — voldoende kwaliteit voor vrijwel elke productie-workload die geen klantgerichte chat is. De kloof met de scherpe rand is er nog, maar de kloof met "goed genoeg" is verdwenen.

De reden om lokaal te gaan is zelden kwaliteit. Het gaat om data-residency, terugkerende kosten, latentie in regio's waar de grote vendors nauwelijks aanwezig zijn, en de zekerheid dat je model niet onder je handen verandert als de provider een generatie afschrijft. Een team dat tien miljoen interne documenten per maand verwerkt voor classificatie kan zes figuren per jaar besparen op zelf-gehoste infrastructuur versus pay-per-token. Een team met gereguleerde data omzeilt een heel procurement-traject. Een team in een regio met hoge latentie naar Amerikaanse datacenters serveert gebruikers een orde van grootte sneller.

De kostenrekening is niet zo eenvoudig als "modelgewichten zijn gratis". Je betaalt voor GPU's — gekocht of gehuurd — en voor de engineering-uren om ze te beheren. Het break-even punt hangt af van tokenvolume: onder ruwweg honderd miljoen tokens per maand winnen hosted API's bijna altijd op totale kosten; boven een miljard bijna altijd zelf-hosting. In het middelste bereik beslissen de workload-specifieke details.

Vijf constraints bepalen de keuze: hoeveel VRAM het model nodig heeft bij een kwaliteit die je accepteert, de licentievoorwaarden voor jouw use case, de rijpheid van het ecosysteem eromheen, en de latentie die het model op jouw hardware werkelijk levert. Het juiste model is het model dat alle vijf afvinkt — niet het model met de beste paper-benchmark.

Zelf-gehoste serving stack — conceptafbeelding — De serving stack — vLLM, Ollama, llama.cpp — is even bepalend als het model zelf.

De vijf dimensies die bepalen welk model past

Dit zijn de assen waarop onze scorecard weegt bij het kiezen van een open-weight model voor productie-zelf-hosting. De relatieve weging verschuift met je hardwarebudget, je jurisdictie en je tolerantie voor rauwe ecosysteemranden — maar elke serieuze kandidaat haalt een minimumdrempel op alle vijf.

01 — Hardware fit
Draait het op de kaarten die je écht hebt?
Een model dat een multi-GPU node vereist is een andere propositie dan een model op één consumentenkaart. Bereken altijd de VRAM-behoefte bij de kwantisatie die je wil deployen en voeg ruimte toe voor de KV-cache op de gewenste contextlengte. De goedkoopste fout is te veel hardware kopen; de duurste is te weinig.
02 — Kwaliteit bij kwantisatie
Hoeveel verliest het bij het quant-niveau dat past?
Kwantisatie ruilt kwaliteit voor geheugen en snelheid. Sommige modellen houden bij vier-bit quants goed stand; andere degraderen merkbaar onder acht. De gepubliceerde full-precision benchmarks zeggen je weinig — meet op het quant-niveau dat jouw hardware toelaat, en accepteer dat de ranglijst daardoor kan omslaan.
03 — Licentievoorwaarden
Mag je het zo gebruiken als je van plan bent?
Open gewichten zijn niet allemaal open licenties. Sommige staan breed commercieel gebruik toe zonder verplichtingen; andere bevatten gebruiksdrempels, attributie-clausules of distributiebeperkingen. Lees de licentie vóór je bouwt, niet erna. Een vriendelijke licentie met iets minder kwaliteit verslaat meestal een strengere die je juridische afdeling uiteindelijk afwijst.
04 — Ecosysteemondersteuning
Is de serving stack ruw of gepolijst?
Een model met first-class ondersteuning in vLLM, Ollama en llama.cpp is ordes van grootte goedkoper te beheren dan een model dat alleen een referentiescript en een hoopvolle README heeft. Tooling-rijpheid is de verborgen kost die de meeste teams onderschatten; die verschijnt in de engineer-uren die je besteedt aan incidenten.
05 — Latentie op jouw hardware
Genereert het snel genoeg voor de use case?
Een zelf-gehost model dat tien tokens per seconde produceert op de GPU die je kan betalen is een model dat je niet kunt gebruiken voor chat. Meet tokens-per-seconde onder realistische concurrency op de exacte kaart die je wil deployen; cijfers van iemand anders zijn H100 gaan niet over op jouw L40S.

Tokonomix top 5 picks voor zelf-hosting vandaag

Wat volgt is de set die we volgende week op bare metal zouden deployen. Zelf-hosting beloont een andere selectie dan de hosted-API wereld — het juiste hoofdmodel is meestal het grootste model dat nog ruimte laat op de GPU bij het quant-niveau dat je tolereert. Voeg een kleiner tweede model toe achter een router voor queries die de grote versie niet nodig hebben, en de economie begint in jouw voordeel te werken.

#1 · Referentie open-weightTier B

Meta-Llama-3_3-70B-Instruct

via OVH AI Endpoints (GRA)

Het de-facto startpunt van elke open-weight discussie. Sterke instructieopvolging, brede taaldekking, en een community-ecosysteem (Ollama, vLLM, llama.cpp) dat dieper gaat dan elk alternatief. Vraagt serieuze hardware — twee consumentenkaarten of één datacenterkaart — maar de kwaliteit op die schaal rechtvaardigt het.

Input / 1M tokens: $0.6700
Output / 1M tokens: $0.6700
Context: —

Volledig benchmark-profiel →

#2 · Sweet spot voor één GPUTier B

Qwen3-32B

via OVH AI Endpoints (GRA)

Past comfortabel op één high-end consumentenkaart bij redelijke kwantisatie, met kwaliteit dicht bij de grotere Llama voor de meeste workloads. De juiste keuze als het budget één kaart is, geen cluster, en Engels niet de enige taal is die het model goed moet beheersen.

Input / 1M tokens: $0.0800
Output / 1M tokens: $0.2300
Context: —

Volledig benchmark-profiel →

#3 · Europese keuzeTier B

Mistral-Small-3.2-24B-Instruct-2506

via OVH AI Endpoints (GRA)

Permissief gelicentieerde open gewichten van een Europese vendor, gehost op EU-resident infrastructuur, en afgestemd op talen die US-modellen dunnetjes beheersen. Een logische keuze voor teams met aanbestedingsregels die EU-herkomst vereisen of met gebruikers die iets anders spreken dan de top drie. Herlees altijd de licentie op de modelkaart vóór commercieel gebruik.

Input / 1M tokens: $0.0900
Output / 1M tokens: $0.2800
Context: —

Volledig benchmark-profiel →

#4 · Google's open bijdrageTier C

gpt-oss-120b

via OVH AI Endpoints (GRA)

Sterk general-purpose instruct-model met permissieve licentie en goede multimodale ondersteuning in de vision-varianten. Kleiner dan de Llama- en Qwen-flagships maar presteert ver boven zijn gewicht; een solide standaard wanneer ecosysteem-rijpheid zwaarder telt dan het absolute leaderboard-top.

Input / 1M tokens: $0.0800
Output / 1M tokens: $0.4000
Context: —

Volledig benchmark-profiel →

Hosted prijsreferentie (als je niet zelf host)

Zelf hosten is één optie; de andere is inference kopen bij een provider die dezelfde open-weight modellen voor je draait. De grafiek toont de live hosted prijs per miljoen output tokens voor de picks die er één publiceren — handig als sanity-check voor je eigen zelf-gehoste unit economics.

Meta-Llama-3_3-70B-Instruct$0.6700

Qwen3-32B$0.2300

Mistral-Small-3.2-24B-Instruct-2506$0.2800

gpt-oss-120b$0.4000

Prijs per 1M output tokens, USD, zoals gepubliceerd door een inference-provider die het model host. Modellen zonder vermelde hosted prijs zijn weggelaten. Bron: live provider-prijzen bijgehouden door Tokonomix.

GPU-utilisatie dashboard — conceptafbeelding — Het cijfer dat telt is tokens-per-seconde per dollar, gemeten op jouw eigen hardware.

Veldgids: welk model voor welke hardware

De indeling hieronder is wat we zouden gebruiken om een team te adviseren bij de keuze van hun eerste zelf-gehoste model. Behandel het als startpunt, niet als vonnis — tokens-per-seconde meten op je eigen GPU verslaat elke algemene aanbeveling.

Pattern A

Één consumentenkaart (24-32 GB VRAM)

Workstation of developer-laptop met één sterke kaart. Mistral Small 3.2 of Qwen3-32B bij vier-bit quant geven de beste kwaliteit-per-kaart in dit bereik. Serve via Ollama voor gebruiksgemak of vLLM voor hogere throughput.

Pattern B

Datacenter inference node

Een L40S, A100 of H100 dedicated aan inference. Llama 3.3 70B is de veilige standaard; stap op naar gpt-oss-120b als de kwaliteitskloof telt en de hardware het aankan. vLLM met paged attention voor serving.

Pattern C

CPU-only of edge device

Embedded device, privacy-modus op laptop, of een server zonder GPU. Beperk je tot kleine modellen — Gemma 3 4B of Mistral 7B — geserveerd via llama.cpp. Stel realistische verwachtingen: de kwaliteit haalt een hosted tier-A model niet.

Pattern D

Beheerde open-weight inference

Je wilt de licentie en herkomst van open modellen zonder de GPU's zelf te draaien. Providers zoals OVH AI Endpoints serveren Llama, Mistral, Qwen en Gemma op EU-resident infrastructuur met per-token pricing — tussenweg tussen volledig zelf-hosten en hosted frontier.

Zelf-gehoste ops-setup — conceptafbeelding — De operationele overhead is reëel — budget engineer-uren, niet alleen GPU-uren.

Benchmark op je eigen hardware voordat je kiest

Leen de GPU die je wil deployen. Laad twee kandidaten op de kaart bij het quant-niveau dat je werkelijk wil shippen — niet de full-precision versie op een geleende H100 — en stuur dezelfde honderd prompts door beide modellen bij realistische concurrency. Je leert in één middag meer over welk model bij je past dan welke benchmark-pagina je in een kwartaal kan vertellen.

Lees daarna wat eruit komt. Heeft het de kwantisatie doorstaan? Hield de throughput stand onder gelijktijdige belasting? Overleefde de licentie de eerste lezing van je juridische afdeling? Behandelt je gekozen serving stack het als first-class citizen of als bijzaak? Het model dat wint op jouw hardware is het model dat in productie gaat — ook als geen enkel leaderboard het bovenaan zet.

Open de live test tool →