Kan ik dit model fine-tunen op mijn eigen data?

Ja, open modellen zijn doorgaans fine-tunebaar. De licentievoorwaarden bepalen of commercieel gebruik en aanpassing is toegestaan.

Hoe verhoudt dit model zich tot gesloten modellen?

Open modellen bieden meer controle en lagere variabele kosten, maar presteren op sommige benchmarks iets lager dan de beste gesloten alternatieven.

Via welke providers kan ik dit model gebruiken?

Dit model is beschikbaar via OVH AI Endpoints (GRA) en mogelijk andere inference-providers. Controleer de beschikbaarheid en prijsstelling per provider.

Tier C — Specialist

Draait in:FranceGemaakt in:United States

OVH AI Endpoints (GRA)

gpt-oss-20b

Q: Wat zijn de voordelen van gpt-oss-20b als open model?

gpt-oss-20b is beschikbaar als open-gewichtenmodel, wat inzet op eigen infrastructuur en volledige controle over data mogelijk maakt.

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 26 mei 2026

GPT-OSS-20B is een tekstgeneratiemodel dat wordt aangeboden via OVH AI Endpoints, specifiek gehost in het Gravelines (GRA) datacenterregio van OVH in Frankrijk. Dit model biedt standaard natural language processing-mogelijkheden, waaronder tekstcompletie, vraagbeantwoording en algemene conversatietaken. Als onderdeel van de OVH AI Endpoints-service opereert het binnen de Europese cloud-infrastructuur van OVH, wat het positioneert voor gebruikers die dataresidentie binnen de EU vereisen of de voorkeur geven aan Europese compute-resources. De contextwindowspecificaties van het model zijn niet publiekelijk gedocumenteerd, hoewel het typische language model-operaties ondersteunt voor enterprise- en ontwikkelaarstoepassingen. GPT-OSS-20B verwerkt standaard tekstgeneratieworkloads zonder gespecialiseerde functies voor multimodale verwerking, function calling of andere geavanceerde mogelijkheden. Het functioneert als een eenvoudig taalmodel geschikt voor integratie in applicaties die geautomatiseerde tekstgeneratie, contentverwerking of conversatie-interfaces vereisen. Binnen het OVH AI Endpoints-portfolio vertegenwoordigt GPT-OSS-20B een toegankelijke optie voor organisaties die al gebruikmaken van de cloudservices van OVH of die AI inference-mogelijkheden zoeken gehost in Europese datacenters. Het model dient als een algemeen taalmodel in plaats van een gespecialiseerd of vlaggenschip-aanbod, en biedt basistekstgeneratiefunctionaliteit voor ontwikkelaars die applicaties bouwen op de infrastructuur van OVH. De beschikbaarheid via OVH AI Endpoints maakt integratie met andere OVH-services mogelijk terwijl geografische datalocaliteit binnen het netwerk van de provider behouden blijft.

Test gpt-oss-20b met je eigen vragen

gpt-oss-20b combineert open toegankelijkheid met solide prestaties voor diverse toepassingen.
— Tokonomix benchmark-samenvatting

Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency101 runs

Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

Creatief

Feitelijk

100

Meertaligheid

Redeneren

Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — gpt-oss-20b

$0.0400 per 1M input-tokens

$0.1500 per 1M output-tokens

≈ <$0.0001 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$0.0400

per 1M output-tokens$0.1500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0400

input / 1M

— stable

$0.1500

output / 1M

— stable

2026-06-142026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)803 / avg 737

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Open gewichten beschikbaarOn-premises inzetbaarVolledige datasoevereiniteitGeen per-token licentiekostenAanpasbaar via fine-tuningActieve open-source community

Zwakke punten

Eigen infrastructuur vereistMeer technisch beheer nodigLager dan gesloten topmodellen

Sectie 06

Mogelijkheden

ownedBy: OpenAI

Sectie 07

Veelgestelde vragen

gpt-oss-20b is beschikbaar als open-gewichtenmodel, wat inzet op eigen infrastructuur en volledige controle over data mogelijk maakt.

Een uitstekende optie voor organisaties die controle over hun AI-infrastructuur prioriteren.
— Tokonomix benchmark-samenvatting

Sectie 08

Beschikbaarheid

Hoe vaak dit model antwoordt als we het aanroepen — gemeten over echte API-aanvragen en live-tests in de afgelopen 30 dagen. Dit staat los van kwaliteit: deze cijfers laten alleen zien of het model reageert, niet hoe goed het antwoord is.

Afgelopen 7 dagen

—

Afgelopen 30 dagen

100.0%

n=1

Mediane responstijd

449ms

n=1

Gebaseerd op 381 metingen in de afgelopen 30 dagen.

Technische details

Alleen echte API-aanroepen en live-testverzoeken tellen mee — interne probes en benchmarkruns zijn uitgesloten.

Aanroepen met een eigen API-sleutel (BYOK) zijn uitgesloten: die fouten zijn sleutelspecifiek en geen teken van modelneergang.

Mislukte aanroepen worden NIET meegeteld in kwaliteitsscores — kwaliteit wordt gemeten op geslaagde responses. Beschikbaarheid en kwaliteit zijn onafhankelijke signalen.

Mediane responstijd (p50) over geslaagde aanroepen met een vastgelegde duur. Uitschieters trekken de mediaan minder dan het gemiddelde.

Totaal aanroepen (30d)

OK-reacties (30d)

Totaal aanroepen (7d)

OK-reacties (7d)

Sectie 09

Tokonomix benchmark-oordelen

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-579/100 · 52 runs

39 correct3 partial10 wrong75% accuracy

● 2026-07-26

gpt-oss-20b plummets to 48.5 as factual and reasoning scores hit zero

This benchmark window reveals a dramatic performance collapse for gpt-oss-20b, with the overall quality score dropping 45.6 points from 94.1 to 48.5. The most alarming development is the complete failure in factual and reasoning categories, both scoring zero compared to strong previous performance. This suggests a fundamental regression in the model's core capabilities for logical processing and accurate information retrieval. The creative writing score surged to 94, up from 85, and multilingual support maintained its perfect 100 rating, demonstrating that some capabilities remain intact. Latency improved slightly from 7330ms to 7132ms at the median, though this minor speed gain is overshadowed by the quality deterioration. The test sample size remained consistent at 5 runs per window. Users should exercise caution deploying this model for factual or analytical tasks until these critical regressions are addressed. The selective nature of the failures, with creative and multilingual tasks unaffected while reasoning collapses entirely, points to a possible configuration issue or model version regression rather than general degradation.

Quality

48.5

Latency p50

7,132 ms

Test runs

✗ Factual accuracy dropped to zero✗ Reasoning capability completely failed✓ Creative score improved to 94✓ Multilingual remains perfect at 100

Sectie 10

Volledig modelprofiel

OVH gpt-oss-20b: de compacte variant van OpenAI's open-weight genealogie op EU-soevereine hosting

OVH AI Endpoints serveert gpt-oss-20b vanuit zijn datacenter in Gravelines (Frankrijk), de kleinere 20-miljard-parameter tegenhanger van de 120b-release in dezelfde OpenAI open-weight familie. De afwegingen ten opzichte van de grotere variant zijn de voor de hand liggende: minder capaciteit, snellere responses, lager rekenbeslag. Wat hetzelfde blijft is het EU-soevereine hostingverhaal en de OpenAI-genealogie waar productieteams jaren tegen hebben gekalibreerd.

Wat de 20b-tier daadwerkelijk levert

De 20b parameterschaal is groot genoeg voor algemene tekstgeneratie, instructievolgen, gestructureerde output en matig complexe multi-turn conversaties. Voor workloads waar de volledige 120b overdreven is, behandelt de 20b hetzelfde type taken tegen een fractie van de rekenkosten en met aanzienlijk lagere latency.

Codegeneratie op matige schaal werkt goed. Scripts van enkele tientallen regels schrijven, kleine functies refactoren, uitleggen wat onbekende code doet. De 20b vangt de meeste gevallen op die ertoe doen voor dagelijkse ontwikkelaarshulp zonder het kostenprofiel te raken dat hoogfrequent gebruik van een 120b-model zou impliceren.

Meertalige dekking wordt voortgezet vanaf het grotere model. Frans, Duits, Nederlands, Spaans, Italiaans, Portugees en Pools werken allemaal goed op de 20b-tier, hoewel genuanceerde literaire vertaling en complexe domeinspecifieke terminologie zwakheden beginnen te vertonen die de 120b beter zou aankunnen. Voor klantenservicevertaling, marketingcopy-aanpassing en het meeste alledaagse meertalige werk is de 20b voldoende.

De OVH-hosting biedt hetzelfde EU-soevereine data-residency-verhaal als de 120b. Verkeer blijft in Frankrijk. Operaties worden beheerst door Franse en Europese datawetgeving. Het data-processing-agreement-gesprek met EU-klanten is eenvoudig.

Waar het werkt

Hoogvolume tekstworkloads waar kosten per aanroep domineren en de gemiddelde taakcomplexiteit matig is. Chatbot-backends voor klantenservice, content-moderatiepipelines, gestructureerde extractieworkflows over documenten die geen frontier reasoning vereisen, batch-samenvattingsjobs.

Latency-gevoelige applicaties waar de snellere inferentie van de 20b ertoe doet. Interactieve chatinterfaces waar de gebruiker een respons in enkele seconden verwacht in plaats van te wachten tot het model nadenkt. Real-time content-augmentatie waar het model gelijke tred moet houden met het typen of browsen van een gebruiker in plaats van een batch-service op de achtergrond te zijn.

EU-hostingvereisten met een budgetomvang die de grotere 120b niet rechtvaardigt voor routinematig werk. De 20b is de juiste tier wanneer het soevereiniteitsverhaal een harde vereiste is en de workload het capaciteitsplafond van het grotere model niet nodig heeft.

Ontwikkelings- en prototypingworkflows waar je snel wilt itereren op prompts en architecturen voordat je besluit te investeren in hogere-tier inferentie. De lagere kosten en snellere responstijd van de 20b maken het de betere fit voor de snelle iteratiefase van het bouwen van een applicatie.

Waar het tekortschiet

Complexe reasoning-taken die profiteren van een grotere parameterschaal. De 20b produceert plausibel ogende antwoorden op moeilijke vragen maar mist subtiliteiten die de gpt-oss-120b wel oppikt. Voor workloads waar reasoning-diepgang ertoe doet en EU-hosting vereist is, is de 120b de betere tier.

Codesynthese op significante schaal. Een algoritme van betekenisvolle complexiteit schrijven, een verwarde functie met veel interacterende aspecten refactoren, niet-triviale testsuites genereren. De 20b behandelt kleinschalige codering goed maar het faalpercentage stijgt naarmate de scope groeit.

Frontier-capability workloads. Geen enkel 20b-model concurreert met het absolute capaciteitsplafond dat propriëtaire frontier-modellen bereiken. De 20b is de volume-tier, niet de frontier-tier, en het gebruiken ervan voor workloads die echt frontier-capaciteit nodig hebben geeft je gefrustreerde outputs.

Multimodaal werk. Het model is alleen-tekst. Voor vision, audio of multimodale capaciteit biedt OVH andere modelfamilies zoals qwen2.5-vl-72b-instruct voor vision-language werk via hetzelfde EU-soevereine hostingpatroon.

Het kiezen of opschalen

Voor EU-klanten die hoogvolume tekstapplicaties bouwen en de OpenAI-genealogie willen tegen een kostenprofiel dat schaalt, is gpt-oss-20b op OVH de juiste standaardkeuze. De configuratie behandelt het merendeel van routinematige tekstworkloads tegen een unit economics die de 120b niet kan evenaren.

Voor workloads waar capaciteit meer uitmaakt dan kosten, is gpt-oss-120b de upgrade binnen dezelfde genealogie en dezelfde hostingomgeving. De migratie is triviaal in API-oppervlak. Het kostenverschil is betekenisvol, dus de vraag is of je workload daadwerkelijk het grotere model nodig heeft.

Voor workloads op de 20b parameterschaal die niet specifiek de OpenAI-genealogie nodig hebben, biedt OVH sterke alternatieven. llama-3.1-8b-instruct zit aan het kleinere einde van dezelfde algemene capaciteitstier. mistral-small-3.2-24b-instruct-2506 is het Europese-oorsprong alternatief op vergelijkbare schaal. qwen3-32b is een andere algemene optie met iets hoger parameteraantal, eveneens in de EU-soevereine hostingomslag.

Voor workloads die echte frontier-capaciteit nodig hebben en non-EU hosting kunnen accepteren, is de directe OpenAI API met nieuwere reasoning- en multimodale modellen het alternatieve pad. De keuze tussen EU-soevereine capabele inferentie en frontier-capabele US-gehoste inferentie is de strategische beslissing die dit model bestaat om te informeren.

Laatste technische review: 2026-05-22 — Tokonomix.ai

Laatste automatische test

30 jul 2026 · 08:04 UTC · Snelheidstest

P50 latency

249 ms

P95 latency

250 ms

Fouten

0 / 6 runs

Laatst beoordeeld door Tokonomix-team·26 mei 2026