Naar inhoud
Tier C — Specialist
Draait in:FranceGemaakt in:United States
OVH AI Endpoints (GRA)

gpt-oss-20b

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

GPT-OSS-20B is een tekstgeneratiemodel dat wordt aangeboden via OVH AI Endpoints, specifiek gehost in het Gravelines (GRA) datacenterregio van OVH in Frankrijk. Dit model biedt standaard natural language processing-mogelijkheden, waaronder tekstcompletie, vraagbeantwoording en algemene conversatietaken. Als onderdeel van de OVH AI Endpoints-service opereert het binnen de Europese cloud-infrastructuur van OVH, wat het positioneert voor gebruikers die dataresidentie binnen de EU vereisen of de voorkeur geven aan Europese compute-resources. De contextwindowspecificaties van het model zijn niet publiekelijk gedocumenteerd, hoewel het typische language model-operaties ondersteunt voor enterprise- en ontwikkelaarstoepassingen. GPT-OSS-20B verwerkt standaard tekstgeneratieworkloads zonder gespecialiseerde functies voor multimodale verwerking, function calling of andere geavanceerde mogelijkheden. Het functioneert als een eenvoudig taalmodel geschikt voor integratie in applicaties die geautomatiseerde tekstgeneratie, contentverwerking of conversatie-interfaces vereisen. Binnen het OVH AI Endpoints-portfolio vertegenwoordigt GPT-OSS-20B een toegankelijke optie voor organisaties die al gebruikmaken van de cloudservices van OVH of die AI inference-mogelijkheden zoeken gehost in Europese datacenters. Het model dient als een algemeen taalmodel in plaats van een gespecialiseerd of vlaggenschip-aanbod, en biedt basistekstgeneratiefunctionaliteit voor ontwikkelaars die applicaties bouwen op de infrastructuur van OVH. De beschikbaarheid via OVH AI Endpoints maakt integratie met andere OVH-services mogelijk terwijl geografische datalocaliteit binnen het netwerk van de provider behouden blijft.

gpt-oss-20b combineert open toegankelijkheid met solide prestaties voor diverse toepassingen.

Tokonomix benchmark-samenvatting
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency97 runs
33790015767236333150005-2206-15ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

100
Code generatie
92
Meertaligheid
100
Redeneren
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — gpt-oss-20b
$0.0400 per 1M input-tokens
$0.1500 per 1M output-tokens
≈ <$0.0001 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.0400
per 1M output-tokens$0.1500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0400

input / 1M

— stable

$0.1500

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)778 / avg 728
594616

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Open gewichten beschikbaarOn-premises inzetbaarVolledige datasoevereiniteitGeen per-token licentiekostenAanpasbaar via fine-tuningActieve open-source community

Zwakke punten

Eigen infrastructuur vereistMeer technisch beheer nodigLager dan gesloten topmodellen
Sectie 06

Mogelijkheden

ownedBy: OpenAI
Sectie 07

Veelgestelde vragen

gpt-oss-20b is beschikbaar als open-gewichtenmodel, wat inzet op eigen infrastructuur en volledige controle over data mogelijk maakt.

Een uitstekende optie voor organisaties die controle over hun AI-infrastructuur prioriteren.

Tokonomix benchmark-samenvatting
Sectie 08

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 09

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-578/100 · 12 runs
9 correct0 partial3 wrong75% accuracy
2026-06-14

gpt-oss-20b maintains stable performance across all measured metrics

The gpt-oss-20b model from OVH AI Endpoints continues to demonstrate consistent performance characteristics across the current benchmark window. All core metrics remain unchanged from the previous evaluation period, indicating operational stability. The model maintains its median time to first token at 0.31 seconds and output speed at 94.17 tokens per second, showing reliable latency characteristics for production use. Quality scores hold steady with a median of 0.80, suggesting consistent output characteristics. The model continues to serve successfully without availability issues. Users can expect the same level of performance they experienced in the previous benchmark period, with no degradation or improvement in measurable metrics. This stability may be valuable for applications requiring predictable behavior and consistent response times. The model appears well-suited for workloads where maintaining established performance baselines is important. While no performance improvements are evident in this window, the absence of regression suggests reliable operation. Users should be aware that while pricing has been updated in this period, the technical performance profile remains entirely stable.

Quality

Latency p50

Test runs

0

Stable latency metrics maintained Consistent quality scores No performance regression detected
Sectie 10

Volledig modelprofiel

gpt-oss-20b — illustration 1
OVH gpt-oss-20b: de compacte variant van OpenAI's open-weight genealogie op EU-soevereine hosting

OVH AI Endpoints serveert gpt-oss-20b vanuit zijn datacenter in Gravelines (Frankrijk), de kleinere 20-miljard-parameter tegenhanger van de 120b-release in dezelfde OpenAI open-weight familie. De afwegingen ten opzichte van de grotere variant zijn de voor de hand liggende: minder capaciteit, snellere responses, lager rekenbeslag. Wat hetzelfde blijft is het EU-soevereine hostingverhaal en de OpenAI-genealogie waar productieteams jaren tegen hebben gekalibreerd.

Wat de 20b-tier daadwerkelijk levert

De 20b parameterschaal is groot genoeg voor algemene tekstgeneratie, instructievolgen, gestructureerde output en matig complexe multi-turn conversaties. Voor workloads waar de volledige 120b overdreven is, behandelt de 20b hetzelfde type taken tegen een fractie van de rekenkosten en met aanzienlijk lagere latency.

Codegeneratie op matige schaal werkt goed. Scripts van enkele tientallen regels schrijven, kleine functies refactoren, uitleggen wat onbekende code doet. De 20b vangt de meeste gevallen op die ertoe doen voor dagelijkse ontwikkelaarshulp zonder het kostenprofiel te raken dat hoogfrequent gebruik van een 120b-model zou impliceren.

Meertalige dekking wordt voortgezet vanaf het grotere model. Frans, Duits, Nederlands, Spaans, Italiaans, Portugees en Pools werken allemaal goed op de 20b-tier, hoewel genuanceerde literaire vertaling en complexe domeinspecifieke terminologie zwakheden beginnen te vertonen die de 120b beter zou aankunnen. Voor klantenservicevertaling, marketingcopy-aanpassing en het meeste alledaagse meertalige werk is de 20b voldoende.

De OVH-hosting biedt hetzelfde EU-soevereine data-residency-verhaal als de 120b. Verkeer blijft in Frankrijk. Operaties worden beheerst door Franse en Europese datawetgeving. Het data-processing-agreement-gesprek met EU-klanten is eenvoudig.

Waar het werkt

Hoogvolume tekstworkloads waar kosten per aanroep domineren en de gemiddelde taakcomplexiteit matig is. Chatbot-backends voor klantenservice, content-moderatiepipelines, gestructureerde extractieworkflows over documenten die geen frontier reasoning vereisen, batch-samenvattingsjobs.

Latency-gevoelige applicaties waar de snellere inferentie van de 20b ertoe doet. Interactieve chatinterfaces waar de gebruiker een respons in enkele seconden verwacht in plaats van te wachten tot het model nadenkt. Real-time content-augmentatie waar het model gelijke tred moet houden met het typen of browsen van een gebruiker in plaats van een batch-service op de achtergrond te zijn.

EU-hostingvereisten met een budgetomvang die de grotere 120b niet rechtvaardigt voor routinematig werk. De 20b is de juiste tier wanneer het soevereiniteitsverhaal een harde vereiste is en de workload het capaciteitsplafond van het grotere model niet nodig heeft.

Ontwikkelings- en prototypingworkflows waar je snel wilt itereren op prompts en architecturen voordat je besluit te investeren in hogere-tier inferentie. De lagere kosten en snellere responstijd van de 20b maken het de betere fit voor de snelle iteratiefase van het bouwen van een applicatie.

Waar het tekortschiet

Complexe reasoning-taken die profiteren van een grotere parameterschaal. De 20b produceert plausibel ogende antwoorden op moeilijke vragen maar mist subtiliteiten die de gpt-oss-120b wel oppikt. Voor workloads waar reasoning-diepgang ertoe doet en EU-hosting vereist is, is de 120b de betere tier.

Codesynthese op significante schaal. Een algoritme van betekenisvolle complexiteit schrijven, een verwarde functie met veel interacterende aspecten refactoren, niet-triviale testsuites genereren. De 20b behandelt kleinschalige codering goed maar het faalpercentage stijgt naarmate de scope groeit.

Frontier-capability workloads. Geen enkel 20b-model concurreert met het absolute capaciteitsplafond dat propriëtaire frontier-modellen bereiken. De 20b is de volume-tier, niet de frontier-tier, en het gebruiken ervan voor workloads die echt frontier-capaciteit nodig hebben geeft je gefrustreerde outputs.

Multimodaal werk. Het model is alleen-tekst. Voor vision, audio of multimodale capaciteit biedt OVH andere modelfamilies zoals qwen2.5-vl-72b-instruct voor vision-language werk via hetzelfde EU-soevereine hostingpatroon.

Het kiezen of opschalen

Voor EU-klanten die hoogvolume tekstapplicaties bouwen en de OpenAI-genealogie willen tegen een kostenprofiel dat schaalt, is gpt-oss-20b op OVH de juiste standaardkeuze. De configuratie behandelt het merendeel van routinematige tekstworkloads tegen een unit economics die de 120b niet kan evenaren.

Voor workloads waar capaciteit meer uitmaakt dan kosten, is gpt-oss-120b de upgrade binnen dezelfde genealogie en dezelfde hostingomgeving. De migratie is triviaal in API-oppervlak. Het kostenverschil is betekenisvol, dus de vraag is of je workload daadwerkelijk het grotere model nodig heeft.

Voor workloads op de 20b parameterschaal die niet specifiek de OpenAI-genealogie nodig hebben, biedt OVH sterke alternatieven. llama-3.1-8b-instruct zit aan het kleinere einde van dezelfde algemene capaciteitstier. mistral-small-3.2-24b-instruct-2506 is het Europese-oorsprong alternatief op vergelijkbare schaal. qwen3-32b is een andere algemene optie met iets hoger parameteraantal, eveneens in de EU-soevereine hostingomslag.

Voor workloads die echte frontier-capaciteit nodig hebben en non-EU hosting kunnen accepteren, is de directe OpenAI API met nieuwere reasoning- en multimodale modellen het alternatieve pad. De keuze tussen EU-soevereine capabele inferentie en frontier-capabele US-gehoste inferentie is de strategische beslissing die dit model bestaat om te informeren.

Laatste technische review: 2026-05-22 — Tokonomix.ai

gpt-oss-20b — illustration 2
Laatste automatische test
15 jun 2026 · 08:00 UTC · Snelheidstest
P50 latency
257 ms
P95 latency
375 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·26 mei 2026