Hoe groot is het contextvenster?

Het model heeft een ruim contextvenster dat langere gesprekken en documenten mogelijk maakt.

Is dit model geschikt voor zakelijk gebruik?

Ja, dit model is geschikt voor veeleisende zakelijke toepassingen zoals juridische analyse, gedetailleerde rapportage en complexe klantinteracties.

Wanneer kies ik voor dit model versus een kleiner alternatief?

Kies dit model wanneer kwaliteit en diepgang prioriteit hebben. Voor hoge-volume, eenvoudige taken is een kleiner model kostenefficiënter.

Tier C — Specialist

Draait in:FranceGemaakt in:United States

OVH AI Endpoints (GRA)

gpt-oss-120b

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 26 mei 2026

GPT-OSS-120B is een groot taalmodel dat wordt aangeboden via OVH AI Endpoints, gehost in het GRA (Gravelines, Frankrijk) datacentergebied van het bedrijf. Dit model vertegenwoordigt OVH's aanbod van open-source taalmodelinfrastructuur, ingezet op hun Europese cloudinfrastructuur. De schaal van 120 miljard parameters positioneert het als een substantieel model dat algemene natuurlijke taalverwerkingstaken aankan, waaronder tekstgeneratie, conversatie, analyse en eenvoudige redeneringen. Het model biedt standaard tekstgeneratiecapaciteiten die geschikt zijn voor toepassingen die coherente lange teksten, vraagbeantwoording, samenvatting en vergelijkbare NLP-werklasten vereisen. Hoewel de specifieke contextvenstergrootte niet publiekelijk is gedocumenteerd, volgt het model conventionele transformerarchitectuurpatronen die typisch zijn voor modellen in dit parameterbereik. OVH AI Endpoints levert dit model via hun API-infrastructuur, waardoor ontwikkelaars grote taalmodelcapaciteiten kunnen integreren zonder de onderliggende computationele middelen te hoeven beheren. Binnen het OVH AI Endpoints-aanbod fungeert GPT-OSS-120B als een van de grotere open-source modelopties die beschikbaar zijn voor klanten die aanzienlijke taalverwerkingscapaciteiten zoeken terwijl ze datasoevereiniteit binnen Europese infrastructuur behouden. De GRA-implementatielocatie kan bijzonder relevant zijn voor gebruikers met vereisten voor dataresidentie onder Europese regelgeving. OVH's aanpak richt zich op het bieden van toegang tot open-source modellen via hun bestaande cloudinfrastructuur, wat een alternatief biedt voor propriëtaire modelleveranciers terwijl ze hun gevestigde aanwezigheid in de Europese hostingmarkt benutten.

Test gpt-oss-120b met je eigen vragen

gpt-oss-120b van OVH AI Endpoints (GRA) is het topmodel voor complexe taken waarbij diepgang en kwaliteit doorslaggevend zijn.
— Tokonomix benchmark-samenvatting

Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency102 runs

Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

Creatief

Feitelijk

100

Meertaligheid

Redeneren

Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — gpt-oss-120b

$0.0800 per 1M input-tokens

$0.4000 per 1M output-tokens

≈ $0.0001 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$0.0800

per 1M output-tokens$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-06-142026-07-052026-07-19

Input

Output

Price change

⟳ synced weekly

Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)315 / avg 709

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Geavanceerde redeneer- en analysecapaciteitHoge schrijfkwaliteitUitstekende codeerprestatiesWetenschappelijke tekstanalyseGroot groot contextvensterMeertalige tekstverwerkingGedetailleerde instructieopvolgingGenuanceerde gespreksvoering

Zwakke punten

Hogere kosten per tokenLangzamer dan kleinere modellenNiet ideaal voor simpele taken

Sectie 06

Mogelijkheden

ownedBy: OpenAI

Sectie 07

Veelgestelde vragen

gpt-oss-120b biedt sterkere redeneer- en analysecapaciteiten, hogere schrijfkwaliteit en betere prestaties op complexe, meerstaps-taken vergeleken met kleinere varianten.

De juiste keuze wanneer de taak het beste beschikbare resultaat vereist.
— Tokonomix benchmark-samenvatting

Sectie 08

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 09

Tokonomix benchmark-oordelen

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 52 runs

46 correct5 partial1 wrong88% accuracy

● 2026-07-19

gpt-oss-120b quality drops 6.1 points, latency improves 20%

The current benchmark window shows a notable quality decline for gpt-oss-120b, with the overall score falling from 99.6 to 93.5 points. This 6.1 point drop represents a shift from near-perfect performance to strong but less consistent output. The category composition changed significantly between windows, with the previous period testing multilingual, coding, and reasoning capabilities, while the current window focuses on coding and creative tasks. Coding performance remains excellent at 100, maintaining the model's strength in this domain. However, the creative category scored 87, suggesting room for improvement in generative tasks. On a positive note, latency improved substantially, with p50 response times decreasing from 4092ms to 3269ms, a 20% reduction that enhances user experience. The test run count decreased slightly from 5 to 4, which may affect statistical confidence. Users should expect faster responses and continued excellence in coding tasks, but may notice variability in other domains compared to the previous benchmark period. The quality regression warrants monitoring in future windows to determine whether this represents a temporary fluctuation or a sustained trend.

Quality

93.5

Latency p50

3,269 ms

Test runs

✗ Quality dropped 6.1 points✓ Latency improved 20%✓ Coding remains at 100✗ Creative performance at 87

Sectie 10

Volledig modelprofiel

OVH gpt-oss-120b: het open-weight vlaggenschip van OpenAI gehost op EU-soevereine infrastructuur

OVH AI Endpoints draait gpt-oss-120b vanuit zijn datacenter in Gravelines (Frankrijk). De combinatie is hier het eigenlijke verhaal. OpenAI heeft een open-weight model met 120 miljard parameters uitgebracht. OVH host daarvoor de inferentie binnen Franse infrastructuur, met operaties die van origine voldoen aan de AVG en met garanties voor dataresidentie binnen de EU. Voor Europese teams die hebben zitten wachten op een capabel model uit de OpenAI-lijn dat ze kunnen gebruiken zonder verkeer naar inferentie-endpoints in de VS te sturen, is deze configuratie de weg die is opengegaan.

Waarom de combinatie OpenAI plus OVH ertoe doet

Het capaciteitsprofiel dat je uit gpt-oss-120b haalt, ligt dichter bij de OpenAI-frontier dan wat dan ook beschikbaar onder EU-soevereine hosting. Open-weight modellen van andere leveranciers zijn concurrerend op benchmarks, maar de OpenAI-lijn brengt gewoonten in instructievolging, betrouwbaarheid van gestructureerde output en redeneerpatronen met zich mee waar productiesystemen al jaren tegenaan kalibreren. Overstappen op een andere modelfamilie is niet gratis, ook al lijken de benchmarkscores vergelijkbaar.

Hosting op OVH binnen Frankrijk geeft je het verhaal rond de verwerkersovereenkomst dat EU-klanten daadwerkelijk nodig hebben. Verkeer blijft binnen de Franse grenzen. Operaties vallen onder Frans en Europees gegevensbeschermingsrecht. De DPA-discussie met je eigen klanten verloopt op een manier die simpelweg niet lukt bij het aanroepen van in de VS gehoste OpenAI-endpoints, hoe goed de gegevensbeschermingsvoorwaarden in Anthropic-stijl ook worden.

De keerzijde is dat je het absoluut nieuwste OpenAI-gedrag inlevert. De gpt-oss-120b-weights vormen een vaste snapshot in plaats van een continu bijgewerkt productiemodel. OpenAI blijft nieuwere redeneermodellen, beeldmodellen en multimodale capaciteiten uitbrengen via de eigen API, en die werken niet door in de open-weight release. Voor workloads waarvoor de open-weight 120b-capaciteit voldoende is, is dat prima. Voor workloads die afhangen van de frontier is dit niet het juiste gereedschap.

Waar het sterk in is

Algemene tekstgeneratie, instructievolging, gestructureerde output, conversaties over meerdere beurten. De schaal van 120b parameters is groot genoeg om matig complexe redeneringen aan te kunnen, codesynthese binnen een niet-triviale scope, en lange uitvoer met samenhangende structuur. Voor de meeste workloads die voorheen op modellen uit de GPT-4-klasse draaiden voor algemeen werk, is gpt-oss-120b een geloofwaardig alternatief.

De meertalige dekking is sterk over de Europese talen, wat ertoe doet voor de EU-klantbasis waarop deze hostingconfiguratie zich richt. Frans, Duits, Nederlands, Spaans, Italiaans, Portugees en Pools werken allemaal goed. Het model voelt zich op zijn gemak bij vertaling, meertalige klantenservice en contentgeneratie in talen waarin in de VS gehoste alternatieven qua schrijfstijl soms anglocentrisch aanvoelen.

De OVH-hosting levert je voorspelbare Europese latency. Het datacenter in Gravelines ligt gunstig voor toegang met lage latency vanuit continentaal Europa en het Verenigd Koninkrijk. Voor latency-gevoelige toepassingen is de retourtijd merkbaar beter dan transatlantische routes naar OpenAI-endpoints in de VS.

Waar het tekortschiet

Het gat in frontier-capaciteit is reëel voor de zwaarste workloads. Complex meerstaps redeneren, het soort codesynthese dat de redeneermodellen uit de o-serie goed aankunnen, beeldbegrip en -generatie, realtime spraakinteractie. Niets daarvan wordt door gpt-oss-120b geadresseerd. Voor die workloads moet je ofwel de in de VS gehoste route accepteren ofwel kijken naar andere providers die hoge capaciteit combineren met EU-hosting via andere modelfamilies.

Het model is uitsluitend tekstueel. Geen vision, geen audio, geen multimodale capaciteit. Voor multimodale workloads biedt OVH andere modelfamilies aan, zoals Qwen2.5-VL via hetzelfde endpoint-patroon, maar dat zijn andere afstammingslijnen met andere gedragsprofielen.

De schaal van 120b parameters is groot, maar niet aan het absolute capaciteitenplafond. Workloads die werkelijk een model uit de frontier-klasse nodig hebben, zullen het verschil voelen. Voor workloads die comfortabel binnen de envelop van 120b passen, doet het verschil er niet toe en domineert het voordeel van EU-hosting de afweging.

De keuze maken en wat er nog meer is

Voor EU-klanten die algemene teksttoepassingen bouwen en zowel de OpenAI-lijn als de EU-dataresidentie willen, is gpt-oss-120b op OVH de juiste standaardkeuze. De configuratie lost een reëel probleem op dat jarenlang een inkoopblokkade is geweest voor Europese ondernemingen en publieke afnemers.

Voor workloads die niet specifiek de OpenAI-lijn nodig hebben, biedt de catalogus van OVH sterke alternatieven binnen dezelfde hosting-envelop. meta-llama-3_3-70b-instruct is de open-weight optie van Meta in een vergelijkbare capaciteitsklasse. mistral-small-3.2-24b-instruct-2506 is een model van Europese origine dat de EU-soevereine hosting koppelt aan training van Europese herkomst. qwen3-32b is een sterke algemene optie op een kleinere parameterschaal en tegen lagere kosten.

Voor workloads die een kleinere, snellere en goedkopere variant uit dezelfde open-weight lijn van OpenAI nodig hebben, is gpt-oss-20b de kleinere broer. Voor workloads die echte frontier-capaciteit nodig hebben en in de VS gehoste inferentie kunnen accepteren, is de directe OpenAI-API met nieuwere redeneer- en multimodale modellen het alternatieve pad. De keuze hangt ervan af of EU-soevereine hosting een harde eis is of een voorkeur die voor specifieke capaciteitsbehoeften kan worden losgelaten.

Laatste technische review: 2026-05-22 — Tokonomix.ai

Laatste automatische test

30 jul 2026 · 14:04 UTC · Snelheidstest

P50 latency

635 ms

P95 latency

1061 ms

Fouten

0 / 6 runs

Laatst beoordeeld door Tokonomix-team·26 mei 2026