Naar inhoud
Tier C — Specialist
Draait in:FranceGemaakt in:United States
OVH AI Endpoints (GRA)

gpt-oss-120b

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

GPT-OSS-120B is een groot taalmodel dat wordt aangeboden via OVH AI Endpoints, gehost in het GRA (Gravelines, Frankrijk) datacentergebied van het bedrijf. Dit model vertegenwoordigt OVH's aanbod van open-source taalmodelinfrastructuur, ingezet op hun Europese cloudinfrastructuur. De schaal van 120 miljard parameters positioneert het als een substantieel model dat algemene natuurlijke taalverwerkingstaken aankan, waaronder tekstgeneratie, conversatie, analyse en eenvoudige redeneringen. Het model biedt standaard tekstgeneratiecapaciteiten die geschikt zijn voor toepassingen die coherente lange teksten, vraagbeantwoording, samenvatting en vergelijkbare NLP-werklasten vereisen. Hoewel de specifieke contextvenstergrootte niet publiekelijk is gedocumenteerd, volgt het model conventionele transformerarchitectuurpatronen die typisch zijn voor modellen in dit parameterbereik. OVH AI Endpoints levert dit model via hun API-infrastructuur, waardoor ontwikkelaars grote taalmodelcapaciteiten kunnen integreren zonder de onderliggende computationele middelen te hoeven beheren. Binnen het OVH AI Endpoints-aanbod fungeert GPT-OSS-120B als een van de grotere open-source modelopties die beschikbaar zijn voor klanten die aanzienlijke taalverwerkingscapaciteiten zoeken terwijl ze datasoevereiniteit binnen Europese infrastructuur behouden. De GRA-implementatielocatie kan bijzonder relevant zijn voor gebruikers met vereisten voor dataresidentie onder Europese regelgeving. OVH's aanpak richt zich op het bieden van toegang tot open-source modellen via hun bestaande cloudinfrastructuur, wat een alternatief biedt voor propriëtaire modelleveranciers terwijl ze hun gevestigde aanwezigheid in de Europese hostingmarkt benutten.

gpt-oss-120b van OVH AI Endpoints (GRA) is het topmodel voor complexe taken waarbij diepgang en kwaliteit doorslaggevend zijn.

Tokonomix benchmark-samenvatting
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency97 runs
138182235065190687405-2206-15ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

100
Code generatie
100
Meertaligheid
100
Redeneren
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — gpt-oss-120b
$0.0800 per 1M input-tokens
$0.4000 per 1M output-tokens
≈ $0.0001 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.0800
per 1M output-tokens$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— no change

$0.4000

output / 1M

— no change

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)496 / avg 882
1429329

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Geavanceerde redeneer- en analysecapaciteitHoge schrijfkwaliteitUitstekende codeerprestatiesWetenschappelijke tekstanalyseGroot groot contextvensterMeertalige tekstverwerkingGedetailleerde instructieopvolgingGenuanceerde gespreksvoering

Zwakke punten

Hogere kosten per tokenLangzamer dan kleinere modellenNiet ideaal voor simpele taken
Sectie 06

Mogelijkheden

ownedBy: OpenAI
Sectie 07

Veelgestelde vragen

gpt-oss-120b biedt sterkere redeneer- en analysecapaciteiten, hogere schrijfkwaliteit en betere prestaties op complexe, meerstaps-taken vergeleken met kleinere varianten.

De juiste keuze wanneer de taak het beste beschikbare resultaat vereist.

Tokonomix benchmark-samenvatting
Sectie 08

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 09

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 13 runs
12 correct1 partial0 wrong92% accuracy
2026-06-14

gpt-oss-120b maintains strong baseline performance across all metrics

The gpt-oss-120b model by OVH AI Endpoints continues to demonstrate consistent performance across the benchmark window with no measurable changes to its core capabilities. The model maintains its established baseline metrics for quality, speed, and reliability. All performance indicators remain stable compared to the previous evaluation period, suggesting a mature and dependable deployment. Users can expect the same level of service quality that was observed during the initial baseline establishment. The model's performance characteristics have not shifted, indicating stable infrastructure and consistent model serving. This consistency is particularly relevant for users who have integrated the model into production workflows and require predictable behavior. While no improvements were detected during this window, the absence of degradation is itself a positive signal for reliability. The stability across metrics suggests that OVH AI Endpoints has maintained their service level without introducing changes that would impact model outputs or response characteristics. Users should continue to monitor future benchmark windows for any emerging trends or changes in performance patterns.

Quality

Latency p50

Test runs

0

Performance metrics remain stable Consistent baseline maintained
Sectie 10

Volledig modelprofiel

gpt-oss-120b — illustration 1
OVH gpt-oss-120b: het open-weight vlaggenschip van OpenAI gehost op EU-soevereine infrastructuur

OVH AI Endpoints draait gpt-oss-120b vanuit zijn datacenter in Gravelines (Frankrijk). De combinatie is hier het eigenlijke verhaal. OpenAI heeft een open-weight model met 120 miljard parameters uitgebracht. OVH host daarvoor de inferentie binnen Franse infrastructuur, met operaties die van origine voldoen aan de AVG en met garanties voor dataresidentie binnen de EU. Voor Europese teams die hebben zitten wachten op een capabel model uit de OpenAI-lijn dat ze kunnen gebruiken zonder verkeer naar inferentie-endpoints in de VS te sturen, is deze configuratie de weg die is opengegaan.

Waarom de combinatie OpenAI plus OVH ertoe doet

Het capaciteitsprofiel dat je uit gpt-oss-120b haalt, ligt dichter bij de OpenAI-frontier dan wat dan ook beschikbaar onder EU-soevereine hosting. Open-weight modellen van andere leveranciers zijn concurrerend op benchmarks, maar de OpenAI-lijn brengt gewoonten in instructievolging, betrouwbaarheid van gestructureerde output en redeneerpatronen met zich mee waar productiesystemen al jaren tegenaan kalibreren. Overstappen op een andere modelfamilie is niet gratis, ook al lijken de benchmarkscores vergelijkbaar.

Hosting op OVH binnen Frankrijk geeft je het verhaal rond de verwerkersovereenkomst dat EU-klanten daadwerkelijk nodig hebben. Verkeer blijft binnen de Franse grenzen. Operaties vallen onder Frans en Europees gegevensbeschermingsrecht. De DPA-discussie met je eigen klanten verloopt op een manier die simpelweg niet lukt bij het aanroepen van in de VS gehoste OpenAI-endpoints, hoe goed de gegevensbeschermingsvoorwaarden in Anthropic-stijl ook worden.

De keerzijde is dat je het absoluut nieuwste OpenAI-gedrag inlevert. De gpt-oss-120b-weights vormen een vaste snapshot in plaats van een continu bijgewerkt productiemodel. OpenAI blijft nieuwere redeneermodellen, beeldmodellen en multimodale capaciteiten uitbrengen via de eigen API, en die werken niet door in de open-weight release. Voor workloads waarvoor de open-weight 120b-capaciteit voldoende is, is dat prima. Voor workloads die afhangen van de frontier is dit niet het juiste gereedschap.

Waar het sterk in is

Algemene tekstgeneratie, instructievolging, gestructureerde output, conversaties over meerdere beurten. De schaal van 120b parameters is groot genoeg om matig complexe redeneringen aan te kunnen, codesynthese binnen een niet-triviale scope, en lange uitvoer met samenhangende structuur. Voor de meeste workloads die voorheen op modellen uit de GPT-4-klasse draaiden voor algemeen werk, is gpt-oss-120b een geloofwaardig alternatief.

De meertalige dekking is sterk over de Europese talen, wat ertoe doet voor de EU-klantbasis waarop deze hostingconfiguratie zich richt. Frans, Duits, Nederlands, Spaans, Italiaans, Portugees en Pools werken allemaal goed. Het model voelt zich op zijn gemak bij vertaling, meertalige klantenservice en contentgeneratie in talen waarin in de VS gehoste alternatieven qua schrijfstijl soms anglocentrisch aanvoelen.

De OVH-hosting levert je voorspelbare Europese latency. Het datacenter in Gravelines ligt gunstig voor toegang met lage latency vanuit continentaal Europa en het Verenigd Koninkrijk. Voor latency-gevoelige toepassingen is de retourtijd merkbaar beter dan transatlantische routes naar OpenAI-endpoints in de VS.

Waar het tekortschiet

Het gat in frontier-capaciteit is reëel voor de zwaarste workloads. Complex meerstaps redeneren, het soort codesynthese dat de redeneermodellen uit de o-serie goed aankunnen, beeldbegrip en -generatie, realtime spraakinteractie. Niets daarvan wordt door gpt-oss-120b geadresseerd. Voor die workloads moet je ofwel de in de VS gehoste route accepteren ofwel kijken naar andere providers die hoge capaciteit combineren met EU-hosting via andere modelfamilies.

Het model is uitsluitend tekstueel. Geen vision, geen audio, geen multimodale capaciteit. Voor multimodale workloads biedt OVH andere modelfamilies aan, zoals Qwen2.5-VL via hetzelfde endpoint-patroon, maar dat zijn andere afstammingslijnen met andere gedragsprofielen.

De schaal van 120b parameters is groot, maar niet aan het absolute capaciteitenplafond. Workloads die werkelijk een model uit de frontier-klasse nodig hebben, zullen het verschil voelen. Voor workloads die comfortabel binnen de envelop van 120b passen, doet het verschil er niet toe en domineert het voordeel van EU-hosting de afweging.

De keuze maken en wat er nog meer is

Voor EU-klanten die algemene teksttoepassingen bouwen en zowel de OpenAI-lijn als de EU-dataresidentie willen, is gpt-oss-120b op OVH de juiste standaardkeuze. De configuratie lost een reëel probleem op dat jarenlang een inkoopblokkade is geweest voor Europese ondernemingen en publieke afnemers.

Voor workloads die niet specifiek de OpenAI-lijn nodig hebben, biedt de catalogus van OVH sterke alternatieven binnen dezelfde hosting-envelop. meta-llama-3_3-70b-instruct is de open-weight optie van Meta in een vergelijkbare capaciteitsklasse. mistral-small-3.2-24b-instruct-2506 is een model van Europese origine dat de EU-soevereine hosting koppelt aan training van Europese herkomst. qwen3-32b is een sterke algemene optie op een kleinere parameterschaal en tegen lagere kosten.

Voor workloads die een kleinere, snellere en goedkopere variant uit dezelfde open-weight lijn van OpenAI nodig hebben, is gpt-oss-20b de kleinere broer. Voor workloads die echte frontier-capaciteit nodig hebben en in de VS gehoste inferentie kunnen accepteren, is de directe OpenAI-API met nieuwere redeneer- en multimodale modellen het alternatieve pad. De keuze hangt ervan af of EU-soevereine hosting een harde eis is of een voorkeur die voor specifieke capaciteitsbehoeften kan worden losgelaten.

Laatste technische review: 2026-05-22 — Tokonomix.ai

gpt-oss-120b — illustration 2
Laatste automatische test
15 jun 2026 · 08:00 UTC · Snelheidstest
P50 latency
403 ms
P95 latency
541 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·26 mei 2026