Zum Inhalt
Tier C — Spezialist
Läuft in:FranceErstellt in:United States
OVH AI Endpoints (GRA)

gpt-oss-120b

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-OSS-120B ist ein großes Sprachmodell, das über OVH AI Endpoints bereitgestellt wird und in der Rechenzentrumsregion GRA (Gravelines, Frankreich) des Unternehmens gehostet wird. Das Modell steht für OVHs Angebot an Open-Source-Sprachmodell-Infrastruktur, die auf der europäischen Cloud-Infrastruktur des Anbieters betrieben wird. Mit 120 Milliarden Parametern positioniert es sich als umfangreiches Modell, das allgemeine NLP-Aufgaben wie Textgenerierung, Konversation, Analyse und einfaches logisches Schließen bewältigen kann. Das Modell bietet standardmäßige Textgenerierungsfunktionen, die sich für Anwendungen eignen, die kohärente Langtexte, Fragenbeantwortung, Zusammenfassung und ähnliche NLP-Workloads erfordern. Auch wenn die genaue Größe des Kontextfensters nicht öffentlich dokumentiert ist, folgt das Modell den üblichen Transformer-Architekturmustern, die für Modelle dieser Parametergrößenordnung typisch sind. OVH AI Endpoints stellt das Modell über seine API-Infrastruktur bereit, sodass Entwickler die Funktionen großer Sprachmodelle integrieren können, ohne die zugrunde liegenden Rechenressourcen verwalten zu müssen. Innerhalb des AI-Endpoints-Portfolios von OVH zählt GPT-OSS-120B zu den größeren verfügbaren Open-Source-Modelloptionen für Kunden, die umfangreiche Sprachverarbeitungskapazitäten benötigen und gleichzeitig die Datenhoheit innerhalb europäischer Infrastruktur wahren wollen. Der Bereitstellungsstandort GRA dürfte insbesondere für Anwender mit Anforderungen an die Datenresidenz nach europäischen Vorschriften relevant sein. OVH verfolgt den Ansatz, Open-Source-Modelle über die bestehende Cloud-Infrastruktur zugänglich zu machen, und bietet damit eine Alternative zu proprietären Modellanbietern, gestützt auf die etablierte Marktpräsenz im europäischen Hosting-Geschäft.

GPT-OSS-120B auf OVH-Infrastruktur: 120 Milliarden Parameter mit europäischem Datenschutz und Datensouveränität.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
138182235065190687405-2206-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
100
Mehrsprachig
100
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-oss-120b
$0.0800 pro 1M Input-Tokens
$0.4000 pro 1M Output-Tokens
≈ $0.0001 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.0800
pro 1M Output-Tokens$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— no change

$0.4000

output / 1M

— no change

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)496 / avg 882
1429329

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Europäische Datenresidenz (Gravelines)DSGVO-konforme Infrastruktur120-Milliarden-Parameter-KapazitätAllgemeine NLP-AufgabenOVH Cloud IntegrationOpen-Source-Modell-Basis

Schwächen

Kontextgröße nicht dokumentiertKein proprietäres Flaggschiff-NiveauWeniger Ökosystem als GPT/Claude
Abschnitt 06

Fähigkeiten

ownedBy: OpenAI
Abschnitt 07

Häufig gestellte Fragen

Managed Inference auf europäischer Infrastruktur mit Datenresidenz in Frankreich – ideal für DSGVO-konforme Deployments.

Für europäische Unternehmen, die KI-Kapazitäten mit Datenresidenz-Anforderungen kombinieren müssen, ist OVH AI Endpoints ein pragmatischer Ansatz.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 13 runs
12 correct1 partial0 wrong92% accuracy
2026-06-14

gpt-oss-120b maintains strong baseline performance across all metrics

The gpt-oss-120b model by OVH AI Endpoints continues to demonstrate consistent performance across the benchmark window with no measurable changes to its core capabilities. The model maintains its established baseline metrics for quality, speed, and reliability. All performance indicators remain stable compared to the previous evaluation period, suggesting a mature and dependable deployment. Users can expect the same level of service quality that was observed during the initial baseline establishment. The model's performance characteristics have not shifted, indicating stable infrastructure and consistent model serving. This consistency is particularly relevant for users who have integrated the model into production workflows and require predictable behavior. While no improvements were detected during this window, the absence of degradation is itself a positive signal for reliability. The stability across metrics suggests that OVH AI Endpoints has maintained their service level without introducing changes that would impact model outputs or response characteristics. Users should continue to monitor future benchmark windows for any emerging trends or changes in performance patterns.

Quality

Latency p50

Test runs

0

Performance metrics remain stable Consistent baseline maintained
Abschnitt 10

Vollständiges Modellprofil

gpt-oss-120b — illustration 1
OVH gpt-oss-120b: OpenAIs Open-Weight-Flaggschiff auf EU-souveräner Infrastruktur

OVH AI Endpoints betreibt gpt-oss-120b im Rechenzentrum Gravelines (Frankreich). Die eigentliche Geschichte ist diese Kombination. OpenAI hat ein Open-Weight-Modell mit 120 Milliarden Parametern veröffentlicht. OVH hostet die Inferenz dafür innerhalb französischer Infrastruktur, mit DSGVO-konformem Betrieb und garantierter EU-Datenresidenz. Für europäische Teams, die auf ein leistungsfähiges Modell aus der OpenAI-Linie gewartet haben, das sich nutzen lässt, ohne Traffic an US-basierte Inference-Endpoints zu senden, ist diese Konfiguration der Weg, der sich nun geöffnet hat.

Warum die Kombination aus OpenAI und OVH zählt

Das Fähigkeitsprofil von gpt-oss-120b liegt näher an OpenAIs Spitzenmodellen als alles andere, was unter EU-souveränem Hosting verfügbar ist. Open-Weight-Modelle anderer Anbieter sind in Benchmarks konkurrenzfähig, aber die OpenAI-Linie bringt Eigenheiten beim Instruction-Following, Zuverlässigkeit bei strukturierten Ausgaben und Reasoning-Muster mit, gegen die produktive Systeme jahrelang kalibriert wurden. Ein Wechsel zu einer anderen Modellfamilie ist nicht kostenlos, selbst wenn die Benchmark-Werte vergleichbar aussehen.

Das Hosting bei OVH in Frankreich liefert die Auftragsverarbeitungs-Story, die EU-Kunden tatsächlich brauchen. Der Traffic bleibt innerhalb der französischen Landesgrenzen. Der Betrieb unterliegt französischem und europäischem Datenrecht. Das AVV-Gespräch mit Ihren Kunden ist auf eine Weise geradlinig, wie es Aufrufe an US-basierte OpenAI-Endpoints nie ganz sind, egal wie gut die Datenschutzklauseln im Anthropic-Stil mittlerweile werden.

Der Kompromiss besteht darin, dass Sie das absolut aktuelle OpenAI-Verhalten aufgeben. Die Gewichte von gpt-oss-120b sind ein eingefrorener Snapshot, kein kontinuierlich aktualisiertes Produktivmodell. OpenAI veröffentlicht über seine eigene API weiterhin neuere Reasoning-Modelle, Bildmodelle und multimodale Fähigkeiten, und diese fließen nicht in das Open-Weight-Release ein. Für Workloads, bei denen die 120b-Fähigkeit des Open-Weight-Modells ausreicht, ist das in Ordnung. Für Workloads, die von der Spitzenklasse abhängen, ist das nicht das richtige Werkzeug.

Wo es gut abdeckt

Allzweck-Textgenerierung, Instruction-Following, strukturierte Ausgaben, Multi-Turn-Konversation. Die Größenordnung von 120 Milliarden Parametern reicht aus, um mäßig komplexes Reasoning, Code-Synthese in nicht-trivialem Umfang und lange, kohärent strukturierte Generierungen zu bewältigen. Für die meisten Workloads, die bisher auf Modellen der GPT-4-Klasse für allgemeine Aufgaben liefen, ist gpt-oss-120b eine glaubwürdige Alternative.

Die Mehrsprachigkeit ist über europäische Sprachen hinweg stark, was für die EU-Kundenbasis, auf die diese Hosting-Konfiguration zielt, entscheidend ist. Französisch, Deutsch, Niederländisch, Spanisch, Italienisch, Portugiesisch und Polnisch funktionieren alle gut. Das Modell beherrscht Übersetzung, mehrsprachigen Kundensupport und Content-Erstellung in Sprachen, in denen US-gehostete Alternativen im Ausgabestil mitunter anglozentrisch wirken.

Das OVH-Hosting bietet eine vorhersehbare europäische Latenz. Das Rechenzentrum Gravelines ist gut positioniert für latenzarme Zugriffe aus Kontinentaleuropa und Großbritannien. Für latenzsensitive Anwendungen ist die Round-Trip-Zeit spürbar besser als bei transatlantischen Routen zu US-gehosteten OpenAI-Endpoints.

Wo es nicht überzeugt

Die Lücke zur Spitzenklasse ist bei den schwierigsten Workloads real. Komplexes mehrstufiges Reasoning, die Art von Code-Synthese, die die Reasoning-Modelle der o-Serie gut bewältigen, Bildverständnis und Bildgenerierung, Echtzeit-Sprachinteraktion. Nichts davon wird von gpt-oss-120b abgedeckt. Für solche Workloads müssen Sie entweder den US-gehosteten Weg akzeptieren oder andere Anbieter prüfen, die hohe Leistungsfähigkeit mit EU-Hosting über andere Modellfamilien kombinieren.

Das Modell ist rein textbasiert. Kein Vision, kein Audio, keine multimodale Fähigkeit. Für multimodale Workloads bietet OVH andere Modellfamilien wie Qwen2.5-VL über dasselbe Endpoint-Muster an, aber das sind andere Linien mit anderen Verhaltensprofilen.

Die Größenordnung von 120 Milliarden Parametern ist groß, aber nicht an der absoluten Leistungsobergrenze. Workloads, die wirklich ein Modell der Spitzenklasse benötigen, werden den Unterschied spüren. Für Workloads, die bequem in den 120b-Rahmen passen, spielt der Unterschied keine Rolle, und der EU-Hosting-Vorteil dominiert die Abwägung.

Auswahl und Alternativen

Für EU-Kunden, die Allzweck-Textanwendungen entwickeln und sowohl die OpenAI-Linie als auch die EU-Datenresidenz wünschen, ist gpt-oss-120b auf OVH die richtige Standardwahl. Die Konfiguration löst ein reales Problem, das für europäische Unternehmen und Beschaffungsstellen im öffentlichen Sektor seit Jahren ein Blocker war.

Für Workloads, die nicht spezifisch die OpenAI-Linie benötigen, bietet der OVH-Katalog starke Alternativen im gleichen Hosting-Rahmen. meta-llama-3_3-70b-instruct ist die Open-Weight-Option von Meta auf vergleichbarem Leistungsniveau. mistral-small-3.2-24b-instruct-2506 ist ein Modell europäischer Herkunft, das EU-souveränes Hosting mit einem in der EU trainierten Modell kombiniert. qwen3-32b ist eine starke Allzweckoption mit kleinerer Parameterzahl und geringeren Kosten.

Für Workloads, die eine kleinere, schnellere und günstigere Variante derselben OpenAI-Open-Weight-Linie benötigen, ist gpt-oss-20b das kleinere Geschwistermodell. Für Workloads, die echte Spitzenfähigkeit benötigen und US-gehostete Inferenz akzeptieren können, ist die OpenAI-Direkt-API mit neueren Reasoning- und multimodalen Modellen der alternative Weg. Die Wahl hängt davon ab, ob EU-souveränes Hosting eine harte Anforderung oder eine Präferenz ist, die für spezifische Leistungsbedarfe gelockert werden kann.

Letzte technische Überprüfung: 22.05.2026 — Tokonomix.ai

gpt-oss-120b — illustration 2
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
403 ms
P95-Latenz
541 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026