Was bedeutet GPT-OSS?

OSS steht für Open Source – das Modell basiert auf öffentlich verfügbaren Open-Source-Sprachmodell-Archiven.

Für welche Unternehmen ist dieser Dienst relevant?

Europäische Organisationen mit Datenresidenz-Anforderungen oder Präferenz für europäische Cloud-Infrastruktur.

Wie unterscheidet sich das von direkten GPT-API-Nutzungen?

Es bietet europäisches Hosting mit potenziell unterschiedlichen Compliance-Vorteilen, aber ohne OpenAIs proprietäre Modellqualität.

Tier C — Spezialist

Läuft in:FranceErstellt in:United States

OVH AI Endpoints (GRA)

gpt-oss-120b

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-OSS-120B ist ein großes Sprachmodell, das über OVH AI Endpoints bereitgestellt wird und in der Rechenzentrumsregion GRA (Gravelines, Frankreich) des Unternehmens gehostet wird. Das Modell steht für OVHs Angebot an Open-Source-Sprachmodell-Infrastruktur, die auf der europäischen Cloud-Infrastruktur des Anbieters betrieben wird. Mit 120 Milliarden Parametern positioniert es sich als umfangreiches Modell, das allgemeine NLP-Aufgaben wie Textgenerierung, Konversation, Analyse und einfaches logisches Schließen bewältigen kann. Das Modell bietet standardmäßige Textgenerierungsfunktionen, die sich für Anwendungen eignen, die kohärente Langtexte, Fragenbeantwortung, Zusammenfassung und ähnliche NLP-Workloads erfordern. Auch wenn die genaue Größe des Kontextfensters nicht öffentlich dokumentiert ist, folgt das Modell den üblichen Transformer-Architekturmustern, die für Modelle dieser Parametergrößenordnung typisch sind. OVH AI Endpoints stellt das Modell über seine API-Infrastruktur bereit, sodass Entwickler die Funktionen großer Sprachmodelle integrieren können, ohne die zugrunde liegenden Rechenressourcen verwalten zu müssen. Innerhalb des AI-Endpoints-Portfolios von OVH zählt GPT-OSS-120B zu den größeren verfügbaren Open-Source-Modelloptionen für Kunden, die umfangreiche Sprachverarbeitungskapazitäten benötigen und gleichzeitig die Datenhoheit innerhalb europäischer Infrastruktur wahren wollen. Der Bereitstellungsstandort GRA dürfte insbesondere für Anwender mit Anforderungen an die Datenresidenz nach europäischen Vorschriften relevant sein. OVH verfolgt den Ansatz, Open-Source-Modelle über die bestehende Cloud-Infrastruktur zugänglich zu machen, und bietet damit eine Alternative zu proprietären Modellanbietern, gestützt auf die etablierte Marktpräsenz im europäischen Hosting-Geschäft.

gpt-oss-120b mit eigenen Fragen testen

GPT-OSS-120B auf OVH-Infrastruktur: 120 Milliarden Parameter mit europäischem Datenschutz und Datensouveränität.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz102 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — gpt-oss-120b

$0.0800 pro 1M Input-Tokens

$0.4000 pro 1M Output-Tokens

≈ $0.0001 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.0800

pro 1M Output-Tokens$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-06-142026-07-052026-07-19

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)315 / avg 709

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Europäische Datenresidenz (Gravelines)DSGVO-konforme Infrastruktur120-Milliarden-Parameter-KapazitätAllgemeine NLP-AufgabenOVH Cloud IntegrationOpen-Source-Modell-Basis

Schwächen

Kontextgröße nicht dokumentiertKein proprietäres Flaggschiff-NiveauWeniger Ökosystem als GPT/Claude

Abschnitt 06

Fähigkeiten

ownedBy: OpenAI

Abschnitt 07

Häufig gestellte Fragen

Managed Inference auf europäischer Infrastruktur mit Datenresidenz in Frankreich – ideal für DSGVO-konforme Deployments.

Für europäische Unternehmen, die KI-Kapazitäten mit Datenresidenz-Anforderungen kombinieren müssen, ist OVH AI Endpoints ein pragmatischer Ansatz.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 08

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 52 runs

46 correct5 partial1 wrong88% accuracy

● 2026-07-19

gpt-oss-120b quality drops 6.1 points, latency improves 20%

The current benchmark window shows a notable quality decline for gpt-oss-120b, with the overall score falling from 99.6 to 93.5 points. This 6.1 point drop represents a shift from near-perfect performance to strong but less consistent output. The category composition changed significantly between windows, with the previous period testing multilingual, coding, and reasoning capabilities, while the current window focuses on coding and creative tasks. Coding performance remains excellent at 100, maintaining the model's strength in this domain. However, the creative category scored 87, suggesting room for improvement in generative tasks. On a positive note, latency improved substantially, with p50 response times decreasing from 4092ms to 3269ms, a 20% reduction that enhances user experience. The test run count decreased slightly from 5 to 4, which may affect statistical confidence. Users should expect faster responses and continued excellence in coding tasks, but may notice variability in other domains compared to the previous benchmark period. The quality regression warrants monitoring in future windows to determine whether this represents a temporary fluctuation or a sustained trend.

Quality

93.5

Latency p50

3,269 ms

Test runs

✗ Quality dropped 6.1 points✓ Latency improved 20%✓ Coding remains at 100✗ Creative performance at 87

Abschnitt 10

Vollständiges Modellprofil

OVH gpt-oss-120b: OpenAIs Open-Weight-Flaggschiff auf EU-souveräner Infrastruktur

OVH AI Endpoints betreibt gpt-oss-120b im Rechenzentrum Gravelines (Frankreich). Die eigentliche Geschichte ist diese Kombination. OpenAI hat ein Open-Weight-Modell mit 120 Milliarden Parametern veröffentlicht. OVH hostet die Inferenz dafür innerhalb französischer Infrastruktur, mit DSGVO-konformem Betrieb und garantierter EU-Datenresidenz. Für europäische Teams, die auf ein leistungsfähiges Modell aus der OpenAI-Linie gewartet haben, das sich nutzen lässt, ohne Traffic an US-basierte Inference-Endpoints zu senden, ist diese Konfiguration der Weg, der sich nun geöffnet hat.

Warum die Kombination aus OpenAI und OVH zählt

Das Fähigkeitsprofil von gpt-oss-120b liegt näher an OpenAIs Spitzenmodellen als alles andere, was unter EU-souveränem Hosting verfügbar ist. Open-Weight-Modelle anderer Anbieter sind in Benchmarks konkurrenzfähig, aber die OpenAI-Linie bringt Eigenheiten beim Instruction-Following, Zuverlässigkeit bei strukturierten Ausgaben und Reasoning-Muster mit, gegen die produktive Systeme jahrelang kalibriert wurden. Ein Wechsel zu einer anderen Modellfamilie ist nicht kostenlos, selbst wenn die Benchmark-Werte vergleichbar aussehen.

Das Hosting bei OVH in Frankreich liefert die Auftragsverarbeitungs-Story, die EU-Kunden tatsächlich brauchen. Der Traffic bleibt innerhalb der französischen Landesgrenzen. Der Betrieb unterliegt französischem und europäischem Datenrecht. Das AVV-Gespräch mit Ihren Kunden ist auf eine Weise geradlinig, wie es Aufrufe an US-basierte OpenAI-Endpoints nie ganz sind, egal wie gut die Datenschutzklauseln im Anthropic-Stil mittlerweile werden.

Der Kompromiss besteht darin, dass Sie das absolut aktuelle OpenAI-Verhalten aufgeben. Die Gewichte von gpt-oss-120b sind ein eingefrorener Snapshot, kein kontinuierlich aktualisiertes Produktivmodell. OpenAI veröffentlicht über seine eigene API weiterhin neuere Reasoning-Modelle, Bildmodelle und multimodale Fähigkeiten, und diese fließen nicht in das Open-Weight-Release ein. Für Workloads, bei denen die 120b-Fähigkeit des Open-Weight-Modells ausreicht, ist das in Ordnung. Für Workloads, die von der Spitzenklasse abhängen, ist das nicht das richtige Werkzeug.

Wo es gut abdeckt

Allzweck-Textgenerierung, Instruction-Following, strukturierte Ausgaben, Multi-Turn-Konversation. Die Größenordnung von 120 Milliarden Parametern reicht aus, um mäßig komplexes Reasoning, Code-Synthese in nicht-trivialem Umfang und lange, kohärent strukturierte Generierungen zu bewältigen. Für die meisten Workloads, die bisher auf Modellen der GPT-4-Klasse für allgemeine Aufgaben liefen, ist gpt-oss-120b eine glaubwürdige Alternative.

Die Mehrsprachigkeit ist über europäische Sprachen hinweg stark, was für die EU-Kundenbasis, auf die diese Hosting-Konfiguration zielt, entscheidend ist. Französisch, Deutsch, Niederländisch, Spanisch, Italienisch, Portugiesisch und Polnisch funktionieren alle gut. Das Modell beherrscht Übersetzung, mehrsprachigen Kundensupport und Content-Erstellung in Sprachen, in denen US-gehostete Alternativen im Ausgabestil mitunter anglozentrisch wirken.

Das OVH-Hosting bietet eine vorhersehbare europäische Latenz. Das Rechenzentrum Gravelines ist gut positioniert für latenzarme Zugriffe aus Kontinentaleuropa und Großbritannien. Für latenzsensitive Anwendungen ist die Round-Trip-Zeit spürbar besser als bei transatlantischen Routen zu US-gehosteten OpenAI-Endpoints.

Wo es nicht überzeugt

Die Lücke zur Spitzenklasse ist bei den schwierigsten Workloads real. Komplexes mehrstufiges Reasoning, die Art von Code-Synthese, die die Reasoning-Modelle der o-Serie gut bewältigen, Bildverständnis und Bildgenerierung, Echtzeit-Sprachinteraktion. Nichts davon wird von gpt-oss-120b abgedeckt. Für solche Workloads müssen Sie entweder den US-gehosteten Weg akzeptieren oder andere Anbieter prüfen, die hohe Leistungsfähigkeit mit EU-Hosting über andere Modellfamilien kombinieren.

Das Modell ist rein textbasiert. Kein Vision, kein Audio, keine multimodale Fähigkeit. Für multimodale Workloads bietet OVH andere Modellfamilien wie Qwen2.5-VL über dasselbe Endpoint-Muster an, aber das sind andere Linien mit anderen Verhaltensprofilen.

Die Größenordnung von 120 Milliarden Parametern ist groß, aber nicht an der absoluten Leistungsobergrenze. Workloads, die wirklich ein Modell der Spitzenklasse benötigen, werden den Unterschied spüren. Für Workloads, die bequem in den 120b-Rahmen passen, spielt der Unterschied keine Rolle, und der EU-Hosting-Vorteil dominiert die Abwägung.

Auswahl und Alternativen

Für EU-Kunden, die Allzweck-Textanwendungen entwickeln und sowohl die OpenAI-Linie als auch die EU-Datenresidenz wünschen, ist gpt-oss-120b auf OVH die richtige Standardwahl. Die Konfiguration löst ein reales Problem, das für europäische Unternehmen und Beschaffungsstellen im öffentlichen Sektor seit Jahren ein Blocker war.

Für Workloads, die nicht spezifisch die OpenAI-Linie benötigen, bietet der OVH-Katalog starke Alternativen im gleichen Hosting-Rahmen. meta-llama-3_3-70b-instruct ist die Open-Weight-Option von Meta auf vergleichbarem Leistungsniveau. mistral-small-3.2-24b-instruct-2506 ist ein Modell europäischer Herkunft, das EU-souveränes Hosting mit einem in der EU trainierten Modell kombiniert. qwen3-32b ist eine starke Allzweckoption mit kleinerer Parameterzahl und geringeren Kosten.

Für Workloads, die eine kleinere, schnellere und günstigere Variante derselben OpenAI-Open-Weight-Linie benötigen, ist gpt-oss-20b das kleinere Geschwistermodell. Für Workloads, die echte Spitzenfähigkeit benötigen und US-gehostete Inferenz akzeptieren können, ist die OpenAI-Direkt-API mit neueren Reasoning- und multimodalen Modellen der alternative Weg. Die Wahl hängt davon ab, ob EU-souveränes Hosting eine harte Anforderung oder eine Präferenz ist, die für spezifische Leistungsbedarfe gelockert werden kann.

Letzte technische Überprüfung: 22.05.2026 — Tokonomix.ai

Letzter automatisierter Test

30. Juli 2026 · 14:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

635 ms

P95-Latenz

1061 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026