Zum Inhalt
Tier C — Spezialist
Läuft in:FranceErstellt in:United States
OVH AI Endpoints (GRA)

gpt-oss-20b

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-OSS-20B ist ein Textgenerierungsmodell, das über OVH AI Endpoints angeboten wird und konkret in der Rechenzentrumsregion Gravelines (GRA) von OVH in Frankreich gehostet wird. Das Modell stellt gängige Funktionen zur Verarbeitung natürlicher Sprache bereit, darunter Textvervollständigung, Beantwortung von Fragen und allgemeine Konversationsaufgaben. Als Teil des AI-Endpoints-Dienstes von OVH läuft es innerhalb der europäischen Cloud-Infrastruktur von OVH und richtet sich damit an Nutzer, die eine Datenhaltung innerhalb der EU benötigen oder europäische Compute-Ressourcen bevorzugen. Die Spezifikationen zum Kontextfenster des Modells wurden nicht öffentlich dokumentiert, es unterstützt jedoch typische Sprachmodelloperationen für Unternehmens- und Entwickleranwendungen. GPT-OSS-20B verarbeitet standardmäßige Textgenerierungs-Workloads ohne spezialisierte Funktionen für multimodale Verarbeitung, Function Calling oder andere erweiterte Fähigkeiten. Es fungiert als unkompliziertes Sprachmodell, das sich für die Integration in Anwendungen eignet, die automatisierte Textgenerierung, Content-Verarbeitung oder Konversationsschnittstellen erfordern. Innerhalb des AI-Endpoints-Portfolios von OVH stellt GPT-OSS-20B eine zugängliche Option für Organisationen dar, die bereits OVH-Cloud-Dienste nutzen oder KI-Inferenzfunktionen in europäischen Rechenzentren suchen. Das Modell dient als Allzweck-Sprachmodell und nicht als spezialisiertes oder Flaggschiff-Angebot und liefert grundlegende Textgenerierungsfunktionalität für Entwickler, die Anwendungen auf der OVH-Infrastruktur aufbauen. Die Verfügbarkeit über OVH AI Endpoints ermöglicht die Integration mit weiteren OVH-Diensten bei gleichzeitiger Wahrung der geografischen Datenlokalität innerhalb des Anbieternetzes.

GPT-OSS-20B auf OVH-Infrastruktur: kompaktes Open-Source-Sprachmodell mit europäischer Datenresidenz.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
33790015767236333150005-2206-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
92
Mehrsprachig
100
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-oss-20b
$0.0400 pro 1M Input-Tokens
$0.1500 pro 1M Output-Tokens
≈ <$0.0001 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.0400
pro 1M Output-Tokens$0.1500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0400

input / 1M

— stable

$0.1500

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)778 / avg 728
594616

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Europäische Cloud-InfrastrukturDSGVO-konforme DatenverarbeitungKompaktes 20B-ModellStandard-TextgenerierungOVH API-IntegrationRessourceneffizienter als 120B

Schwächen

Kontextgröße nicht dokumentiertWeniger Kapazität als 120B-VarianteKein Multimodal-Support
Abschnitt 06

Fähigkeiten

ownedBy: OpenAI
Abschnitt 07

Häufig gestellte Fragen

Für Organisationen mit EU-Datenresidenzanforderungen bietet OVH Hosting in Frankreich und europäische Compliance-Garantien.

Für ressourcenbewusste Deployments mit europäischen Compliance-Anforderungen bietet GPT-OSS-20B eine zugängliche Option.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-578/100 · 12 runs
9 correct0 partial3 wrong75% accuracy
2026-06-14

gpt-oss-20b maintains stable performance across all measured metrics

The gpt-oss-20b model from OVH AI Endpoints continues to demonstrate consistent performance characteristics across the current benchmark window. All core metrics remain unchanged from the previous evaluation period, indicating operational stability. The model maintains its median time to first token at 0.31 seconds and output speed at 94.17 tokens per second, showing reliable latency characteristics for production use. Quality scores hold steady with a median of 0.80, suggesting consistent output characteristics. The model continues to serve successfully without availability issues. Users can expect the same level of performance they experienced in the previous benchmark period, with no degradation or improvement in measurable metrics. This stability may be valuable for applications requiring predictable behavior and consistent response times. The model appears well-suited for workloads where maintaining established performance baselines is important. While no performance improvements are evident in this window, the absence of regression suggests reliable operation. Users should be aware that while pricing has been updated in this period, the technical performance profile remains entirely stable.

Quality

Latency p50

Test runs

0

Stable latency metrics maintained Consistent quality scores No performance regression detected
Abschnitt 10

Vollständiges Modellprofil

gpt-oss-20b — illustration 1
OVH gpt-oss-20b: die schlanke Variante von OpenAIs Open-Weight-Linie auf EU-souveränem Hosting

OVH AI Endpoints betreibt gpt-oss-20b aus seinem Rechenzentrum in Gravelines (Frankreich), dem kleineren 20-Milliarden-Parameter-Geschwister zum 120b-Release aus derselben OpenAI-Open-Weight-Familie. Die Trade-offs gegenüber der größeren Variante sind die naheliegenden: weniger Leistungsfähigkeit, schnellere Antworten, geringerer Compute-Footprint. Unverändert bleiben die EU-souveräne Hosting-Geschichte und die OpenAI-Abstammung, gegen die Produktionsteams jahrelang kalibriert haben.

Was die 20b-Stufe tatsächlich liefert

Die 20b-Parameterskala ist groß genug für allgemeine Texterzeugung, Anweisungsbefolgung, strukturierte Ausgaben und moderat komplexe Multi-Turn-Konversationen. Für Workloads, bei denen die vollen 120b überdimensioniert sind, bewältigt das 20b-Modell dieselbe Art von Aufgaben zu einem Bruchteil der Rechenkosten und mit substanziell niedrigerer Latenz.

Code-Generierung im moderaten Umfang funktioniert gut. Das Schreiben von Skripten mit einigen Dutzend Zeilen, Refactoring kleiner Funktionen, Erklärung dessen, was unbekannter Code macht. Das 20b-Modell erfasst die meisten Fälle, die für alltägliche Entwicklerunterstützung wichtig sind, ohne das Kostenprofil zu erreichen, das eine hochfrequente Nutzung eines 120b-Modells implizieren würde.

Die mehrsprachige Abdeckung setzt sich vom größeren Modell fort. Französisch, Deutsch, Niederländisch, Spanisch, Italienisch, Portugiesisch und Polnisch funktionieren alle gut auf der 20b-Stufe, obwohl nuancierte literarische Übersetzung und komplexe domänenspezifische Terminologie Schwächen zu zeigen beginnen, die das 120b-Modell besser handhaben würde. Für Kundensupport-Übersetzungen, Anpassung von Marketing-Texten und die meisten alltäglichen mehrsprachigen Arbeiten ist das 20b-Modell ausreichend.

Das OVH-Hosting bietet dieselbe EU-souveräne Data-Residency-Geschichte wie das 120b-Modell. Der Traffic bleibt in Frankreich. Der Betrieb unterliegt französischem und europäischem Datenschutzrecht. Die Konversation über Auftragsverarbeitungsverträge mit EU-Kunden ist unkompliziert.

Wo es funktioniert

Hochvolumige Text-Workloads, bei denen die Kosten pro Aufruf dominieren und die durchschnittliche Aufgabenkomplexität moderat ist. Chatbot-Backends für Kundensupport, Content-Moderation-Pipelines, Workflows zur strukturierten Extraktion aus Dokumenten, die kein Frontier-Reasoning erfordern, Batch-Zusammenfassungsjobs.

Latenz-sensitive Anwendungen, bei denen die schnellere Inferenz des 20b-Modells zählt. Interaktive Chat-Oberflächen, bei denen der Nutzer eine Antwort in wenigen Sekunden erwartet, statt auf das Nachdenken des Modells zu warten. Echtzeit-Content-Augmentation, bei der das Modell mit dem Tippen oder Browsen eines Nutzers Schritt halten muss, anstatt ein Back-Office-Batch-Service zu sein.

EU-Hosting-Anforderungen mit einem Budgetrahmen, der das größere 120b-Modell für Routinearbeit nicht rechtfertigt. Das 20b-Modell ist die richtige Stufe, wenn die Souveränitätsgeschichte eine harte Anforderung ist und der Workload nicht die Leistungsobergrenze des größeren Modells benötigt.

Entwicklungs- und Prototyping-Workflows, bei denen Sie schnell Prompts und Architekturen iterieren möchten, bevor Sie entscheiden, ob Sie in höherstufige Inferenz investieren. Die niedrigeren Kosten und die schnellere Antwortzeit des 20b-Modells machen es zur besseren Wahl für die schnelle Iterationsphase beim Aufbau einer Anwendung.

Wo es scheitert

Komplexe Reasoning-Aufgaben, die von einer größeren Parameterskala profitieren. Das 20b-Modell wird plausibel klingende Antworten auf schwierige Fragen produzieren, aber Nuancen übersehen, die das gpt-oss-120b erfasst. Für Workloads, bei denen Reasoning-Tiefe wichtig ist und EU-Hosting erforderlich ist, ist das 120b-Modell die bessere Stufe.

Code-Synthese in signifikantem Umfang. Das Schreiben eines Algorithmus von bedeutsamer Komplexität, Refactoring einer verworrenen Funktion mit vielen interagierenden Belangen, Generierung nicht-trivialer Test-Suites. Das 20b-Modell handhabt Coding im kleinen Umfang gut, aber die Fehlerrate steigt, wenn der Umfang wächst.

Frontier-Capability-Workloads. Kein 20b-Modell konkurriert mit der absoluten Leistungsobergrenze, die proprietäre Frontier-Modelle erreichen. Das 20b-Modell ist die Volumen-Stufe, nicht die Frontier-Stufe, und seine Verwendung für Workloads, die wirklich Frontier-Capability benötigen, liefert frustrierende Ergebnisse.

Multimodale Arbeit. Das Modell ist rein textbasiert. Für Vision-, Audio- oder multimodale Fähigkeiten bietet OVH andere Modellfamilien wie qwen2.5-vl-72b-instruct für Vision-Language-Arbeit durch dasselbe EU-souveräne Hosting-Muster.

Die Wahl treffen oder hochskalieren

Für EU-Kunden, die hochvolumige Textanwendungen aufbauen und die OpenAI-Linie zu einem skalierbaren Kostenprofil wünschen, ist gpt-oss-20b auf OVH die richtige Standardwahl. Die Konfiguration bewältigt den Großteil der Routine-Text-Workloads zu einer Unit-Economics, die das 120b-Modell nicht erreichen kann.

Für Workloads, bei denen Leistungsfähigkeit wichtiger ist als Kosten, ist gpt-oss-120b das Upgrade innerhalb derselben Linie und derselben Hosting-Umgebung. Die Migration ist trivial in der API-Oberfläche. Der Kostenunterschied ist bedeutsam, sodass die Frage lautet, ob Ihr Workload das größere Modell tatsächlich benötigt.

Für Workloads auf der 20b-Parameterskala, die nicht spezifisch die OpenAI-Linie benötigen, bietet OVH starke Alternativen. llama-3.1-8b-instruct sitzt am kleineren Ende derselben allgemeinen Leistungsstufe. mistral-small-3.2-24b-instruct-2506 ist die Alternative europäischen Ursprungs in vergleichbarer Größe. qwen3-32b ist eine weitere General-Purpose-Option mit etwas höherer Parameterzahl, ebenfalls im EU-souveränen Hosting-Rahmen.

Für Workloads, die echte Frontier-Capability benötigen und Nicht-EU-Hosting akzeptieren können, ist die direkte OpenAI-API mit neueren Reasoning- und multimodalen Modellen der alternative Weg. Die Wahl zwischen EU-souveräner leistungsfähiger Inferenz und frontier-fähiger US-gehosteter Inferenz ist die strategische Entscheidung, zu der dieses Modell informieren soll.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

gpt-oss-20b — illustration 2
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
257 ms
P95-Latenz
375 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026