Was unterscheidet 20B von 120B?

Das 20B-Modell ist ressourcenschonender und günstiger, bietet aber weniger Kapazität für komplexe Aufgaben.

Welche Aufgaben eignen sich?

Standard-Textgenerierung, Konversations-KI, Zusammenfassungen und allgemeine NLP-Anwendungen.

Ist OVH AI Endpoints zuverlässig für Produktion?

Als Managed-Service von einem etablierten europäischen Anbieter bietet OVH produktionstaugliche Infrastruktur.

Tier C — Spezialist

Läuft in:FranceErstellt in:United States

OVH AI Endpoints (GRA)

gpt-oss-20b

Q: Warum OVH statt direkter Cloud-KI-Anbieter?

Für Organisationen mit EU-Datenresidenzanforderungen bietet OVH Hosting in Frankreich und europäische Compliance-Garantien.

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-OSS-20B ist ein Textgenerierungsmodell, das über OVH AI Endpoints angeboten wird und konkret in der Rechenzentrumsregion Gravelines (GRA) von OVH in Frankreich gehostet wird. Das Modell stellt gängige Funktionen zur Verarbeitung natürlicher Sprache bereit, darunter Textvervollständigung, Beantwortung von Fragen und allgemeine Konversationsaufgaben. Als Teil des AI-Endpoints-Dienstes von OVH läuft es innerhalb der europäischen Cloud-Infrastruktur von OVH und richtet sich damit an Nutzer, die eine Datenhaltung innerhalb der EU benötigen oder europäische Compute-Ressourcen bevorzugen. Die Spezifikationen zum Kontextfenster des Modells wurden nicht öffentlich dokumentiert, es unterstützt jedoch typische Sprachmodelloperationen für Unternehmens- und Entwickleranwendungen. GPT-OSS-20B verarbeitet standardmäßige Textgenerierungs-Workloads ohne spezialisierte Funktionen für multimodale Verarbeitung, Function Calling oder andere erweiterte Fähigkeiten. Es fungiert als unkompliziertes Sprachmodell, das sich für die Integration in Anwendungen eignet, die automatisierte Textgenerierung, Content-Verarbeitung oder Konversationsschnittstellen erfordern. Innerhalb des AI-Endpoints-Portfolios von OVH stellt GPT-OSS-20B eine zugängliche Option für Organisationen dar, die bereits OVH-Cloud-Dienste nutzen oder KI-Inferenzfunktionen in europäischen Rechenzentren suchen. Das Modell dient als Allzweck-Sprachmodell und nicht als spezialisiertes oder Flaggschiff-Angebot und liefert grundlegende Textgenerierungsfunktionalität für Entwickler, die Anwendungen auf der OVH-Infrastruktur aufbauen. Die Verfügbarkeit über OVH AI Endpoints ermöglicht die Integration mit weiteren OVH-Diensten bei gleichzeitiger Wahrung der geografischen Datenlokalität innerhalb des Anbieternetzes.

gpt-oss-20b mit eigenen Fragen testen

GPT-OSS-20B auf OVH-Infrastruktur: kompaktes Open-Source-Sprachmodell mit europäischer Datenresidenz.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz101 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — gpt-oss-20b

$0.0400 pro 1M Input-Tokens

$0.1500 pro 1M Output-Tokens

≈ <$0.0001 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.0400

pro 1M Output-Tokens$0.1500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0400

input / 1M

— stable

$0.1500

output / 1M

— stable

2026-06-142026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)803 / avg 737

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Europäische Cloud-InfrastrukturDSGVO-konforme DatenverarbeitungKompaktes 20B-ModellStandard-TextgenerierungOVH API-IntegrationRessourceneffizienter als 120B

Schwächen

Kontextgröße nicht dokumentiertWeniger Kapazität als 120B-VarianteKein Multimodal-Support

Abschnitt 06

Fähigkeiten

ownedBy: OpenAI

Abschnitt 07

Häufig gestellte Fragen

Für Organisationen mit EU-Datenresidenzanforderungen bietet OVH Hosting in Frankreich und europäische Compliance-Garantien.

Für ressourcenbewusste Deployments mit europäischen Compliance-Anforderungen bietet GPT-OSS-20B eine zugängliche Option.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 08

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

—

Letzte 30 Tage

100.0%

n=1

Mediane Antwortzeit

449ms

n=1

Basierend auf 381 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

OK-Antworten (30d)

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-579/100 · 52 runs

39 correct3 partial10 wrong75% accuracy

● 2026-07-26

gpt-oss-20b plummets to 48.5 as factual and reasoning scores hit zero

This benchmark window reveals a dramatic performance collapse for gpt-oss-20b, with the overall quality score dropping 45.6 points from 94.1 to 48.5. The most alarming development is the complete failure in factual and reasoning categories, both scoring zero compared to strong previous performance. This suggests a fundamental regression in the model's core capabilities for logical processing and accurate information retrieval. The creative writing score surged to 94, up from 85, and multilingual support maintained its perfect 100 rating, demonstrating that some capabilities remain intact. Latency improved slightly from 7330ms to 7132ms at the median, though this minor speed gain is overshadowed by the quality deterioration. The test sample size remained consistent at 5 runs per window. Users should exercise caution deploying this model for factual or analytical tasks until these critical regressions are addressed. The selective nature of the failures, with creative and multilingual tasks unaffected while reasoning collapses entirely, points to a possible configuration issue or model version regression rather than general degradation.

Quality

48.5

Latency p50

7,132 ms

Test runs

✗ Factual accuracy dropped to zero✗ Reasoning capability completely failed✓ Creative score improved to 94✓ Multilingual remains perfect at 100

Abschnitt 10

Vollständiges Modellprofil

OVH gpt-oss-20b: die schlanke Variante von OpenAIs Open-Weight-Linie auf EU-souveränem Hosting

OVH AI Endpoints betreibt gpt-oss-20b aus seinem Rechenzentrum in Gravelines (Frankreich), dem kleineren 20-Milliarden-Parameter-Geschwister zum 120b-Release aus derselben OpenAI-Open-Weight-Familie. Die Trade-offs gegenüber der größeren Variante sind die naheliegenden: weniger Leistungsfähigkeit, schnellere Antworten, geringerer Compute-Footprint. Unverändert bleiben die EU-souveräne Hosting-Geschichte und die OpenAI-Abstammung, gegen die Produktionsteams jahrelang kalibriert haben.

Was die 20b-Stufe tatsächlich liefert

Die 20b-Parameterskala ist groß genug für allgemeine Texterzeugung, Anweisungsbefolgung, strukturierte Ausgaben und moderat komplexe Multi-Turn-Konversationen. Für Workloads, bei denen die vollen 120b überdimensioniert sind, bewältigt das 20b-Modell dieselbe Art von Aufgaben zu einem Bruchteil der Rechenkosten und mit substanziell niedrigerer Latenz.

Code-Generierung im moderaten Umfang funktioniert gut. Das Schreiben von Skripten mit einigen Dutzend Zeilen, Refactoring kleiner Funktionen, Erklärung dessen, was unbekannter Code macht. Das 20b-Modell erfasst die meisten Fälle, die für alltägliche Entwicklerunterstützung wichtig sind, ohne das Kostenprofil zu erreichen, das eine hochfrequente Nutzung eines 120b-Modells implizieren würde.

Die mehrsprachige Abdeckung setzt sich vom größeren Modell fort. Französisch, Deutsch, Niederländisch, Spanisch, Italienisch, Portugiesisch und Polnisch funktionieren alle gut auf der 20b-Stufe, obwohl nuancierte literarische Übersetzung und komplexe domänenspezifische Terminologie Schwächen zu zeigen beginnen, die das 120b-Modell besser handhaben würde. Für Kundensupport-Übersetzungen, Anpassung von Marketing-Texten und die meisten alltäglichen mehrsprachigen Arbeiten ist das 20b-Modell ausreichend.

Das OVH-Hosting bietet dieselbe EU-souveräne Data-Residency-Geschichte wie das 120b-Modell. Der Traffic bleibt in Frankreich. Der Betrieb unterliegt französischem und europäischem Datenschutzrecht. Die Konversation über Auftragsverarbeitungsverträge mit EU-Kunden ist unkompliziert.

Wo es funktioniert

Hochvolumige Text-Workloads, bei denen die Kosten pro Aufruf dominieren und die durchschnittliche Aufgabenkomplexität moderat ist. Chatbot-Backends für Kundensupport, Content-Moderation-Pipelines, Workflows zur strukturierten Extraktion aus Dokumenten, die kein Frontier-Reasoning erfordern, Batch-Zusammenfassungsjobs.

Latenz-sensitive Anwendungen, bei denen die schnellere Inferenz des 20b-Modells zählt. Interaktive Chat-Oberflächen, bei denen der Nutzer eine Antwort in wenigen Sekunden erwartet, statt auf das Nachdenken des Modells zu warten. Echtzeit-Content-Augmentation, bei der das Modell mit dem Tippen oder Browsen eines Nutzers Schritt halten muss, anstatt ein Back-Office-Batch-Service zu sein.

EU-Hosting-Anforderungen mit einem Budgetrahmen, der das größere 120b-Modell für Routinearbeit nicht rechtfertigt. Das 20b-Modell ist die richtige Stufe, wenn die Souveränitätsgeschichte eine harte Anforderung ist und der Workload nicht die Leistungsobergrenze des größeren Modells benötigt.

Entwicklungs- und Prototyping-Workflows, bei denen Sie schnell Prompts und Architekturen iterieren möchten, bevor Sie entscheiden, ob Sie in höherstufige Inferenz investieren. Die niedrigeren Kosten und die schnellere Antwortzeit des 20b-Modells machen es zur besseren Wahl für die schnelle Iterationsphase beim Aufbau einer Anwendung.

Wo es scheitert

Komplexe Reasoning-Aufgaben, die von einer größeren Parameterskala profitieren. Das 20b-Modell wird plausibel klingende Antworten auf schwierige Fragen produzieren, aber Nuancen übersehen, die das gpt-oss-120b erfasst. Für Workloads, bei denen Reasoning-Tiefe wichtig ist und EU-Hosting erforderlich ist, ist das 120b-Modell die bessere Stufe.

Code-Synthese in signifikantem Umfang. Das Schreiben eines Algorithmus von bedeutsamer Komplexität, Refactoring einer verworrenen Funktion mit vielen interagierenden Belangen, Generierung nicht-trivialer Test-Suites. Das 20b-Modell handhabt Coding im kleinen Umfang gut, aber die Fehlerrate steigt, wenn der Umfang wächst.

Frontier-Capability-Workloads. Kein 20b-Modell konkurriert mit der absoluten Leistungsobergrenze, die proprietäre Frontier-Modelle erreichen. Das 20b-Modell ist die Volumen-Stufe, nicht die Frontier-Stufe, und seine Verwendung für Workloads, die wirklich Frontier-Capability benötigen, liefert frustrierende Ergebnisse.

Multimodale Arbeit. Das Modell ist rein textbasiert. Für Vision-, Audio- oder multimodale Fähigkeiten bietet OVH andere Modellfamilien wie qwen2.5-vl-72b-instruct für Vision-Language-Arbeit durch dasselbe EU-souveräne Hosting-Muster.

Die Wahl treffen oder hochskalieren

Für EU-Kunden, die hochvolumige Textanwendungen aufbauen und die OpenAI-Linie zu einem skalierbaren Kostenprofil wünschen, ist gpt-oss-20b auf OVH die richtige Standardwahl. Die Konfiguration bewältigt den Großteil der Routine-Text-Workloads zu einer Unit-Economics, die das 120b-Modell nicht erreichen kann.

Für Workloads, bei denen Leistungsfähigkeit wichtiger ist als Kosten, ist gpt-oss-120b das Upgrade innerhalb derselben Linie und derselben Hosting-Umgebung. Die Migration ist trivial in der API-Oberfläche. Der Kostenunterschied ist bedeutsam, sodass die Frage lautet, ob Ihr Workload das größere Modell tatsächlich benötigt.

Für Workloads auf der 20b-Parameterskala, die nicht spezifisch die OpenAI-Linie benötigen, bietet OVH starke Alternativen. llama-3.1-8b-instruct sitzt am kleineren Ende derselben allgemeinen Leistungsstufe. mistral-small-3.2-24b-instruct-2506 ist die Alternative europäischen Ursprungs in vergleichbarer Größe. qwen3-32b ist eine weitere General-Purpose-Option mit etwas höherer Parameterzahl, ebenfalls im EU-souveränen Hosting-Rahmen.

Für Workloads, die echte Frontier-Capability benötigen und Nicht-EU-Hosting akzeptieren können, ist die direkte OpenAI-API mit neueren Reasoning- und multimodalen Modellen der alternative Weg. Die Wahl zwischen EU-souveräner leistungsfähiger Inferenz und frontier-fähiger US-gehosteter Inferenz ist die strategische Entscheidung, zu der dieses Modell informieren soll.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

30. Juli 2026 · 08:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

249 ms

P95-Latenz

250 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026