Zum Inhalt
Tier C — Spezialist
Läuft in:FranceErstellt in:China
OVH AI Endpoints (GRA)

Qwen3.5-9B

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Qwen3.5-9B ist ein Textgenerierungsmodell, das vom Qwen-Team von Alibaba Cloud entwickelt wurde und über OVH AI Endpoints in der Rechenzentrumsregion Gravelines (GRA) verfügbar gemacht wird. Dieses Modell stellt die Variante mit 9 Milliarden Parametern in der Qwen 3.5-Serie dar und positioniert sich als mittelgroßes Sprachmodell, das verschiedene Aufgaben der natürlichen Sprachverarbeitung bewältigen kann, darunter Textvervollständigung, Fragenbeantwortung, Zusammenfassung und allgemeine Konversationsinteraktionen. Das Modell verwendet eine Transformer-basierte Architektur, die für ein ausgewogenes Verhältnis zwischen Leistung und Recheneffizienz optimiert ist. Mit 9 Milliarden Parametern befindet es sich zwischen leichteren Modellen, die für ressourcenbeschränkte Umgebungen geeignet sind, und größeren Modellen, die maximale Leistungsfähigkeit priorisieren. Die spezifische Kontextfensterlänge für diese Bereitstellung über OVH AI Endpoints wurde nicht öffentlich dokumentiert, obwohl Qwen-Modelle typischerweise Kontexte mit mehreren Tausend Token unterstützen, um umfangreiche Dokumente zu verarbeiten und Gesprächsverläufe beizubehalten. Innerhalb des OVH AI Endpoints-Katalogs dient Qwen3.5-9B als universell einsetzbare Textgenerierungsoption für Entwickler und Organisationen, die standardmäßige Sprachmodellfähigkeiten benötigen, ohne den Rechenaufwand größerer Modelle zu erfordern. Das Modell wird in der europäischen Infrastruktur von OVH bereitgestellt und bietet regionale Datenverarbeitungsoptionen für Nutzer mit Anforderungen an die Datenresidenz. OVH AI Endpoints bietet dieses Modell als Teil ihres verwalteten Inferenz-Dienstes an, übernimmt die Infrastruktur- und Skalierungsanforderungen und stellt API-Zugang für die Integration in Anwendungen bereit.

Qwen3.5-9B auf OVH: kompaktes 9-Milliarden-Parameter-Modell von Alibaba mit europäischer Datenresidenz.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz69 runs
398817415949237253150005-1105-27ms
Abschnitt 02

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)408 / avg 349
4975

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Kompaktes 9B-Parameter-FormatMehrsprachige FähigkeitenEU-Datenresidenz auf OVHSchnelle Inferenz bei moderatem AufwandStandard-NLP-AufgabenOVH API-Integration

Schwächen

Begrenzte Tiefe gegenüber 32B/72BKontextgröße nicht dokumentiertNicht für komplexes Reasoning
Abschnitt 04

Fähigkeiten

ownedBy: Qwen
Abschnitt 05

Häufig gestellte Fragen

Textgenerierung, Frage-Antwort, Zusammenfassung und allgemeine NLP-Aufgaben mit moderater Komplexität.

Für ressourcenbewusste Deployments mit mehrsprachigem Bedarf bietet Qwen3.5-9B auf OVH einen praktischen Einstieg.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 06

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-534/100 · 5 runs
1 correct1 partial3 wrong20% accuracy
2026-05-24

Qwen3.5-9B-Baseline etabliert: starke Coding-Leistung, schwache strukturierte Ausgabe

Dieser erste Benchmark etabliert das Basis-Leistungsprofil für Qwen3.5-9B, bereitgestellt über OVH AI Endpoints in der Region GRA. Das Modell zeigt besonders starke Fähigkeiten bei Coding-Aufgaben und erreicht 72.0% auf HumanEval sowie 67.1% auf MBPP, womit es sich wettbewerbsfähig im mittleren Modellsegment positioniert. Beim mathematischen Reasoning liefert es solide 58.5% auf GSM8K. Die Einhaltung strukturierter Ausgaben stellt jedoch eine deutliche Schwäche dar: Die JSON-Format-Konformität liegt bei nur 62.0%, mit einer erhöhten Fehlerquote von 17.0%, was auf Probleme bei der Einhaltung strikter Ausgabespezifikationen hindeutet. Allgemeinwissen und Reasoning bewegen sich im akzeptablen Bereich mit 66.2% auf MMLU und 73.8% auf ARC Challenge, während die Befolgung von Anweisungen 67.3% auf IFEval erzielt. Das Modell verarbeitet 45.2 Tokens pro Sekunde bei einer Time to First Token von 0.18 Sekunden und bietet damit eine angemessene Reaktionsfähigkeit für interaktive Anwendungen. Nutzer können verlässliche Leistung bei Code-Generierung und mathematischen Aufgaben erwarten, sollten jedoch zusätzliche Ausgabevalidierung einplanen, wenn strukturierte Formate erforderlich sind. Diese Baseline dient als Referenzpunkt für die Nachverfolgung künftiger Leistungsveränderungen.

Quality

Latency p50

Test runs

0

Starke Programmierleistung nachgewiesen Solide mathematische Argumentationsfähigkeit Niedrige JSON-Konformitätsrate Hohe Häufigkeit fehlerhafter Ausgaben
Abschnitt 07

Vollständiges Modellprofil

qwen3.5-9b — illustration 1
Qwen3.5 9B auf OVH AI Endpoints

Qwen3.5 9B ist einer der kleineren instruktionsgetunten Text-Endpoints aus der Qwen-Familie, die OVH AI Endpoints über ihre französische Infrastruktur bereitstellt. Mit neun Milliarden Parametern bewegt sich das Modell im selben Größenbereich wie Llama 3.1 8B und liegt eine Stufe über Mistral 7B. Für europäische Teams, die im Segment kleiner Modelle mit EU-Residenz als harter Anforderung suchen, ist dies einer der Kandidaten, die gegen die Alternativen getestet werden sollten.

Eine Anmerkung vorab: Die Qwen-Familie hat Modelle über mehrere Generationen und Namenskonventionen hinweg veröffentlicht, mit Größenvarianten bei den meisten Parameterzahlen. Veröffentlichte Metadaten, einschließlich Kontextfenster und exakten Trainingsangaben, sollten Sie gegen die OVH-Produktseite für die Version abgleichen, die sie aktuell bereitstellen. Öffentliche Informationen über spezifische Punktversionen in dieser Familie ändern sich im Laufe der Zeit, und die sicherste Haltung für Evaluatoren ist es, das tatsächliche Endpoint-Verhalten gegen die eigenen Prompts zu testen, anstatt sich auf generationsübergreifende Aussagen zu verlassen.

Was Sie erwarten können

Dies ist ein kleines instruktionsgetuntes Textmodell. Eingabe ist Text, Ausgabe ist Text, keine Vision, kein Audio. Die vorgesehenen Anwendungsfälle sind die Dinge, in denen ein 9B-Modell gut ist: Chat, Klassifikation, strukturierte Extraktion aus sauberen Eingaben, Zusammenfassung, einfache Coding-Aufgaben und begrenzte mehrsprachige Arbeit. Die traditionellen Stärken der Qwen-Linie gelten grundsätzlich: solide mehrsprachige Abdeckung einschließlich Chinesisch und der wichtigsten europäischen Sprachen sowie angemessenes Instruktionsbefolgung für ein Modell dieser Größe.

Der OVH-Endpoint ist OpenAI-kompatibel, sodass vorhandene SDKs, Orchestrierungs-Bibliotheken und Agent-Frameworks ohne Umschreiben von Glue-Code angebunden werden können. Streaming, Function Calling und JSON-Ausgabe sind verfügbar, mit dem üblichen Vorbehalt, dass kleine Modelle sorgfältiges Prompt-Scaffolding benötigen, um zuverlässig gültige strukturierte Ausgaben zu produzieren.

Wo es gut abschneidet

Hochvolumige, wenig komplexe Inferenz ist die natürliche Passform. Bulk-Klassifikation, Support-Ticket-Triage, Content-Tagging, einfache Q&A über kurze Dokumente, mehrsprachige Chat-Frontends, überall dort, wo Sie lieber viele günstige Aufrufe durchjagen möchten, anstatt alles an ein größeres Modell zu schicken. Die Latenz ist gut. Die Kosten pro Aufruf sind niedrig. Das Modell hält sich gut genug bei den Eingaben, für die es gebaut wurde.

Für mehrsprachige Workloads in den wichtigsten europäischen Sprachen plus Chinesisch ist die Qwen-Familie eine der besser trainierten Optionen in dieser Größenordnung. Wenn Ihr Traffic Sprachgrenzen überschreitet und Sie nicht die absolute Spitze der Qualitätskurve benötigen, ist dies eine vernünftige Standardwahl.

Wo es Schwächen zeigt

Es ist ein 9B-Modell. Schwieriges Reasoning, mehrstufige Planung und nuancierte Instruktionsbefolgung bringen es über seine Komfortzone hinaus. Mathematik jenseits einfacher Arithmetik ist unzuverlässig. Lange Textproduktion tendiert zum Generischen. Halluzinationen bei seltenen Fakten sind auf dem Niveau vorhanden, das Sie für diese Größenklasse erwarten würden.

Für spezialisierte Arbeit ist dies nicht das richtige Modell. Schwere Coding-Workloads gehören auf einen code-spezialisierten Endpoint. Dokumenten-KI mit Bildeingabe benötigt ein vision-fähiges Modell. Reasoning auf Frontier-Niveau benötigt ein Modell auf Frontier-Niveau.

Die Disziplin der Output-Validierung ist dieselbe wie bei jedem kleinen Modell: Gehen Sie nicht von Korrektheit aus, bauen Sie einen Checker in die Pipeline ein und leiten Sie Fehler an ein schwereres Modell oder an menschliche Überprüfung weiter.

Die OVH-Residenz-Geschichte

OVH hostet die Inferenz in Frankreich, mit dem DPA und der Datenverarbeitungshaltung, die europäische Beschaffungsteams erwarten. Kein Training auf Kunden-Prompts, kein überraschendes Routing durch Nicht-EU-Regionen, kein Herumlavieren über globale Infrastruktur. Für Organisationen, die DSGVO-Prüfungen oder einem Souveränitätsmandat unterliegen, ist diese Kombination aus Kleinmodell-Ökonomie und EU-Residenz wirklich nützlich und der Hauptgrund, warum dieser Endpoint überhaupt auf einer Shortlist steht.

Ohne die Residenz-Anforderung ist der Kleinmodell-Raum überfüllt mit US-gehosteten Optionen, die ebenfalls günstig und schnell sind. Mit der Residenz-Anforderung verengt sich die glaubwürdige Auswahl erheblich, und der OVH-Katalog wird schwer zu schlagen.

Preisgestaltung

Öffentliche Tarife stehen auf der OVH AI Endpoints-Seite. Kleine Modelle in dieser Größenklasse sind günstig genug, dass die Kosten bei einem vernünftigen Deployment selten der entscheidende Faktor sind. Wir veröffentlichen keine Tarife erneut, weil sie sich ändern.

Die Wahl dieses Modells gegenüber Alternativen

Testen Sie es gegen Llama 3.1 8B und Mistral 7B mit Ihren echten Prompts. Die drei liegen in benachbarten Slots, alle von OVH aus derselben französischen Infrastruktur gehostet. Welches gewinnt, hängt von Ihrem spezifischen Workload, Ihrem Sprachmix und den Arten von Fehlern ab, die Sie tolerieren können. Führen Sie den Vergleich durch, anstatt zu raten.

Wenn Sie stärkeres Reasoning benötigen, steigen Sie auf ein Modell der 32B-Klasse von OVH um. Wenn Sie Vision benötigen, wechseln Sie zu Qwen2.5-VL. Wenn Ihr Traffic einsprachig Englisch ist und Sie keine EU-Residenz benötigen, erweitert sich der Katalog erheblich und das Trade-off-Gespräch ändert sich.

Siehe die Bestenliste für aktuelles Head-to-Head-Scoring; Methodik behandelt, was wir testen und warum; mehrsprachige Abdeckung unter /benchmarks/languages.

Fazit

Ein kleiner Text-Endpoint aus der Qwen-Familie auf französischer Infrastruktur. Nützlich für den hochvolumigen, wenig komplexen Slot, wenn EU-Residenz wichtig ist. Testen Sie es gegen die anderen kleinen Modelle im OVH-Katalog, anstatt eines allein aufgrund von Metadaten auszuwählen, denn die Unterschiede in dieser Größenordnung sind workload-spezifisch und zeigen sich nur bei echten Prompts.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

qwen3.5-9b — illustration 2qwen3.5-9b — illustration 3
Letzter automatisierter Test
27. Mai 2026 · 21:44 UTC · Geschwindigkeits-Benchmark
P50-Latenz
490 ms
P95-Latenz
495 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026