Zum Inhalt
Tier C — Spezialist
Läuft in:FranceErstellt in:China
OVH AI Endpoints (GRA)

Qwen3-32B

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Qwen3-32B ist ein großes Sprachmodell, entwickelt vom Qwen-Team von Alibaba Cloud, mit 32 Milliarden Parametern. Das Modell stellt das mittlere Angebot der Qwen3-Reihe dar und positioniert sich zwischen kleineren, auf Effizienz optimierten Varianten und größeren Modellen, die auf maximale Leistungsfähigkeit ausgelegt sind. Es basiert auf einer Decoder-only-Transformer-Architektur und wurde mit vielfältigen mehrsprachigen Daten trainiert, mit besonderen Stärken in englischen und chinesischen Sprachaufgaben. Das Modell ist für allgemeine Textgenerierungsanwendungen konzipiert, darunter Content-Erstellung, Frage-Antwort-Systeme, Code-Generierung und Conversational AI. Qwen3-32B bietet einen Ausgleich zwischen Recheneffizienz und Leistung und eignet sich damit für Produktionsumgebungen, in denen Ressourcenbeschränkungen relevant sind, aber dennoch ein starkes Sprachverständnis erforderlich ist. Das Modell zeigt Kompetenz in gängigen NLP-Benchmarks, wobei die konkreten Leistungswerte je nach Aufgabentyp variieren. OVH AI Endpoints stellt Qwen3-32B über die Rechenzentrumsregion GRA (Gravelines, Frankreich) bereit und bietet dieses Modell als Teil seines verwalteten Inferenzdienstes an. Die Integration ermöglicht Entwicklern den Zugriff auf das Modell über standardisierte API-Aufrufe, ohne dass die zugrunde liegende Infrastruktur verwaltet werden muss. Die exakte Kontextfensterspezifikation für dieses Deployment ist zwar nicht öffentlich dokumentiert, doch Qwen3-Modelle unterstützen typischerweise erweiterte Kontextlängen, die für Dokumentenverarbeitung und mehrstufige Konversationen geeignet sind. Diese Bereitstellungsoption eignet sich für europäische Nutzer, die eine DSGVO-konforme KI-Infrastruktur mit vorhersehbaren Latenzeigenschaften suchen.

Qwen3-32B: Alibabas Mid-Tier-Sprachmodell mit 32 Milliarden Parametern auf OVHs europäischer Infrastruktur.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz69 runs
360814515930237153150005-1105-27ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Qwen3-32B
$0.1500 pro 1M Input-Tokens
$0.4500 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1500
pro 1M Output-Tokens$0.4500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.4500

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)485 / avg 393
55083

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Starke Chinesisch-Englisch-Fähigkeiten32B-Parameter-BalanceOVH Gravelines DatenresidenzDecoder-Only-ArchitekturAllgemeine TextgenerierungOVH API-Integration

Schwächen

Weniger Tiefe als größere Qwen-VariantenKontextgröße nicht dokumentiertKein Multimodal-Support
Abschnitt 05

Fähigkeiten

ownedBy: Qwen
Abschnitt 06

Häufig gestellte Fragen

Es bietet sehr gute Chinesisch-Englisch-Leistung und ist damit besonders wertvoll für zweisprachige oder asiatische Märkte.

Für mehrsprachige Anwendungen mit Schwerpunkt auf Chinesisch und europäischer Datenresidenz ist Qwen3-32B eine solide Wahl.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-590/100 · 5 runs
4 correct1 partial0 wrong80% accuracy
2026-05-24

Qwen3-32B startet mit starker Leistung und schnellen Antwortzeiten

Qwen3-32B erscheint erstmals in unserer Benchmark-Suite über OVH AI Endpoints und etabliert eine solide Ausgangsbasis in allen wesentlichen Bewertungskategorien. Das Modell zeigt besonders starke Leistungen im mathematischen Reasoning mit 74,5 auf MATH500 und 82,5 auf GSM8K und positioniert sich damit wettbewerbsfähig innerhalb seiner Klasse. Die kreativen Schreibfähigkeiten sind mit einem Wert von 72,0 auf Creative Writing Hard ausgewogen, während Instruction Following 78,3 auf IFEval erreicht. Die Codegenerierung liegt mit 66,0 auf MultiPL-E im respektablen Bereich und eignet sich für allgemeine Programmieraufgaben. Das Modell bietet konsistente mehrsprachige Unterstützung mit 70,2 auf MGSM und bewältigt Multiturn-Konversationen angemessen mit einer Bewertung von 6,8 auf MT-Bench. Die Antwortzeiten sind bemerkenswert kurz: Die Time-to-First-Token beträgt im Durchschnitt 1,2 Sekunden, bei einem stabilen Durchsatz von 85,3 Tokens pro Sekunde und einer Inter-Token-Latenz von 11,7 ms. Als erste Evaluierung präsentiert sich Qwen3-32B als vielseitiges Modell mit ausgewogenen Fähigkeiten in Reasoning-, Kreativ- und Coding-Aufgaben, gestützt auf verlässliche Leistungskennzahlen, die unterschiedliche Anwendungsanforderungen effektiv bedienen sollten.

Quality

Latency p50

Test runs

0

Starke Leistung beim mathematischen Schlussfolgern Insgesamt schnelle Antwortzeiten Ausgewogene mehrsprachige Unterstützung Konsistente Durchsatzwerte
Abschnitt 08

Vollständiges Modellprofil

qwen3-32b — illustration 1
Qwen3 32B auf OVH AI Endpoints

Qwen3 32B ist das instruction-tuned Modell mit 32 Milliarden Parametern aus Alibabas Qwen3-Generation, bereitgestellt durch OVH AI Endpoints von französischer Infrastruktur aus. Es handelt sich um ein mittelgewichtiges Textmodell, das für universelles Reasoning, Programmierung und mehrsprachige Konversationen entwickelt wurde, und es besetzt eine nützliche Position im OVH-Katalog für europäische Teams, die echte Qualität benötigen, ohne Preise auf Frontier-Niveau bezahlen zu müssen.

Position in der Modellreihe

Die Qwen3-Veröffentlichung umfasste mehrere Größen, von kompakten Modellen für Edge-Deployment bis hin zu Flaggschiff-MoE-Varianten. Das 32B-Dense-Modell ist der optimale Punkt für produktiven Einsatz, wenn die kleineren Modelle zu viel Qualität auf dem Tisch liegen lassen und die allergrößten Modelle mehr kosten, als die Aufgabe rechtfertigt. Es verarbeitet Text als Eingabe und liefert Text als Ausgabe. Keine Bildverarbeitung, kein Audio. Wenn Ihr Workflow Bildeingaben benötigt, schauen Sie sich stattdessen den Qwen2.5-VL-Endpoint an.

Die instruction-tuned Variante ist diejenige, die Sie für die Produktion verwenden sollten. Sie bewältigt Chat, strukturierte Ausgaben, Function Calling und längere Generierungen ohne den Prompt-Engineering-Aufwand, den das Basismodell erfordert.

Wo es überzeugt

Reasoning über mehrstufige Probleme hinweg ist die sichtbarste Verbesserung gegenüber früheren Qwen-Generationen. Qwen3 wurde mit bewusstem Fokus auf Chain-of-Thought-Ausgaben trainiert, und die 32B-Variante verfügt über genügend Kapazität, um dieses Training tatsächlich zu nutzen. Für Aufgaben, die das Befolgen mehrerer Einschränkungen, die Zerlegung einer Frage in Teile oder die Erzeugung einer begründeten Antwort erfordern, hält sich dieses Modell gegen andere Open-Weight-Optionen derselben Größenordnung behaupten.

Coding-Performance ist gut in Mainstream-Sprachen. Das Modell schreibt idiomatischen Code, folgt API-Dokumentation, wenn sie im Prompt bereitgestellt wird, und erzeugt testbewusste Ausgaben auf Anfrage. Für agentische Coding-Workflows benötigen Sie ein code-spezialisiertes Modell für die schwere Arbeit und einen Generalisten wie Qwen3 32B für Planung und Review.

Mehrsprachige Verarbeitung ist breit angelegt und vernünftig gleichmäßig über die wichtigsten europäischen Sprachen verteilt, mit der traditionellen Stärke der Qwen-Reihe im Chinesischen. Für Workloads, die zwischen europäischen und asiatischen Sprachen wechseln, ist die Breite der Trainingsdaten einer der echten Vorteile der Qwen-Familie.

Tool Calling und JSON-Mode-Ausgaben sind zuverlässig genug, um echte Produktionsagenten anzutreiben. Die OpenAI-kompatible API-Oberfläche auf OVH bedeutet, dass bestehende SDKs ohne Änderungen funktionieren.

Wo es Schwächen zeigt

Kein Frontier-Modell. Bei den härtesten Reasoning-Benchmarks liegen die schwersten Closed-Weight-Modelle immer noch vorn. Die Lücke schließt sich bei Routinearbeiten und weitet sich bei Grenzfällen.

Längere Schreibarbeiten tendieren zur Wortfülle. Promten Sie explizit für Prägnanz, wenn Sie diese benötigen. Das Modell hat auch eine Tendenz zur Übererkärung bei einfachen Fragen, was je nach Workflow manchmal nützlich und manchmal irritierend ist.

Für spezialisierte Domänen ist die Ausgabequalität uneinheitlich. Juristisches Schreiben profitiert von umfangreichem Prompt-Scaffolding. Medizinisches Reasoning erfordert Validierung und sollte unabhängig vom Modell nicht ohne Aufsicht durch Domänenexperten eingesetzt werden. Nischenprogrammiersprachen liefern schwächere Ergebnisse als die populären.

Der EU-Residency-Aspekt

OVH betreibt Qwen3 32B in Gravelines oder Roubaix. Der Inference-Pfad bleibt durchgehend innerhalb europäischer Infrastruktur, der DPA entspricht dem, was europäische Beschaffungsteams erwarten, und Kundenprompts werden nicht für Modelltraining verwendet. Für Organisationen, die DSGVO-Prüfungen, einem Souveränitätsmandat oder sektoralen Datenschutzvorschriften unterliegen, ist diese Kombination aus Modellfähigkeit und Hosting-Geschichte eine der saubereren Optionen in der 32B-Klasse.

Der Katalog glaubwürdiger 32B-Klasse-Modelle mit EU-Residency ist kurz. Die Hyperscaler bieten EU-Regionen an, aber die Vertrauensposition ist strukturell anders als bei einem europäischen Cloud-Anbieter, der auf europäischem Boden betrieben wird.

Preisgestaltung

Die öffentlichen Tarife finden Sie auf der OVH AI Endpoints-Seite. Wir veröffentlichen sie nicht erneut, weil sie ohne Vorankündigung aktualisiert werden. Mittelklasse-Kosten pro Aufruf, komfortabel über den 7-12B-Kleinmodellen und deutlich unter den 70B-Klasse-Schwergewichten angesiedelt.

Wahl von Qwen3 32B gegenüber Alternativen

Greifen Sie hierauf zu, wenn Sie solides Mid-Tier-Reasoning, breite mehrsprachige Abdeckung und EU-Residency benötigen und keine Bildverarbeitung brauchen. Wenn Ihre Arbeit bequem in das Leistungsprofil eines kleineren Modells passt, sind die 7-8B-Optionen günstiger und gut genug. Wenn Sie die absolute Spitze der Qualitätskurve benötigen, sind die 70B-Klasse-Modelle im OVH-Katalog der offensichtliche nächste Schritt, zu merklich höheren Kosten pro Aufruf.

Ein praktisches Muster: Leiten Sie einfachen Traffic zu einem kleinen Modell, eskalieren Sie schwierigen Traffic zu Qwen3 32B, reservieren Sie einen 70B-Endpoint für die wirklich schwierigen Fälle. Die Wirtschaftlichkeit dieses gestuften Routings funktioniert in der Praxis gut, vorausgesetzt, der Router ist sorgfältig aufgebaut und die Fehlklassifikationsrate wird gemessen statt angenommen.

Siehe intelligence für aktuelle Bewertungen im Vergleich zu Alternativen; leaderboard für direkte Vergleiche; /benchmarks/languages für die mehrsprachige Aufschlüsselung; /benchmarks/speed für Latenzmessungen in EU-Regionen.

Fazit

Ein leistungsfähiges mittelgewichtiges Textmodell aus der Qwen3-Generation, gehostet auf französischer Infrastruktur. Qwen3 32B ist eine vernünftige Standardwahl für europäische Teams, die echte Reasoning-Qualität ohne die Kosten eines Flaggschiff-Modells benötigen und bei denen die Residency-Geschichte einer Beschaffungsprüfung standhalten muss.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

qwen3-32b — illustration 2
Letzter automatisierter Test
27. Mai 2026 · 21:44 UTC · Geschwindigkeits-Benchmark
P50-Latenz
412 ms
P95-Latenz
439 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026