Zum Inhalt
Tier C — Spezialist
Läuft in:FranceErstellt in:China
OVH AI Endpoints (GRA)

Qwen3-Coder-30B-A3B-Instruct

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Qwen3-Coder-30B-A3B-Instruct ist ein spezialisiertes großes Sprachmodell, entwickelt vom Qwen-Team von Alibaba Cloud und gezielt für Codegenerierung sowie programmierbezogene Aufgaben optimiert. Als Teil der Qwen3-Coder-Reihe wurde dieses Modell mit 30 Milliarden Parametern instruction-tuned, um Programmieranfragen zu verstehen und zu beantworten, bestehenden Code zu debuggen, Programmierkonzepte zu erläutern und Software-Entwicklungs-Workflows in verschiedenen Programmiersprachen zu unterstützen. Das Modell stellt eine mittlere bis große Variante innerhalb der Qwen3-Coder-Familie dar und verbindet Recheneffizienz mit Leistungsfähigkeit. Das Modell richtet sich primär an Entwickler, Softwareingenieure und technische Teams, die KI-Unterstützung bei Programmieraufgaben benötigen. Das Instruction-Tuning ermöglicht es, konkreten Programmieranfragen zu folgen, Code-Snippets aus natürlichsprachlichen Beschreibungen zu generieren und technische Erklärungen bereitzustellen. Mit 30B Parametern positioniert es sich als leistungsfähiges Modell für komplexe Programmieraufgaben, bleibt aber hinsichtlich der Rechenanforderungen zugänglicher als größere Varianten. OVH AI Endpoints hostet dieses Modell über die Rechenzentrumsinfrastruktur in GRA (Gravelines, Frankreich) und bietet damit europäischen Zugriff auf die Qwen3-Coder-Funktionen. Innerhalb des AI-Endpoints-Portfolios von OVH richtet sich dieses Modell gezielt an Nutzer, die codefokussierte KI-Funktionalität anstelle universeller Sprachmodelle suchen. Die Bereitstellung über die OVH-Infrastruktur bietet Organisationen eine alternative Hosting-Option für Qwen-Modelle – besonders relevant für jene mit Anforderungen an europäische Datenresidenz oder bestehenden Investitionen in die OVH-Cloud-Infrastruktur.

Qwen3-Coder-30B: Alibabas auf Code spezialisiertes 30B-Modell für Entwickler-Workflows auf europäischer OVH-Infrastruktur.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz69 runs
5022339656874105-1105-27ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Qwen3-Coder-30B-A3B-Instruct
$0.1500 pro 1M Input-Tokens
$0.4500 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1500
pro 1M Output-Tokens$0.4500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.4500

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1639 / avg 1638
3929286

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Code-Generierung spezialisiertDebugging und Code-ErklärungOVH EU-DatenresidenzMehrere ProgrammiersprachenNatürlichsprache zu CodeInstruction-Tuning für technische Aufgaben

Schwächen

Kontextgröße nicht dokumentiertNicht für allgemeine Konversation optimiert30B-Ressourcenbedarf
Abschnitt 05

Fähigkeiten

ownedBy: Qwen
Abschnitt 06

Häufig gestellte Fragen

Sie sind durch spezialisiertes Code-Training auf Programmieraufgaben optimiert: Generierung, Debugging und technische Dokumentation.

Für Code-Assistenz mit europäischer Compliance kombiniert Qwen3-Coder-30B auf OVH Entwicklerkompetenz und Datensouveränität.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-584/100 · 5 runs
4 correct0 partial1 wrong80% accuracy
2026-05-24

Qwen3-Coder-30B establishes baseline with strong coding capabilities

Qwen3-Coder-30B-A3B-Instruct debuts on the OVH AI Endpoints platform with a comprehensive performance profile across coding and general tasks. The model demonstrates robust capabilities in code generation and technical problem-solving, though specific quantitative benchmarks are not yet available for comparison. As a specialized coding model in the 30B parameter class, it positions itself for developers requiring substantial computational capacity for complex programming tasks. The A3B variant suggests an optimized inference configuration designed to balance performance with resource efficiency. Users should expect this model to handle multi-language code generation, debugging assistance, and technical documentation tasks. Without historical data, this baseline establishes the foundation for future performance tracking. The model's architecture and parameter count indicate suitability for enterprise-grade coding assistance, though real-world performance validation will require monitoring across subsequent benchmark windows. Deployment on OVH's infrastructure provides European data residency options for organizations with compliance requirements. Initial users should evaluate the model against their specific coding workflows to determine optimal fit within their development pipelines.

Quality

Latency p50

Test runs

0

First baseline established 30B parameter coding specialist European infrastructure deployment
Abschnitt 08

Vollständiges Modellprofil

qwen3-coder-30b-a3b-instruct — illustration 1
Qwen3-Coder 30B A3B Instruct auf OVH AI Endpoints

Qwen3-Coder 30B A3B Instruct ist das auf Code spezialisierte Mixture-of-Experts-Modell aus Alibabas Qwen3-Reihe, bereitgestellt durch OVH AI Endpoints von französischer Infrastruktur aus. Die Bezeichnung „30B" steht für die Gesamtanzahl der Parameter; „A3B" gibt an, dass durch das MoE-Routing etwa 3 Milliarden Parameter pro Token aktiv sind. Die Architektur dieser Form ist entscheidend für die Leistung des Modells: Man erhält die Breite eines großen Modells bei einem Pro-Aufruf-Rechenaufwand, der näher an einem kleinen Modell liegt.

Der MoE-Ansatz

Ein Sparse-MoE-Modell aktiviert für jedes Token nur eine Teilmenge seiner Parameter. Qwen3-Coder 30B A3B folgt diesem Muster, was bedeutet, dass die Inferenzkosten und Latenz näher an einem kleinen dichten Modell liegen als es die Parameterzahl von 30B vermuten ließe, während die Wissensbreite und Fähigkeiten vom größeren Gesamtparameterpool profitieren. Für die Code-Generierung speziell funktioniert dieser Kompromiss gut: Code ist eine Domäne, in der es hilft, ein breites Spektrum an Mustern gesehen zu haben, aber die meisten einzelnen Generierungen benötigen nicht, dass jeder Parameter gleichzeitig feuert.

Die praktische Konsequenz ist, dass man besser-als-9B-Qualität bei annähernd-9B-Geschwindigkeit erhält. Die Ökonomie dieser Architektur macht code-spezialisierte Modelle wie dieses zu Preispunkten realisierbar, bei denen ein vollständig dichtes Äquivalent unkomfortabel wäre.

Was es gut kann

Code-Generierung ist das gesamte Verkaufsargument. Das Modell wurde mit gezieltem Fokus auf Programmieraufgaben über Mainstream-Sprachen hinweg trainiert: Python, JavaScript und TypeScript, Java, Go, Rust, C und C++, plus solide Abdeckung von SQL, Shell-Scripting und den Konfigurationssprachen, die in echter Engineering-Arbeit auftauchen. Es schreibt idiomatischen Code, respektiert API-Dokumentation, wenn sie im Prompt bereitgestellt wird, produziert test-bewusste Ausgaben, wenn es darum gebeten wird, Testing zu berücksichtigen, und handhabt Refactoring-Aufgaben über mittelgroße Dateien hinweg.

Tool-Calling und strukturierte Ausgabe sind zuverlässig genug, um agentische Coding-Workflows anzutreiben. Das Modell produziert sauber JSON bei Einschränkungen, folgt Function-Calling-Schemata mit guter Genauigkeit und verkettet mehrere Tool-Aufrufe ohne die ständigen Retry-Schleifen, die kleinere generalistische Modelle auslösen, wenn sie in Coding-Agents gedrängt werden.

Multi-Datei-Reasoning funktioniert, wenn man dem Modell genug Kontext gibt. Die Long-Context-Behandlung der Qwen3-Linie überträgt sich auf die Coder-Variante, sodass man einen bedeutenden Teil einer Codebasis in einen einzelnen Aufruf packen und dateiübergreifende Fragen stellen oder Änderungen anfordern kann, die mehrere Module gleichzeitig berühren.

Code-Review und Erklärungen sind angemessen. Das Modell kann bestehenden Code lesen und Kommentare, Zusammenfassungen oder Kritiken produzieren, die die offensichtlichen Probleme erfassen. Für ernsthaftes Review will man immer noch ein zweites Modell oder einen Menschen, aber als erster Durchgang leistet es echte Arbeit.

Wo es Schwächen zeigt

Dies ist ein Code-Modell. Für allgemeine Konversation, kreatives Schreiben oder offenes Reasoning außerhalb der Programmierdomäne sollte man zu einem Generalisten greifen. Das Modell wird etwas produzieren, aber ein ähnlich großer Generalist wird es besser machen.

Code-Qualität ist in Mainstream-Sprachen am besten und schwächer in weniger verbreiteten. Esoterische DSLs, Nischen-Funktionssprachen oder domänenspezifische Tools liefern fleckigere Resultate. Für ungewöhnliche Stacks sollte man Ausgaben gegen eine Laufzeitumgebung oder einen Type-Checker validieren, anstatt darauf zu vertrauen.

Das Modell kennt Bibliotheken und APIs bis zu seinem Trainingsdaten-Cutoff. Für neu veröffentlichte Pakete, kürzlich geänderte APIs oder alles, was sich in den letzten Monaten verschoben hat, wird es selbstsicher Code produzieren, der auf alte Signaturen verweist. Man sollte es mit Retrieval über aktuelle Dokumentation kombinieren für jeden Workflow, bei dem API-Aktualität wichtig ist.

Mathematisch intensiver Code, besonders numerische Algorithmen, die sorgfältige Aufmerksamkeit auf Präzision und Grenzfälle erfordern, profitiert von expliziten Testfällen im Prompt und rigoroser Validierung des generierten Codes.

Der OVH-Residency-Aspekt

OVH betreibt dies von Gravelines oder Roubaix aus, auf französischem Boden. Für Organisationen, deren Quellcode, interne APIs oder proprietäre Datenflüsse durch den Inferenzpfad laufen, ist die Residency-Geschichte der gesamte Grund, warum dieser Endpoint gegenüber in den USA gehosteten Code-Assist-Alternativen in Betracht zu ziehen ist. Das DPA erfüllt, was europäische Beschaffungsteams erwarten, und Kundencode wird nicht für Modelltraining verwendet.

Für interne Entwickler-Tooling, Code-Review-Pipelines oder automatisiertes Refactoring in Organisationen, die ihre Codebasis nicht an einen Nicht-EU-Endpoint senden können, ist der OVH-Katalog eine der wirklich nützlichen Optionen. Die Menge der code-spezialisierten Modelle mit dieser Hosting-Konstellation ist kurz.

Preisgestaltung

Aufgeführt auf der OVH AI Endpoints-Seite. Die MoE-Architektur hält die Kosten pro Aufruf wettbewerbsfähig mit dichten Modellen, die mehrere Größenordnungen kleiner sind, was einer der praktischen Vorteile der Architekturwahl ist. Wir veröffentlichen Tarife nicht neu.

Auswahl dieses Modells gegenüber Alternativen

Wenn man Code-Assist-Tooling baut und EU-Residency benötigt: Dies auf die Shortlist setzen und gegen die Closed-Weight-Code-Modelle testen, die man sonst verwenden würde. Wenn man keine EU-Residency benötigt, erweitert sich der Katalog. Wenn der Traffic Code und allgemeine Konversation mischt, sollte man zwei Endpoints betreiben, anstatt zu erwarten, dass ein Modell in beidem exzellent ist.

Für agentische Coding-Workflows speziell macht die Kombination aus solidem Tool-Calling, zuverlässiger strukturierter Ausgabe und MoE-Ökonomie Qwen3-Coder 30B A3B zu einer der interessanteren Optionen am Preispunkt. Vor einem Commitment an realen Prompts validieren.

Siehe intelligence und das leaderboard für aktuelle Head-to-Head-Bewertungen gegen Alternativen.

Fazit

Ein code-spezialisiertes MoE-Modell auf französischer Infrastruktur. Qwen3-Coder 30B A3B Instruct ist die EU-gehostete Antwort für Teams, die echte Code-Assist-Qualität benötigen, ohne ihren Quellcode durch einen Nicht-EU-Endpoint zu schicken. Es ist nicht das Modell für allgemeinen Chat. Für seinen tatsächlichen Job ist es eine der besseren Optionen zu diesen Kosten.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

qwen3-coder-30b-a3b-instruct — illustration 2qwen3-coder-30b-a3b-instruct — illustration 3
Letzter automatisierter Test
27. Mai 2026 · 21:44 UTC · Geschwindigkeits-Benchmark
P50-Latenz
122 ms
P95-Latenz
158 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026