
Mistral NeMo Instruct ist das 12-Milliarden-Parameter-Modell mit Instruction-Tuning, das Mistral AI in Zusammenarbeit mit NVIDIA entwickelt und im Juli 2024 veröffentlicht hat. Die Bezeichnung „2407" im Modellnamen ist der JJMM-Datumsstempel. OVH AI Endpoints stellt es aus französischer Infrastruktur bereit, was es zu einer der interessanteren mittelgroßen Optionen im EU-gehosteten Katalog macht.
Was NeMo unterscheidet
Zwei Dinge. Das Kontextfenster von 128.000 Token ist für ein Modell dieser Größenklasse außergewöhnlich großzügig. Und der Tokenizer Tekken wurde gezielt für mehrsprachige Effizienz konzipiert und erzeugt über die meisten europäischen Sprachen hinweg weniger Token pro Zeichen als die Tokenizer der Llama-Familie. Dieser zweite Punkt ist unauffällig wichtig: Für Workloads in Französisch, Deutsch, Italienisch und Spanisch verbrauchen Sie weniger Token pro Anfrage, was sich direkt in niedrigeren Kosten und einem längeren effektiven Kontext für dieselbe Eingabeaufforderung niederschlägt.
Das Modell verarbeitet ausschließlich Text, sowohl als Eingabe als auch als Ausgabe. Kein Vision, kein Audio. Die Instruction-Tuning-Variante ist diejenige, die Sie für Produktivumgebungen benötigen; das Basismodell existiert zwar, erfordert aber deutlich mehr Prompt-Engineering, um vorhersehbar zu funktionieren.
Wo es überzeugt
Mehrsprachiger Chat ist die stärkste Positionierung. NeMo bewältigt die großen europäischen Sprachen mit deutlich weniger Qualitätsverlust als die ältere Mistral-7B-Linie und konkurriert auf Augenhöhe mit Llama 3.1 8B bei denselben Sprachen. Für mehrsprachige Support-Workflows, kundenorientierte Chatbots im kontinentalen Europa oder Content-Pipelines, die zwischen Sprachen wechseln, ist dies eine vernünftige Standardwahl.
Function Calling funktioniert auf einem angemessenen Zuverlässigkeitsniveau für ein 12B-Modell. JSON-Ausgaben sind verlässlich, wenn Sie das Schema in der Eingabeaufforderung eingrenzen. Das 128k-Kontextfenster verändert die Form praktikabel umsetzbarer Workloads: Sie können ihm ein mittelgroßes Dokument, einen Chat-Verlauf und eine Anweisung in einem einzigen Aufruf übergeben, ohne eine Retrieval-Schicht konstruieren zu müssen.
Die Latenz ist gut. Das Modell ist klein genug, um Antworten schnell zu streamen, was bei interaktiven Anwendungsfällen von Bedeutung ist, bei denen ein Nutzer auf einen Cursor starrt und auf Ausgaben wartet.
Wo es an Grenzen stößt
NeMo ist ein kompetentes mittelgroßes Modell, kein Schwergewicht. Anspruchsvolles Reasoning, komplexe mehrstufige Planung und ernsthafte Coding-Arbeit werden seine Grenzen sichtbar machen. Die Ausgabe tendiert zu Weitschweifigkeit, sofern Sie nicht anders instruieren. Halluzinationen bei seltenen Entitäten sind präsent, im Einklang mit der Größenklasse.
Code-Generierung ist in gängigen Sprachen funktionsfähig und in weniger verbreiteten schwächer. Wenn Ihr Workload Code-lastig ist, schauen Sie sich stattdessen ein auf Code spezialisiertes Modell an.
Die 128k-Kontextgrenze ist eine harte Zahl, kein weiches Versprechen. Die Attention-Qualität degradiert, wenn Sie sich dem oberen Ende des Fensters nähern, auf die Weise, wie es bei den meisten Long-Context-Modellen der Fall ist. Für Retrieval-kritische Arbeit übertrifft eine ordentliche RAG-Schicht das naive Hineinstopfen von allem in den Kontext.
Der EU- und OVH-Aspekt
OVH betreibt NeMo von Gravelines oder Roubaix aus, auf französischem Boden, mit einem DPA, der das tut, was europäische Beschaffungsteams von einem DPA erwarten. Kein Training auf Kunden-Prompts, kein überraschender Egress in Nicht-EU-Regionen, keine Ausflüchte über „globale Infrastruktur". Für Organisationen unter DSGVO-Prüfung oder mit einem Souveränitätsmandat ist diese Kombination der eigentliche Grund, warum dieser Endpoint existiert.
Der Katalog glaubwürdiger mittelgroßer Modelle mit dieser Hosting-Geschichte ist kurz. Die Hyperscaler bieten EU-Regionen an, aber die Vertrauensposition ist strukturell anders. OVHs Pitch ist enger gefasst und leichter zu verifizieren. Ob das von Bedeutung ist, hängt davon ab, wer die Beschaffung abzeichnet.
Preisgestaltung
Aufgeführt auf der OVH-AI-Endpoints-Seite. Tarife ändern sich; wir veröffentlichen sie nicht erneut. NeMo sitzt in der erschwinglichen Mittelklasse, günstiger als die 70B-Klasse-Modelle, teurer pro Aufruf als die 7B-Klasse.
NeMo versus Alternativen wählen
Greifen Sie zu NeMo, wenn: Sie mehrsprachige Qualität über dem wünschen, was ein 7-8B-Modell liefert, Sie ein langes Kontextfenster ohne Frontier-Tier-Tarife wollen, Sie die EU-Residenz-Geschichte brauchen und Sie kein Vision benötigen. Wenn Ihr Traffic einsprachig Englisch ist und Kosten die einzige relevante Achse darstellen, sind die kleineren Mistral- oder Llama-8B-Modelle günstiger und für viele Workloads gut genug. Wenn Sie stärkeres Reasoning benötigen, sind die 70B-Klasse-Modelle im OVH-Katalog der offensichtliche nächste Schritt.
Für reinen Durchsatz-pro-Euro bei Bulk-Textklassifikation werden die 7B-Modelle weiterhin gewinnen. Für interaktiven mehrsprachigen Chat mit einem 128k-Fenster ist NeMo im EU-gehosteten Segment schwer zu schlagen.
Siehe die Seite Intelligenz für aktuelle Bewertungen; mehrsprachige Abdeckung unter /benchmarks/languages; modellspezifische Latenz unter /benchmarks/speed.
Fazit
Ein mehrsprachig-freundliches 12B-Modell mit langem Kontext, auf französischer Infrastruktur, zu einem vernünftigen Preispunkt. NeMo ist einer der am stärksten unterschätzten Einträge im OVH-Katalog. Es ist nicht das Modell, das die Schlagzeilen macht. Für europäische Teams, die Support-, Content- oder Extraktions-Pipelines in mehreren Sprachen aufbauen, ist es oft die richtige pragmatische Antwort.
Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

