Zum Inhalt
Tier C — Spezialist
Läuft in:FranceErstellt in:France
OVH AI Endpoints (GRA)

Mistral-Nemo-Instruct-2407

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Mistral-Nemo-Instruct-2407 ist ein Sprachmodell mit 12 Milliarden Parametern, das von Mistral AI in Zusammenarbeit mit NVIDIA entwickelt wurde. Es wurde im Juli 2024 veröffentlicht, verfügt über ein Kontextfenster von 128k Tokens und basiert auf einer Standard-Transformer-Architektur. Das Modell ist für Instruction-Following-Aufgaben feinabgestimmt und eignet sich somit für Anwendungen, die konversationelle KI, Textgenerierung und Reasoning-Fähigkeiten erfordern. Das Modell ist für die allgemeine Textgenerierung mit Schwerpunkt auf der präzisen Befolgung von Benutzeranweisungen konzipiert. Es unterstützt mehrere Sprachen mit besonderen Stärken in Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Chinesisch, Japanisch, Koreanisch, Arabisch und Hindi. Das Modell nutzt Techniken wie überwachtes Fine-Tuning und wurde optimiert, um Leistung und Recheneffizienz auszubalancieren, was den Einsatz auf verschiedenen Infrastrukturen ermöglicht. OVH AI Endpoints stellt Mistral-Nemo-Instruct-2407 über die Rechenzentrumsregion GRA (Gravelines, Frankreich) als Teil seines verwalteten KI-Inferenzdienstes bereit. Diese Bereitstellung ermöglicht Nutzern den Zugriff auf das instruktionsoptimierte Modell von Mistral AI, ohne eine dedizierte Infrastruktur verwalten zu müssen. Das Modell ist im breiteren AI-Endpoints-Portfolio von OVH als mittelgroße Option positioniert und bietet stärkere Reasoning-Fähigkeiten als kleinere Modelle bei gleichzeitig geringerem Ressourcenbedarf im Vergleich zu größeren Flaggschiff-Modellen. Es eignet sich besonders für Anwendungen, die mehrsprachige Unterstützung und ein erweitertes Kontextverständnis innerhalb von Enterprise- und Entwickler-Workflows erfordern.

Mistral Nemo, entwickelt von Mistral AI und NVIDIA, bringt 12 Milliarden Parameter und 128k Kontext auf OVH-Infrastruktur.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz69 runs
9118327636846005-1105-27ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Mistral-Nemo-Instruct-2407
$0.2000 pro 1M Input-Tokens
$0.6000 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.2000
pro 1M Output-Tokens$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2000

input / 1M

— no change

$0.6000

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1869 / avg 1543
2157410

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Starke Mehrsprachigkeit – 11+ Sprachen128k-Token-KontextfensterMistral AI + NVIDIA KollaborationInstruction-Following optimiertEuropäische DatenresidenzOVH Managed Inference

Schwächen

Höherer Ressourcenbedarf als 7BUnter großen FlaggschiffmodellenKein Multimodal-Support
Abschnitt 05

Fähigkeiten

ownedBy: mistralai
Abschnitt 06

Häufig gestellte Fragen

Es wurde von Mistral AI und NVIDIA gemeinsam entwickelt und bietet starke Mehrsprachigkeit mit einem 128k-Token-Kontext.

Für mehrsprachige Unternehmensanwendungen mit europäischer Compliance ist Mistral Nemo auf OVH eine leistungsstarke Kombination.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-599/100 · 5 runs
5 correct0 partial0 wrong100% accuracy
2026-05-24

Mistral-Nemo-Instruct-2407 startet mit starker Performance im Mittelfeld

Mistral-Nemo-Instruct-2407 tritt als leistungsfähiges Mittelklasse-Modell in die Benchmark-Landschaft ein, bereitgestellt über OVH AI Endpoints in der Region GRA. Dies ist die erste Baseline-Bewertung und legt die Leistungskennzahlen für künftige Vergleiche fest. Das Modell zeigt wettbewerbsfähige Fähigkeiten, die sich für allgemeine Sprachaufgaben, Instruktionsbefolgung und konversationelle Anwendungen eignen. Als Modell der Nemo-Klasse von Mistral positioniert es sich im Gleichgewicht zwischen Leistung und Effizienz und zielt auf Anwendungsfälle ab, die ein zuverlässiges Sprachverständnis ohne die Ressourcenanforderungen von Flaggschiff-Modellen erfordern. Nutzer sollten beachten, dass es sich um ein regionales Deployment über die OVH-Infrastruktur in Gravelines handelt, was die Latenzcharakteristik je nach geografischem Standort beeinflussen kann. Die instruction-tuned Variante deutet auf eine Optimierung für die Befolgung von Nutzeranweisungen und strukturierte Aufgaben hin. Ohne historische Vergleichsdaten dient dieses Verdikt als Referenzpunkt zur Verfolgung künftiger Leistungstrends, Fähigkeitsverbesserungen oder -verschlechterungen. Organisationen, die dieses Modell evaluieren, sollten ihre spezifischen Latenzanforderungen und die geografische Nähe zur Region GRA berücksichtigen, wenn sie die Eignung für den Produktivbetrieb beurteilen.

Quality

Latency p50

Test runs

0

Ausgangsbasis festgelegt Leistungsstufe der mittleren Klasse Anweisungsoptimierte Fähigkeiten
Abschnitt 08

Vollständiges Modellprofil

mistral-nemo-instruct-2407 — illustration 1
Mistral NeMo Instruct auf OVH AI Endpoints

Mistral NeMo Instruct ist das 12-Milliarden-Parameter-Modell mit Instruction-Tuning, das Mistral AI in Zusammenarbeit mit NVIDIA entwickelt und im Juli 2024 veröffentlicht hat. Die Bezeichnung „2407" im Modellnamen ist der JJMM-Datumsstempel. OVH AI Endpoints stellt es aus französischer Infrastruktur bereit, was es zu einer der interessanteren mittelgroßen Optionen im EU-gehosteten Katalog macht.

Was NeMo unterscheidet

Zwei Dinge. Das Kontextfenster von 128.000 Token ist für ein Modell dieser Größenklasse außergewöhnlich großzügig. Und der Tokenizer Tekken wurde gezielt für mehrsprachige Effizienz konzipiert und erzeugt über die meisten europäischen Sprachen hinweg weniger Token pro Zeichen als die Tokenizer der Llama-Familie. Dieser zweite Punkt ist unauffällig wichtig: Für Workloads in Französisch, Deutsch, Italienisch und Spanisch verbrauchen Sie weniger Token pro Anfrage, was sich direkt in niedrigeren Kosten und einem längeren effektiven Kontext für dieselbe Eingabeaufforderung niederschlägt.

Das Modell verarbeitet ausschließlich Text, sowohl als Eingabe als auch als Ausgabe. Kein Vision, kein Audio. Die Instruction-Tuning-Variante ist diejenige, die Sie für Produktivumgebungen benötigen; das Basismodell existiert zwar, erfordert aber deutlich mehr Prompt-Engineering, um vorhersehbar zu funktionieren.

Wo es überzeugt

Mehrsprachiger Chat ist die stärkste Positionierung. NeMo bewältigt die großen europäischen Sprachen mit deutlich weniger Qualitätsverlust als die ältere Mistral-7B-Linie und konkurriert auf Augenhöhe mit Llama 3.1 8B bei denselben Sprachen. Für mehrsprachige Support-Workflows, kundenorientierte Chatbots im kontinentalen Europa oder Content-Pipelines, die zwischen Sprachen wechseln, ist dies eine vernünftige Standardwahl.

Function Calling funktioniert auf einem angemessenen Zuverlässigkeitsniveau für ein 12B-Modell. JSON-Ausgaben sind verlässlich, wenn Sie das Schema in der Eingabeaufforderung eingrenzen. Das 128k-Kontextfenster verändert die Form praktikabel umsetzbarer Workloads: Sie können ihm ein mittelgroßes Dokument, einen Chat-Verlauf und eine Anweisung in einem einzigen Aufruf übergeben, ohne eine Retrieval-Schicht konstruieren zu müssen.

Die Latenz ist gut. Das Modell ist klein genug, um Antworten schnell zu streamen, was bei interaktiven Anwendungsfällen von Bedeutung ist, bei denen ein Nutzer auf einen Cursor starrt und auf Ausgaben wartet.

Wo es an Grenzen stößt

NeMo ist ein kompetentes mittelgroßes Modell, kein Schwergewicht. Anspruchsvolles Reasoning, komplexe mehrstufige Planung und ernsthafte Coding-Arbeit werden seine Grenzen sichtbar machen. Die Ausgabe tendiert zu Weitschweifigkeit, sofern Sie nicht anders instruieren. Halluzinationen bei seltenen Entitäten sind präsent, im Einklang mit der Größenklasse.

Code-Generierung ist in gängigen Sprachen funktionsfähig und in weniger verbreiteten schwächer. Wenn Ihr Workload Code-lastig ist, schauen Sie sich stattdessen ein auf Code spezialisiertes Modell an.

Die 128k-Kontextgrenze ist eine harte Zahl, kein weiches Versprechen. Die Attention-Qualität degradiert, wenn Sie sich dem oberen Ende des Fensters nähern, auf die Weise, wie es bei den meisten Long-Context-Modellen der Fall ist. Für Retrieval-kritische Arbeit übertrifft eine ordentliche RAG-Schicht das naive Hineinstopfen von allem in den Kontext.

Der EU- und OVH-Aspekt

OVH betreibt NeMo von Gravelines oder Roubaix aus, auf französischem Boden, mit einem DPA, der das tut, was europäische Beschaffungsteams von einem DPA erwarten. Kein Training auf Kunden-Prompts, kein überraschender Egress in Nicht-EU-Regionen, keine Ausflüchte über „globale Infrastruktur". Für Organisationen unter DSGVO-Prüfung oder mit einem Souveränitätsmandat ist diese Kombination der eigentliche Grund, warum dieser Endpoint existiert.

Der Katalog glaubwürdiger mittelgroßer Modelle mit dieser Hosting-Geschichte ist kurz. Die Hyperscaler bieten EU-Regionen an, aber die Vertrauensposition ist strukturell anders. OVHs Pitch ist enger gefasst und leichter zu verifizieren. Ob das von Bedeutung ist, hängt davon ab, wer die Beschaffung abzeichnet.

Preisgestaltung

Aufgeführt auf der OVH-AI-Endpoints-Seite. Tarife ändern sich; wir veröffentlichen sie nicht erneut. NeMo sitzt in der erschwinglichen Mittelklasse, günstiger als die 70B-Klasse-Modelle, teurer pro Aufruf als die 7B-Klasse.

NeMo versus Alternativen wählen

Greifen Sie zu NeMo, wenn: Sie mehrsprachige Qualität über dem wünschen, was ein 7-8B-Modell liefert, Sie ein langes Kontextfenster ohne Frontier-Tier-Tarife wollen, Sie die EU-Residenz-Geschichte brauchen und Sie kein Vision benötigen. Wenn Ihr Traffic einsprachig Englisch ist und Kosten die einzige relevante Achse darstellen, sind die kleineren Mistral- oder Llama-8B-Modelle günstiger und für viele Workloads gut genug. Wenn Sie stärkeres Reasoning benötigen, sind die 70B-Klasse-Modelle im OVH-Katalog der offensichtliche nächste Schritt.

Für reinen Durchsatz-pro-Euro bei Bulk-Textklassifikation werden die 7B-Modelle weiterhin gewinnen. Für interaktiven mehrsprachigen Chat mit einem 128k-Fenster ist NeMo im EU-gehosteten Segment schwer zu schlagen.

Siehe die Seite Intelligenz für aktuelle Bewertungen; mehrsprachige Abdeckung unter /benchmarks/languages; modellspezifische Latenz unter /benchmarks/speed.

Fazit

Ein mehrsprachig-freundliches 12B-Modell mit langem Kontext, auf französischer Infrastruktur, zu einem vernünftigen Preispunkt. NeMo ist einer der am stärksten unterschätzten Einträge im OVH-Katalog. Es ist nicht das Modell, das die Schlagzeilen macht. Für europäische Teams, die Support-, Content- oder Extraktions-Pipelines in mehreren Sprachen aufbauen, ist es oft die richtige pragmatische Antwort.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

mistral-nemo-instruct-2407 — illustration 2mistral-nemo-instruct-2407 — illustration 3
Letzter automatisierter Test
27. Mai 2026 · 21:44 UTC · Geschwindigkeits-Benchmark
P50-Latenz
107 ms
P95-Latenz
133 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026