Aller au contenu
Tier C — Spécialiste
Fonctionne en :FranceCréé en :France
OVH AI Endpoints (GRA)

Mistral-Nemo-Instruct-2407

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Mistral-Nemo-Instruct-2407 est un modèle de langage de 12 milliards de paramètres développé par Mistral AI en collaboration avec NVIDIA. Publié en juillet 2024, il dispose d'une fenêtre de contexte de 128k tokens et repose sur une architecture transformer standard. Le modèle est affiné pour les tâches de suivi d'instructions, ce qui le rend adapté aux applications nécessitant une IA conversationnelle, de la génération de texte et des capacités de raisonnement. Ce modèle est conçu pour la génération de texte à usage général, avec un accent mis sur le respect précis des instructions utilisateur. Il prend en charge plusieurs langues, avec une force particulière en anglais, français, allemand, espagnol, italien, portugais, chinois, japonais, coréen, arabe et hindi. Le modèle utilise des techniques telles que l'affinage supervisé et a été optimisé pour équilibrer performance et efficacité computationnelle, le rendant accessible à un déploiement sur diverses infrastructures. OVH AI Endpoints propose Mistral-Nemo-Instruct-2407 via sa région de centre de données GRA (Gravelines, France) dans le cadre de son service d'inférence IA managé. Ce déploiement permet aux utilisateurs d'accéder au modèle affiné par instructions de Mistral AI sans nécessiter de gestion d'infrastructure dédiée. Le modèle s'inscrit dans le portefeuille élargi AI Endpoints d'OVH comme une option de taille intermédiaire, offrant des capacités de raisonnement supérieures aux modèles plus petits tout en conservant des besoins en ressources inférieurs à ceux des modèles phares plus volumineux. Il est particulièrement adapté aux applications exigeant un support multilingue et une compréhension de contexte étendue dans les workflows d'entreprise et de développement.

Mistral Nemo 12B, développé avec NVIDIA, offre une fenêtre de 128 000 tokens et un excellent support multilingue via OVH.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9569 runs
9118327636846005-1105-27ms
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Mistral-Nemo-Instruct-2407
$0.2000 par 1M de tokens d'entrée
$0.6000 par 1M de tokens de sortie
≈ $0.0002 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.2000
par 1M de tokens de sortie$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2000

input / 1M

— no change

$0.6000

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 03

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)1869 / avg 1543
2157410

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 04

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

11 langues nativement supportéesFenêtre de 128 000 tokensDéveloppé avec NVIDIAHébergement OVH FranceRaisonnement solide pour 12BInstruction-following précis

Faiblesses

Moins puissant que les modèles 70B+Supérieur aux modèles 7B en ressourcesLimites sur raisonnement très complexeSpécifications de déploiement OVH partielles
Section 05

Capacités

ownedBy: mistralai
Section 06

Questions fréquentes

La collaboration a permis d optimiser le modèle pour les infrastructures NVIDIA, avec des performances améliorées sur ces architectures très répandues.

Le fruit de la collaboration Mistral-NVIDIA : un modèle 12B multilingue avec une large fenêtre de contexte hébergé en Europe.

Synthèse benchmark Tokonomix
Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-599/100 · 5 runs
5 correct0 partial0 wrong100% accuracy
2026-05-24

Mistral-Nemo-Instruct-2407 fait ses débuts avec de solides performances en milieu de gamme

Mistral-Nemo-Instruct-2407 fait son entrée dans le paysage des benchmarks comme un modèle de milieu de gamme compétent, déployé via OVH AI Endpoints dans la région GRA. Il s'agit de l'évaluation initiale de référence, établissant les métriques de performance pour comparaison ultérieure. Le modèle démontre des capacités compétitives adaptées aux tâches linguistiques généralistes, au suivi d'instructions et aux applications conversationnelles. En tant que modèle de classe Nemo de Mistral, il se positionne à l'équilibre entre performance et efficacité, ciblant les cas d'usage qui exigent une compréhension linguistique fiable sans les exigences en ressources des modèles phares. Les utilisateurs doivent noter qu'il s'agit d'un déploiement régional via l'infrastructure OVH à Gravelines, ce qui peut influencer les caractéristiques de latence selon les zones géographiques. La variante instruction-tuned indique une optimisation pour le suivi des directives utilisateur et des tâches structurées. En l'absence de données historiques de comparaison, ce verdict sert de point de référence pour suivre les tendances futures de performance, les améliorations ou dégradations de capacités. Les organisations qui évaluent ce modèle doivent prendre en compte leurs exigences spécifiques de latence et leur proximité géographique avec la région GRA lors de l'évaluation de son adéquation aux déploiements en production.

Quality

Latency p50

Test runs

0

Référence initiale établie Niveau de performance intermédiaire Capacités ajustées par instructions
Section 08

Profil complet du modèle

mistral-nemo-instruct-2407 — illustration 1
Mistral NeMo Instruct sur OVH AI Endpoints

Mistral NeMo Instruct est le modèle de 12 milliards de paramètres affiné par instructions que Mistral AI a développé en collaboration avec NVIDIA et publié en juillet 2024. Le « 2407 » dans le nom du modèle correspond au format de datation AAMM. OVH AI Endpoints l'héberge depuis une infrastructure française, ce qui en fait l'une des options moyennes-petites les plus intéressantes du catalogue hébergé dans l'UE.

Ce qui distingue NeMo

Deux éléments. La fenêtre de contexte de 128 000 tokens est exceptionnellement généreuse pour un modèle de cette classe de taille. Et le tokeniseur, Tekken, a été conçu spécifiquement avec l'efficacité multilingue à l'esprit, produisant moins de tokens par caractère dans la plupart des langues européennes que les tokeniseurs de la famille Llama. Ce second point est discrètement important : pour les charges de travail en français, allemand, italien et espagnol, vous consommez moins de tokens par requête, ce qui se traduit directement par un coût inférieur et un contexte effectif plus long pour le même prompt.

Le modèle ne traite que du texte, en entrée comme en sortie. Pas de vision, pas d'audio. La variante affinée par instructions est celle que vous souhaitez pour un usage en production ; le modèle de base existe mais nécessite considérablement plus d'ingénierie de prompt pour se comporter de manière prévisible.

Ses points forts

Le dialogue multilingue constitue l'argument le plus solide. NeMo gère les principales langues européennes avec une dégradation nettement moindre que l'ancienne gamme Mistral 7B et rivalise efficacement avec Llama 3.1 8B sur ces mêmes langues. Pour les workflows de support multilingue, les chatbots destinés aux clients en Europe continentale, ou les pipelines de contenu qui naviguent entre les langues, c'est un choix par défaut sensé.

L'appel de fonctions fonctionne avec un niveau de fiabilité raisonnable pour un modèle de 12 milliards. La sortie JSON est fiable lorsque vous contraignez le schéma dans le prompt. La fenêtre de contexte de 128 000 tokens modifie la forme des charges de travail viables : vous pouvez lui transmettre un document de taille modérée, un historique de conversation et une instruction en un seul appel sans avoir à concevoir une couche de récupération.

La latence est bonne. Le modèle est suffisamment petit pour diffuser les réponses rapidement, ce qui compte pour les cas d'usage interactifs où un utilisateur fixe un curseur en attendant la sortie.

Ses limites

NeMo est un modèle moyen-petit compétent, pas un poids lourd. Le raisonnement difficile, la planification complexe en plusieurs étapes et le travail de codage sérieux révéleront ses limites. La sortie tend vers la verbosité à moins que vous n'instruisiez le contraire. L'hallucination sur les entités rares est présente, conformément à la classe de taille.

La génération de code est fonctionnelle dans les langages grand public et plus faible dans ceux moins courants. Si votre charge de travail est fortement orientée code, privilégiez plutôt un modèle spécialisé dans le code.

Les 128 000 tokens de contexte constituent un chiffre ferme, pas une promesse approximative. La qualité de l'attention se dégrade à mesure que vous approchez de la limite supérieure de la fenêtre, comme c'est le cas pour la plupart des modèles à contexte long. Pour un travail critique en termes de récupération, une couche RAG appropriée surpasse largement le simple fait de tout bourrer naïvement dans le contexte.

L'angle UE et OVH

OVH exécute NeMo depuis Gravelines ou Roubaix, sur sol français, avec un DPA qui fait ce que les équipes d'approvisionnement européennes attendent d'un DPA. Pas d'entraînement sur les prompts clients, pas de sortie surprise vers des régions hors UE, pas de discours vague sur « l'infrastructure mondiale ». Pour les organisations sous surveillance RGPD ou sous mandat de souveraineté, cette combinaison est la véritable raison pour laquelle ce endpoint existe.

Le catalogue de modèles de taille moyenne crédibles avec cette histoire d'hébergement est court. Les hyperscalers proposent des régions UE mais la posture de confiance est structurellement différente. L'argument d'OVH est plus étroit et plus facile à vérifier. Que cela importe ou non dépend de qui signe l'approvisionnement.

Tarification

Affichée sur la page OVH AI Endpoints. Les tarifs changent ; nous ne les republions pas. NeMo se situe dans le milieu de gamme abordable, moins cher que les modèles de classe 70 milliards, plus onéreux par appel que ceux de classe 7 milliards.

Choisir NeMo face aux alternatives

Optez pour NeMo quand : vous souhaitez une qualité multilingue supérieure à ce qu'offre un modèle de 7 à 8 milliards, vous voulez une fenêtre de contexte longue sans payer les tarifs de pointe, vous voulez l'histoire de résidence dans l'UE, et vous n'avez pas besoin de vision. Si votre trafic est monolingue anglais et que le coût est le seul axe qui compte, les modèles Mistral ou Llama 8B plus petits sont moins chers et suffisamment bons pour de nombreuses charges de travail. Si vous avez besoin d'un raisonnement plus solide, les modèles de classe 70 milliards du catalogue OVH constituent l'étape logique suivante.

Pour un pur débit-par-euro sur la classification de texte en volume, les modèles 7 milliards gagneront toujours. Pour le dialogue multilingue interactif avec une fenêtre de 128 000 tokens, NeMo est difficile à battre dans le compartiment hébergé dans l'UE.

Consultez la page intelligence pour les scores actuels ; la couverture multilingue sur /benchmarks/languages ; la latence par modèle sur /benchmarks/speed.

Conclusion

Un modèle de 12 milliards multilingue avec un contexte long, sur infrastructure française, à un prix raisonnable. NeMo est l'une des entrées les plus sous-estimées du catalogue OVH. Ce n'est pas le modèle qui fait les gros titres. Pour les équipes européennes construisant des pipelines de support, de contenu ou d'extraction dans plusieurs langues, c'est souvent la réponse pragmatique appropriée.

Dernière analyse technique : 2026-05-22 — Tokonomix.ai

mistral-nemo-instruct-2407 — illustration 2mistral-nemo-instruct-2407 — illustration 3
Dernier test automatisé
27 mai 2026 · 21:44 UTC · Benchmark de vitesse
Latence P50
107 ms
Latence P95
133 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026