Ir al contenido
Tier C — Especialista
Se ejecuta en:FranceCreado en:France
OVH AI Endpoints (GRA)

Mistral-Nemo-Instruct-2407

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Mistral-Nemo-Instruct-2407 es un modelo de lenguaje de 12 mil millones de parámetros desarrollado por Mistral AI en colaboración con NVIDIA. Lanzado en julio de 2024, cuenta con una ventana de contexto de 128k tokens y está construido sobre una arquitectura transformer estándar. El modelo está ajustado para tareas de seguimiento de instrucciones, haciéndolo adecuado para aplicaciones que requieren IA conversacional, generación de texto y capacidades de razonamiento. Este modelo está diseñado para generación de texto de propósito general con énfasis en seguir las instrucciones del usuario con precisión. Soporta múltiples idiomas con fortaleza particular en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi. El modelo emplea técnicas como el ajuste fino supervisado y ha sido optimizado para equilibrar rendimiento con eficiencia computacional, haciéndolo accesible para implementación en diversas configuraciones de infraestructura. OVH AI Endpoints ofrece Mistral-Nemo-Instruct-2407 a través de su región de centro de datos GRA (Gravelines, Francia) como parte de su servicio gestionado de inferencia de IA. Esta implementación proporciona a los usuarios acceso al modelo ajustado por instrucciones de Mistral AI sin requerir gestión de infraestructura dedicada. El modelo se ubica dentro del portafolio más amplio de AI Endpoints de OVH como una opción de tamaño medio, ofreciendo capacidades de razonamiento más sólidas que los modelos más pequeños mientras mantiene requisitos de recursos más bajos comparados con modelos insignia más grandes. Es particularmente adecuado para aplicaciones que requieren soporte multilingüe y comprensión de contexto extendido dentro de flujos de trabajo empresariales y de desarrollo.

Mistral Nemo desarrollado con NVIDIA ofrece 12B parámetros con ventana de contexto de 128K tokens y soporte multilingüe para once idiomas principales.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9569 runs
9118327636846005-1105-27ms
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Mistral-Nemo-Instruct-2407
$0.2000 por 1M de tokens de entrada
$0.6000 por 1M de tokens de salida
≈ $0.0002 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.2000
por 1M de tokens de salida$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2000

input / 1M

— no change

$0.6000

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1869 / avg 1543
2157410

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Co-desarrollado por Mistral AI y NVIDIA128K tokens de contexto11 idiomas con buen rendimientoBalance capacidad-eficiencia en 12BAjuste fino de instrucciones sólidoGeneración de texto de calidad

Debilidades

Capacidad inferior a modelos de 70B o más12B parámetros limitan tareas muy complejasDocumentación de OVH limitedMayor latencia que modelos de 7B
Sección 05

Capacidades

ownedBy: mistralai
Sección 06

Preguntas frecuentes

NVIDIA contribuyó con optimizaciones de arquitectura y entrenamiento; el resultado es un modelo con mejor rendimiento para su tamaño.

La colaboración Mistral-NVIDIA produce un modelo de 12B que supera expectativas de su categoría con 128K tokens de contexto.

Resumen de benchmark Tokonomix
Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-599/100 · 5 runs
5 correct0 partial0 wrong100% accuracy
2026-05-24

Mistral-Nemo-Instruct-2407 debuta con un sólido rendimiento de gama media

Mistral-Nemo-Instruct-2407 entra en el panorama de benchmarks como un modelo competente de gama media, desplegado a través de OVH AI Endpoints en la región GRA. Esta es la evaluación de referencia inicial, que establece las métricas de rendimiento para comparaciones futuras. El modelo demuestra capacidades competitivas adecuadas para tareas lingüísticas de propósito general, seguimiento de instrucciones y aplicaciones conversacionales. Como modelo de la clase Nemo de Mistral, se posiciona en el equilibrio entre rendimiento y eficiencia, dirigido a casos de uso que requieren una comprensión lingüística fiable sin las demandas de recursos de los modelos insignia. Los usuarios deben tener en cuenta que se trata de un despliegue regional a través de la infraestructura de OVH en Gravelines, lo que puede influir en las características de latencia según la ubicación geográfica. La variante ajustada por instrucciones indica una optimización para seguir directrices del usuario y tareas estructuradas. Sin datos históricos para comparar, este veredicto sirve como punto de referencia para rastrear tendencias futuras de rendimiento, mejoras de capacidades o degradaciones. Las organizaciones que evalúen este modelo deberían considerar sus requisitos específicos de latencia y la proximidad geográfica a la región GRA al valorar su idoneidad para despliegues en producción.

Quality

Latency p50

Test runs

0

Línea base inicial establecida Nivel de rendimiento intermedio Capacidades ajustadas por instrucciones
Sección 08

Perfil completo del modelo

mistral-nemo-instruct-2407 — illustration 1
Mistral NeMo Instruct en OVH AI Endpoints

Mistral NeMo Instruct es el modelo de 12 mil millones de parámetros afinado para instrucciones que Mistral AI construyó en colaboración con NVIDIA y lanzó en julio de 2024. El "2407" en el nombre del modelo es la marca temporal en formato AAMM. OVH AI Endpoints lo sirve desde infraestructura francesa, lo que lo convierte en una de las opciones medianas-pequeñas más interesantes del catálogo alojado en la UE.

Qué distingue a NeMo

Dos cosas. La ventana de contexto de 128k tokens es inusualmente generosa para un modelo de esta clase de tamaño. Y el tokenizador, Tekken, fue diseñado específicamente con la eficiencia multilingüe en mente, produciendo menos tokens por carácter en la mayoría de los idiomas europeos que los tokenizadores de la familia Llama. Este segundo punto es silenciosamente importante: para cargas de trabajo en francés, alemán, italiano y español, gastas menos tokens por solicitud, lo que se traduce directamente en menor coste y contexto efectivo más largo para el mismo prompt.

El modelo es solo texto, entrada y salida. Sin visión, sin audio. La variante afinada para instrucciones es la que necesitas para trabajo en producción; el modelo base existe pero requiere significativamente más ingeniería de prompts para comportarse de manera predecible.

Dónde destaca

El chat multilingüe es la propuesta de valor más fuerte. NeMo maneja los principales idiomas europeos con notablemente menos degradación que la antigua línea Mistral 7B y compite bien con Llama 3.1 8B en los mismos idiomas. Para flujos de trabajo de soporte multilingüe, chatbots de cara al cliente en Europa Continental, o pipelines de contenido que se mueven entre idiomas, esta es una opción sensata por defecto.

La llamada a funciones funciona a un nivel de fiabilidad razonable para un modelo de 12B. La salida JSON es confiable cuando constrañes el esquema en el prompt. La ventana de contexto de 128k cambia la forma de las cargas de trabajo viables: puedes pasarle un documento moderado, un historial de chat y una instrucción en una sola llamada sin ingeniería de una capa de recuperación.

La latencia es buena. El modelo es lo suficientemente pequeño para hacer streaming de respuestas rápidamente, lo cual importa para casos de uso interactivos donde un usuario está mirando un cursor esperando la salida.

Dónde se queda corto

NeMo es un modelo mediano-pequeño competente, no un peso pesado. El razonamiento duro, la planificación compleja de múltiples pasos y el trabajo serio de programación pondrán de manifiesto sus límites. La salida tiende hacia lo verboso a menos que instruyas lo contrario. La alucinación sobre entidades raras está presente, en línea con la clase de tamaño.

La generación de código es funcional en lenguajes mainstream y más débil en los menos comunes. Si tu carga de trabajo es pesada en código, busca un modelo especializado en código en su lugar.

Los 128k de contexto son un número duro, no una promesa suave. La calidad de atención se degrada a medida que empujas hacia el extremo superior de la ventana, de la manera en que lo hace para la mayoría de los modelos de contexto largo. Para trabajo crítico de recuperación, una capa RAG apropiada supera en rendimiento a meter ingenuamente todo en el contexto.

El ángulo de la UE y OVH

OVH ejecuta NeMo desde Gravelines o Roubaix, en suelo francés, con un DPA que hace lo que los equipos de adquisición europeos esperan que haga un DPA. Sin entrenamiento con prompts de clientes, sin salida sorpresa a regiones no-UE, sin gestos vagos sobre "infraestructura global". Para organizaciones bajo escrutinio GDPR o un mandato de soberanía, esa combinación es la razón real por la que este endpoint existe.

El catálogo de modelos de tamaño medio creíbles con esta historia de alojamiento es corto. Los hiperscalares ofrecen regiones de la UE pero la postura de confianza es estructuralmente diferente. La propuesta de OVH es más estrecha y más fácil de verificar. Si eso importa depende de quién esté firmando la adquisición.

Precios

Listados en la página de OVH AI Endpoints. Las tarifas cambian; no las republicamos. NeMo se sitúa en el nivel medio asequible, más barato que los modelos de clase 70B, más caro por llamada que los de clase 7B.

Elegir NeMo versus alternativas

Recurre a NeMo cuando: quieres calidad multilingüe por encima de lo que entrega un modelo de 7-8B, quieres una ventana de contexto largo sin pagar tarifas de nivel frontera, quieres la historia de residencia en la UE, y no necesitas visión. Si tu tráfico es inglés monolingüe y el coste es el único eje que importa, los modelos más pequeños Mistral o Llama 8B son más baratos y suficientemente buenos para muchas cargas de trabajo. Si necesitas razonamiento más fuerte, los modelos de clase 70B en el catálogo de OVH son el siguiente paso obvio.

Para rendimiento puro por euro en clasificación de texto masivo, los modelos de 7B seguirán ganando. Para chat multilingüe interactivo con una ventana de 128k, NeMo es difícil de superar en el cubo alojado en la UE.

Consulta la página de inteligencia para la puntuación actual; cobertura multilingüe en /benchmarks/languages; latencia por modelo en /benchmarks/speed.

Conclusión

Un modelo de 12B amigable multilingüe con un contexto largo, en infraestructura francesa, a un precio sensato. NeMo es una de las entradas más infravaloradas en el catálogo de OVH. No es el modelo que acapara titulares. Para equipos europeos construyendo pipelines de soporte, contenido o extracción en múltiples idiomas, es a menudo la respuesta pragmática correcta.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

mistral-nemo-instruct-2407 — illustration 2mistral-nemo-instruct-2407 — illustration 3
Última prueba automática
27 may 2026 · 21:44 UTC · Benchmark de velocidad
Latencia P50
107 ms
Latencia P95
133 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026