
Mistral NeMo Instruct es el modelo de 12 mil millones de parámetros afinado para instrucciones que Mistral AI construyó en colaboración con NVIDIA y lanzó en julio de 2024. El "2407" en el nombre del modelo es la marca temporal en formato AAMM. OVH AI Endpoints lo sirve desde infraestructura francesa, lo que lo convierte en una de las opciones medianas-pequeñas más interesantes del catálogo alojado en la UE.
Qué distingue a NeMo
Dos cosas. La ventana de contexto de 128k tokens es inusualmente generosa para un modelo de esta clase de tamaño. Y el tokenizador, Tekken, fue diseñado específicamente con la eficiencia multilingüe en mente, produciendo menos tokens por carácter en la mayoría de los idiomas europeos que los tokenizadores de la familia Llama. Este segundo punto es silenciosamente importante: para cargas de trabajo en francés, alemán, italiano y español, gastas menos tokens por solicitud, lo que se traduce directamente en menor coste y contexto efectivo más largo para el mismo prompt.
El modelo es solo texto, entrada y salida. Sin visión, sin audio. La variante afinada para instrucciones es la que necesitas para trabajo en producción; el modelo base existe pero requiere significativamente más ingeniería de prompts para comportarse de manera predecible.
Dónde destaca
El chat multilingüe es la propuesta de valor más fuerte. NeMo maneja los principales idiomas europeos con notablemente menos degradación que la antigua línea Mistral 7B y compite bien con Llama 3.1 8B en los mismos idiomas. Para flujos de trabajo de soporte multilingüe, chatbots de cara al cliente en Europa Continental, o pipelines de contenido que se mueven entre idiomas, esta es una opción sensata por defecto.
La llamada a funciones funciona a un nivel de fiabilidad razonable para un modelo de 12B. La salida JSON es confiable cuando constrañes el esquema en el prompt. La ventana de contexto de 128k cambia la forma de las cargas de trabajo viables: puedes pasarle un documento moderado, un historial de chat y una instrucción en una sola llamada sin ingeniería de una capa de recuperación.
La latencia es buena. El modelo es lo suficientemente pequeño para hacer streaming de respuestas rápidamente, lo cual importa para casos de uso interactivos donde un usuario está mirando un cursor esperando la salida.
Dónde se queda corto
NeMo es un modelo mediano-pequeño competente, no un peso pesado. El razonamiento duro, la planificación compleja de múltiples pasos y el trabajo serio de programación pondrán de manifiesto sus límites. La salida tiende hacia lo verboso a menos que instruyas lo contrario. La alucinación sobre entidades raras está presente, en línea con la clase de tamaño.
La generación de código es funcional en lenguajes mainstream y más débil en los menos comunes. Si tu carga de trabajo es pesada en código, busca un modelo especializado en código en su lugar.
Los 128k de contexto son un número duro, no una promesa suave. La calidad de atención se degrada a medida que empujas hacia el extremo superior de la ventana, de la manera en que lo hace para la mayoría de los modelos de contexto largo. Para trabajo crítico de recuperación, una capa RAG apropiada supera en rendimiento a meter ingenuamente todo en el contexto.
El ángulo de la UE y OVH
OVH ejecuta NeMo desde Gravelines o Roubaix, en suelo francés, con un DPA que hace lo que los equipos de adquisición europeos esperan que haga un DPA. Sin entrenamiento con prompts de clientes, sin salida sorpresa a regiones no-UE, sin gestos vagos sobre "infraestructura global". Para organizaciones bajo escrutinio GDPR o un mandato de soberanía, esa combinación es la razón real por la que este endpoint existe.
El catálogo de modelos de tamaño medio creíbles con esta historia de alojamiento es corto. Los hiperscalares ofrecen regiones de la UE pero la postura de confianza es estructuralmente diferente. La propuesta de OVH es más estrecha y más fácil de verificar. Si eso importa depende de quién esté firmando la adquisición.
Precios
Listados en la página de OVH AI Endpoints. Las tarifas cambian; no las republicamos. NeMo se sitúa en el nivel medio asequible, más barato que los modelos de clase 70B, más caro por llamada que los de clase 7B.
Elegir NeMo versus alternativas
Recurre a NeMo cuando: quieres calidad multilingüe por encima de lo que entrega un modelo de 7-8B, quieres una ventana de contexto largo sin pagar tarifas de nivel frontera, quieres la historia de residencia en la UE, y no necesitas visión. Si tu tráfico es inglés monolingüe y el coste es el único eje que importa, los modelos más pequeños Mistral o Llama 8B son más baratos y suficientemente buenos para muchas cargas de trabajo. Si necesitas razonamiento más fuerte, los modelos de clase 70B en el catálogo de OVH son el siguiente paso obvio.
Para rendimiento puro por euro en clasificación de texto masivo, los modelos de 7B seguirán ganando. Para chat multilingüe interactivo con una ventana de 128k, NeMo es difícil de superar en el cubo alojado en la UE.
Consulta la página de inteligencia para la puntuación actual; cobertura multilingüe en /benchmarks/languages; latencia por modelo en /benchmarks/speed.
Conclusión
Un modelo de 12B amigable multilingüe con un contexto largo, en infraestructura francesa, a un precio sensato. NeMo es una de las entradas más infravaloradas en el catálogo de OVH. No es el modelo que acapara titulares. Para equipos europeos construyendo pipelines de soporte, contenido o extracción en múltiples idiomas, es a menudo la respuesta pragmática correcta.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

