
OVH AI Endpoints sert gpt-oss-120b depuis son centre de données de Gravelines (France). C'est précisément cette combinaison qui constitue l'élément central de cette analyse. OpenAI a publié un modèle open-weight de 120 milliards de paramètres. OVH héberge l'inférence pour ce modèle au sein d'une infrastructure française, avec une exploitation nativement conforme au RGPD et des garanties de résidence des données dans l'Union européenne. Pour les équipes européennes qui attendaient un modèle hautement capable, issu de la lignée OpenAI, qu'elles puissent utiliser sans router leur trafic vers des endpoints d'inférence basés aux États-Unis, cette configuration constitue la voie qui s'est enfin ouverte.
Pourquoi la combinaison OpenAI plus OVH est importante
Le profil de capacités offert par gpt-oss-120b est plus proche de la frontière OpenAI que tout ce qui est aujourd'hui disponible sous un hébergement souverain européen. Les modèles open-weight d'autres éditeurs sont compétitifs sur les benchmarks, mais la lignée OpenAI apporte avec elle des habitudes de suivi d'instructions, une fiabilité dans la production de sorties structurées et des schémas de raisonnement sur lesquels les systèmes en production se sont calibrés pendant des années. Basculer vers une autre famille de modèles n'est jamais gratuit, même lorsque les scores de benchmarks paraissent comparables.
Héberger en France chez OVH vous donne le récit « accord de traitement des données » dont les clients européens ont réellement besoin. Le trafic reste à l'intérieur des frontières françaises. L'exploitation est régie par le droit français et européen relatif à la protection des données. La conversation DPA avec vos clients devient simple, d'une manière que l'appel à des endpoints OpenAI hébergés aux États-Unis n'atteint jamais tout à fait, peu importe la qualité des clauses de protection des données à la manière d'Anthropic.
Le compromis, c'est que vous renoncez au tout dernier comportement OpenAI. Les poids de gpt-oss-120b sont un instantané figé, et non un modèle de production mis à jour en continu. OpenAI continue de publier des modèles de raisonnement plus récents, des modèles d'images et des capacités multimodales via sa propre API, et ces évolutions ne se propagent pas vers la version open-weight. Pour les charges de travail où la capacité 120b open-weight suffit, c'est très bien. Pour les charges de travail qui dépendent de la frontière de l'état de l'art, ce n'est pas le bon outil.
Ce qu'il couvre bien
Génération de texte généraliste, suivi d'instructions, sortie structurée, conversation multi-tours. L'échelle de 120 milliards de paramètres est suffisante pour gérer un raisonnement modérément complexe, de la synthèse de code à une portée non triviale et la génération de contenus longs avec une structure cohérente. Pour la plupart des charges de travail qui tournaient auparavant sur des modèles de classe GPT-4 pour des tâches généralistes, gpt-oss-120b constitue une alternative crédible.
La couverture multilingue est solide sur l'ensemble des langues européennes, ce qui compte pour la base de clients européens visée par cette configuration d'hébergement. Le français, l'allemand, le néerlandais, l'espagnol, l'italien, le portugais et le polonais fonctionnent tous bien. Le modèle est à l'aise pour la traduction, le support client multilingue et la génération de contenus dans des langues où les alternatives hébergées aux États-Unis donnent parfois l'impression d'un style de sortie anglocentré.
L'hébergement OVH vous offre une latence européenne prévisible. Le centre de données de Gravelines est bien positionné pour un accès à faible latence depuis l'Europe continentale et le Royaume-Uni. Pour les applications sensibles à la latence, l'aller-retour est nettement meilleur que sur des routes transatlantiques vers des endpoints OpenAI hébergés aux États-Unis.
Là où il ne tient pas la distance
L'écart de capacités par rapport à la frontière est réel pour les charges de travail les plus difficiles. Raisonnement multi-étapes complexe, synthèse de code du type que les modèles de raisonnement de la série o gèrent bien, compréhension et génération d'images, interaction vocale en temps réel. Aucune de ces dimensions n'est couverte par gpt-oss-120b. Pour ces charges de travail, il faut soit accepter la voie hébergée aux États-Unis, soit se tourner vers d'autres fournisseurs qui combinent forte capacité et hébergement européen à travers d'autres familles de modèles.
Le modèle est exclusivement textuel. Pas de vision, pas d'audio, pas de capacité multimodale. Pour des charges de travail multimodales, OVH propose d'autres familles de modèles comme Qwen2.5-VL via le même schéma d'endpoint, mais il s'agit de lignées différentes au profil comportemental distinct.
L'échelle de 120 milliards de paramètres est importante, mais pas située au plafond absolu des capacités. Les charges de travail qui ont véritablement besoin d'un modèle de classe frontière ressentiront la différence. Pour les charges qui s'inscrivent confortablement dans l'enveloppe 120b, la différence ne compte pas et l'avantage de l'hébergement européen domine le calcul d'arbitrage.
Comment le choisir et quelles alternatives considérer
Pour les clients européens qui construisent des applications textuelles généralistes et qui veulent la lignée OpenAI conjuguée à la résidence des données dans l'UE, gpt-oss-120b sur OVH est le choix par défaut adéquat. La configuration résout un vrai problème qui a constitué un blocage achats pendant des années pour les entreprises européennes et les acheteurs du secteur public.
Pour les charges de travail qui n'exigent pas spécifiquement la lignée OpenAI, le catalogue OVH offre de solides alternatives dans la même enveloppe d'hébergement. meta-llama-3_3-70b-instruct est l'option open-weight de Meta à un niveau de capacité comparable. mistral-small-3.2-24b-instruct-2506 est un modèle d'origine européenne qui associe l'hébergement souverain européen à un entraînement d'origine européenne. qwen3-32b est une option généraliste solide à une échelle de paramètres plus réduite et un coût moindre.
Pour les charges de travail qui ont besoin d'une variante plus petite, plus rapide et moins coûteuse de la même lignée open-weight d'OpenAI, gpt-oss-20b est le petit frère. Pour les charges de travail qui requièrent une véritable capacité de frontière et peuvent accepter une inférence hébergée aux États-Unis, l'API directe d'OpenAI avec des modèles de raisonnement et multimodaux plus récents constitue la voie alternative. Le choix dépend du fait de savoir si l'hébergement souverain européen est une exigence ferme ou une préférence qui peut être assouplie pour des besoins de capacité spécifiques.
Dernière revue technique : 2026-05-22 — Tokonomix.ai
