Ce modèle convient-il aux entreprises avec contraintes RGPD ?

Oui, l hébergement en datacenter européen facilite la conformité RGPD en maintenant les données dans l espace européen.

GPT-OSS-120B est-il comparable aux modèles propriétaires ?

Avec 120 milliards de paramètres il offre de solides capacités, mais les modèles propriétaires top-tier comme GPT-4 maintiennent généralement un avantage en raisonnement nuancé.

Peut-on accéder à ce modèle sans quitter l infrastructure OVH ?

Oui, c est l avantage de l offre OVH AI Endpoints : accès API à des modèles d envergure sans gérer l infrastructure.

Ce modèle est-il adapté au traitement de textes légaux en français ?

Oui, les modèles de cette taille ont généralement de bonnes capacités en français et autres langues européennes.

Tier C — Spécialiste

Fonctionne en :FranceCréé en :United States

OVH AI Endpoints (GRA)

gpt-oss-120b

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

GPT-OSS-120B est un grand modèle de langage proposé via OVH AI Endpoints, hébergé dans la région data center GRA (Gravelines, France) de l'entreprise. Ce modèle illustre la mise à disposition par OVH d'une infrastructure de modèles de langage open source, déployée sur son infrastructure cloud européenne. L'échelle de 120 milliards de paramètres en fait un modèle de taille conséquente, capable de gérer des tâches de traitement du langage naturel à usage général, notamment la génération de texte, la conversation, l'analyse et le raisonnement de base. Le modèle offre des capacités de génération de texte standard adaptées aux applications nécessitant des contenus longs et cohérents, des réponses aux questions, des résumés et des charges de travail NLP similaires. Bien que la taille spécifique de la fenêtre de contexte n'ait pas été documentée publiquement, le modèle suit les schémas d'architecture transformer conventionnels typiques des modèles de cette gamme de paramètres. OVH AI Endpoints fournit ce modèle via son infrastructure API, permettant aux développeurs d'intégrer des capacités de grands modèles de langage sans avoir à gérer les ressources de calcul sous-jacentes. Au sein de la gamme AI Endpoints d'OVH, GPT-OSS-120B figure parmi les options de modèles open source les plus volumineuses proposées aux clients recherchant des capacités substantielles de traitement linguistique tout en préservant la souveraineté des données au sein d'une infrastructure européenne. L'emplacement de déploiement GRA peut s'avérer particulièrement pertinent pour les utilisateurs soumis à des exigences de résidence des données dans le cadre des réglementations européennes. L'approche d'OVH consiste à fournir un accès à des modèles open source via son infrastructure cloud existante, offrant ainsi une alternative aux fournisseurs de modèles propriétaires tout en s'appuyant sur sa présence établie sur le marché européen de l'hébergement.

Testez gpt-oss-120b avec vos propres questions

GPT-OSS-120B est un modèle open source de 120 milliards de paramètres hébergé dans l infrastructure européenne d OVH à Gravelines.
— Synthèse benchmark Tokonomix

Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P95101 runs

Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

Créatif

Factuel

100

Multilingue

Raisonnement

Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — gpt-oss-120b

$0.0800 par 1M de tokens d'entrée

$0.4000 par 1M de tokens de sortie

≈ $0.0001 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.0800

par 1M de tokens de sortie$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-06-142026-07-052026-07-19

Input

Output

Price change

⟳ synced weekly

Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)462 / avg 713

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Hébergement données européen (GRA)Modèle open source120 milliards de paramètres robustesConformité données en EuropeInfrastructure OVH intégréeGénération textuelle généraliste

Faiblesses

Fenêtre de contexte non documentéeMoins précis que les modèles propriétaires top-tierLatence potentiellement supérieureDocumentation technique limitée

Section 06

Capacités

ownedBy: OpenAI

Section 07

Questions fréquentes

Pour les organisations ayant des exigences de souveraineté des données en Europe, l hébergement à Gravelines assure la résidence des données en UE.

La puissance des grands modèles open source avec l avantage de l hébergement en données européen chez OVH.
— Synthèse benchmark Tokonomix

Section 08

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 09

Verdicts benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 52 runs

46 correct5 partial1 wrong88% accuracy

● 2026-07-19

gpt-oss-120b quality drops 6.1 points, latency improves 20%

The current benchmark window shows a notable quality decline for gpt-oss-120b, with the overall score falling from 99.6 to 93.5 points. This 6.1 point drop represents a shift from near-perfect performance to strong but less consistent output. The category composition changed significantly between windows, with the previous period testing multilingual, coding, and reasoning capabilities, while the current window focuses on coding and creative tasks. Coding performance remains excellent at 100, maintaining the model's strength in this domain. However, the creative category scored 87, suggesting room for improvement in generative tasks. On a positive note, latency improved substantially, with p50 response times decreasing from 4092ms to 3269ms, a 20% reduction that enhances user experience. The test run count decreased slightly from 5 to 4, which may affect statistical confidence. Users should expect faster responses and continued excellence in coding tasks, but may notice variability in other domains compared to the previous benchmark period. The quality regression warrants monitoring in future windows to determine whether this represents a temporary fluctuation or a sustained trend.

Quality

93.5

Latency p50

3,269 ms

Test runs

✗ Quality dropped 6.1 points✓ Latency improved 20%✓ Coding remains at 100✗ Creative performance at 87

Section 10

Profil complet du modèle

OVH gpt-oss-120b : le modèle phare open-weight d'OpenAI hébergé sur une infrastructure souveraine européenne

OVH AI Endpoints sert gpt-oss-120b depuis son centre de données de Gravelines (France). C'est précisément cette combinaison qui constitue l'élément central de cette analyse. OpenAI a publié un modèle open-weight de 120 milliards de paramètres. OVH héberge l'inférence pour ce modèle au sein d'une infrastructure française, avec une exploitation nativement conforme au RGPD et des garanties de résidence des données dans l'Union européenne. Pour les équipes européennes qui attendaient un modèle hautement capable, issu de la lignée OpenAI, qu'elles puissent utiliser sans router leur trafic vers des endpoints d'inférence basés aux États-Unis, cette configuration constitue la voie qui s'est enfin ouverte.

Pourquoi la combinaison OpenAI plus OVH est importante

Le profil de capacités offert par gpt-oss-120b est plus proche de la frontière OpenAI que tout ce qui est aujourd'hui disponible sous un hébergement souverain européen. Les modèles open-weight d'autres éditeurs sont compétitifs sur les benchmarks, mais la lignée OpenAI apporte avec elle des habitudes de suivi d'instructions, une fiabilité dans la production de sorties structurées et des schémas de raisonnement sur lesquels les systèmes en production se sont calibrés pendant des années. Basculer vers une autre famille de modèles n'est jamais gratuit, même lorsque les scores de benchmarks paraissent comparables.

Héberger en France chez OVH vous donne le récit « accord de traitement des données » dont les clients européens ont réellement besoin. Le trafic reste à l'intérieur des frontières françaises. L'exploitation est régie par le droit français et européen relatif à la protection des données. La conversation DPA avec vos clients devient simple, d'une manière que l'appel à des endpoints OpenAI hébergés aux États-Unis n'atteint jamais tout à fait, peu importe la qualité des clauses de protection des données à la manière d'Anthropic.

Le compromis, c'est que vous renoncez au tout dernier comportement OpenAI. Les poids de gpt-oss-120b sont un instantané figé, et non un modèle de production mis à jour en continu. OpenAI continue de publier des modèles de raisonnement plus récents, des modèles d'images et des capacités multimodales via sa propre API, et ces évolutions ne se propagent pas vers la version open-weight. Pour les charges de travail où la capacité 120b open-weight suffit, c'est très bien. Pour les charges de travail qui dépendent de la frontière de l'état de l'art, ce n'est pas le bon outil.

Ce qu'il couvre bien

Génération de texte généraliste, suivi d'instructions, sortie structurée, conversation multi-tours. L'échelle de 120 milliards de paramètres est suffisante pour gérer un raisonnement modérément complexe, de la synthèse de code à une portée non triviale et la génération de contenus longs avec une structure cohérente. Pour la plupart des charges de travail qui tournaient auparavant sur des modèles de classe GPT-4 pour des tâches généralistes, gpt-oss-120b constitue une alternative crédible.

La couverture multilingue est solide sur l'ensemble des langues européennes, ce qui compte pour la base de clients européens visée par cette configuration d'hébergement. Le français, l'allemand, le néerlandais, l'espagnol, l'italien, le portugais et le polonais fonctionnent tous bien. Le modèle est à l'aise pour la traduction, le support client multilingue et la génération de contenus dans des langues où les alternatives hébergées aux États-Unis donnent parfois l'impression d'un style de sortie anglocentré.

L'hébergement OVH vous offre une latence européenne prévisible. Le centre de données de Gravelines est bien positionné pour un accès à faible latence depuis l'Europe continentale et le Royaume-Uni. Pour les applications sensibles à la latence, l'aller-retour est nettement meilleur que sur des routes transatlantiques vers des endpoints OpenAI hébergés aux États-Unis.

Là où il ne tient pas la distance

L'écart de capacités par rapport à la frontière est réel pour les charges de travail les plus difficiles. Raisonnement multi-étapes complexe, synthèse de code du type que les modèles de raisonnement de la série o gèrent bien, compréhension et génération d'images, interaction vocale en temps réel. Aucune de ces dimensions n'est couverte par gpt-oss-120b. Pour ces charges de travail, il faut soit accepter la voie hébergée aux États-Unis, soit se tourner vers d'autres fournisseurs qui combinent forte capacité et hébergement européen à travers d'autres familles de modèles.

Le modèle est exclusivement textuel. Pas de vision, pas d'audio, pas de capacité multimodale. Pour des charges de travail multimodales, OVH propose d'autres familles de modèles comme Qwen2.5-VL via le même schéma d'endpoint, mais il s'agit de lignées différentes au profil comportemental distinct.

L'échelle de 120 milliards de paramètres est importante, mais pas située au plafond absolu des capacités. Les charges de travail qui ont véritablement besoin d'un modèle de classe frontière ressentiront la différence. Pour les charges qui s'inscrivent confortablement dans l'enveloppe 120b, la différence ne compte pas et l'avantage de l'hébergement européen domine le calcul d'arbitrage.

Comment le choisir et quelles alternatives considérer

Pour les clients européens qui construisent des applications textuelles généralistes et qui veulent la lignée OpenAI conjuguée à la résidence des données dans l'UE, gpt-oss-120b sur OVH est le choix par défaut adéquat. La configuration résout un vrai problème qui a constitué un blocage achats pendant des années pour les entreprises européennes et les acheteurs du secteur public.

Pour les charges de travail qui n'exigent pas spécifiquement la lignée OpenAI, le catalogue OVH offre de solides alternatives dans la même enveloppe d'hébergement. meta-llama-3_3-70b-instruct est l'option open-weight de Meta à un niveau de capacité comparable. mistral-small-3.2-24b-instruct-2506 est un modèle d'origine européenne qui associe l'hébergement souverain européen à un entraînement d'origine européenne. qwen3-32b est une option généraliste solide à une échelle de paramètres plus réduite et un coût moindre.

Pour les charges de travail qui ont besoin d'une variante plus petite, plus rapide et moins coûteuse de la même lignée open-weight d'OpenAI, gpt-oss-20b est le petit frère. Pour les charges de travail qui requièrent une véritable capacité de frontière et peuvent accepter une inférence hébergée aux États-Unis, l'API directe d'OpenAI avec des modèles de raisonnement et multimodaux plus récents constitue la voie alternative. Le choix dépend du fait de savoir si l'hébergement souverain européen est une exigence ferme ou une préférence qui peut être assouplie pour des besoins de capacité spécifiques.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

30 juil. 2026 · 08:04 UTC · Benchmark de vitesse

Latence P50

433 ms

Latence P95

540 ms

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026