Aller au contenu
Tier C — Spécialiste
Fonctionne en :FranceCréé en :United States
OVH AI Endpoints (GRA)

gpt-oss-120b

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-OSS-120B est un grand modèle de langage proposé via OVH AI Endpoints, hébergé dans la région data center GRA (Gravelines, France) de l'entreprise. Ce modèle illustre la mise à disposition par OVH d'une infrastructure de modèles de langage open source, déployée sur son infrastructure cloud européenne. L'échelle de 120 milliards de paramètres en fait un modèle de taille conséquente, capable de gérer des tâches de traitement du langage naturel à usage général, notamment la génération de texte, la conversation, l'analyse et le raisonnement de base. Le modèle offre des capacités de génération de texte standard adaptées aux applications nécessitant des contenus longs et cohérents, des réponses aux questions, des résumés et des charges de travail NLP similaires. Bien que la taille spécifique de la fenêtre de contexte n'ait pas été documentée publiquement, le modèle suit les schémas d'architecture transformer conventionnels typiques des modèles de cette gamme de paramètres. OVH AI Endpoints fournit ce modèle via son infrastructure API, permettant aux développeurs d'intégrer des capacités de grands modèles de langage sans avoir à gérer les ressources de calcul sous-jacentes. Au sein de la gamme AI Endpoints d'OVH, GPT-OSS-120B figure parmi les options de modèles open source les plus volumineuses proposées aux clients recherchant des capacités substantielles de traitement linguistique tout en préservant la souveraineté des données au sein d'une infrastructure européenne. L'emplacement de déploiement GRA peut s'avérer particulièrement pertinent pour les utilisateurs soumis à des exigences de résidence des données dans le cadre des réglementations européennes. L'approche d'OVH consiste à fournir un accès à des modèles open source via son infrastructure cloud existante, offrant ainsi une alternative aux fournisseurs de modèles propriétaires tout en s'appuyant sur sa présence établie sur le marché européen de l'hébergement.

GPT-OSS-120B est un modèle open source de 120 milliards de paramètres hébergé dans l infrastructure européenne d OVH à Gravelines.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9597 runs
138182235065190687405-2206-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
100
Multilingue
100
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-oss-120b
$0.0800 par 1M de tokens d'entrée
$0.4000 par 1M de tokens de sortie
≈ $0.0001 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.0800
par 1M de tokens de sortie$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— no change

$0.4000

output / 1M

— no change

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)496 / avg 882
1429329

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Hébergement données européen (GRA)Modèle open source120 milliards de paramètres robustesConformité données en EuropeInfrastructure OVH intégréeGénération textuelle généraliste

Faiblesses

Fenêtre de contexte non documentéeMoins précis que les modèles propriétaires top-tierLatence potentiellement supérieureDocumentation technique limitée
Section 06

Capacités

ownedBy: OpenAI
Section 07

Questions fréquentes

Pour les organisations ayant des exigences de souveraineté des données en Europe, l hébergement à Gravelines assure la résidence des données en UE.

La puissance des grands modèles open source avec l avantage de l hébergement en données européen chez OVH.

Synthèse benchmark Tokonomix
Section 08

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 09

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 13 runs
12 correct1 partial0 wrong92% accuracy
2026-06-14

gpt-oss-120b maintains strong baseline performance across all metrics

The gpt-oss-120b model by OVH AI Endpoints continues to demonstrate consistent performance across the benchmark window with no measurable changes to its core capabilities. The model maintains its established baseline metrics for quality, speed, and reliability. All performance indicators remain stable compared to the previous evaluation period, suggesting a mature and dependable deployment. Users can expect the same level of service quality that was observed during the initial baseline establishment. The model's performance characteristics have not shifted, indicating stable infrastructure and consistent model serving. This consistency is particularly relevant for users who have integrated the model into production workflows and require predictable behavior. While no improvements were detected during this window, the absence of degradation is itself a positive signal for reliability. The stability across metrics suggests that OVH AI Endpoints has maintained their service level without introducing changes that would impact model outputs or response characteristics. Users should continue to monitor future benchmark windows for any emerging trends or changes in performance patterns.

Quality

Latency p50

Test runs

0

Performance metrics remain stable Consistent baseline maintained
Section 10

Profil complet du modèle

gpt-oss-120b — illustration 1
OVH gpt-oss-120b : le modèle phare open-weight d'OpenAI hébergé sur une infrastructure souveraine européenne

OVH AI Endpoints sert gpt-oss-120b depuis son centre de données de Gravelines (France). C'est précisément cette combinaison qui constitue l'élément central de cette analyse. OpenAI a publié un modèle open-weight de 120 milliards de paramètres. OVH héberge l'inférence pour ce modèle au sein d'une infrastructure française, avec une exploitation nativement conforme au RGPD et des garanties de résidence des données dans l'Union européenne. Pour les équipes européennes qui attendaient un modèle hautement capable, issu de la lignée OpenAI, qu'elles puissent utiliser sans router leur trafic vers des endpoints d'inférence basés aux États-Unis, cette configuration constitue la voie qui s'est enfin ouverte.

Pourquoi la combinaison OpenAI plus OVH est importante

Le profil de capacités offert par gpt-oss-120b est plus proche de la frontière OpenAI que tout ce qui est aujourd'hui disponible sous un hébergement souverain européen. Les modèles open-weight d'autres éditeurs sont compétitifs sur les benchmarks, mais la lignée OpenAI apporte avec elle des habitudes de suivi d'instructions, une fiabilité dans la production de sorties structurées et des schémas de raisonnement sur lesquels les systèmes en production se sont calibrés pendant des années. Basculer vers une autre famille de modèles n'est jamais gratuit, même lorsque les scores de benchmarks paraissent comparables.

Héberger en France chez OVH vous donne le récit « accord de traitement des données » dont les clients européens ont réellement besoin. Le trafic reste à l'intérieur des frontières françaises. L'exploitation est régie par le droit français et européen relatif à la protection des données. La conversation DPA avec vos clients devient simple, d'une manière que l'appel à des endpoints OpenAI hébergés aux États-Unis n'atteint jamais tout à fait, peu importe la qualité des clauses de protection des données à la manière d'Anthropic.

Le compromis, c'est que vous renoncez au tout dernier comportement OpenAI. Les poids de gpt-oss-120b sont un instantané figé, et non un modèle de production mis à jour en continu. OpenAI continue de publier des modèles de raisonnement plus récents, des modèles d'images et des capacités multimodales via sa propre API, et ces évolutions ne se propagent pas vers la version open-weight. Pour les charges de travail où la capacité 120b open-weight suffit, c'est très bien. Pour les charges de travail qui dépendent de la frontière de l'état de l'art, ce n'est pas le bon outil.

Ce qu'il couvre bien

Génération de texte généraliste, suivi d'instructions, sortie structurée, conversation multi-tours. L'échelle de 120 milliards de paramètres est suffisante pour gérer un raisonnement modérément complexe, de la synthèse de code à une portée non triviale et la génération de contenus longs avec une structure cohérente. Pour la plupart des charges de travail qui tournaient auparavant sur des modèles de classe GPT-4 pour des tâches généralistes, gpt-oss-120b constitue une alternative crédible.

La couverture multilingue est solide sur l'ensemble des langues européennes, ce qui compte pour la base de clients européens visée par cette configuration d'hébergement. Le français, l'allemand, le néerlandais, l'espagnol, l'italien, le portugais et le polonais fonctionnent tous bien. Le modèle est à l'aise pour la traduction, le support client multilingue et la génération de contenus dans des langues où les alternatives hébergées aux États-Unis donnent parfois l'impression d'un style de sortie anglocentré.

L'hébergement OVH vous offre une latence européenne prévisible. Le centre de données de Gravelines est bien positionné pour un accès à faible latence depuis l'Europe continentale et le Royaume-Uni. Pour les applications sensibles à la latence, l'aller-retour est nettement meilleur que sur des routes transatlantiques vers des endpoints OpenAI hébergés aux États-Unis.

Là où il ne tient pas la distance

L'écart de capacités par rapport à la frontière est réel pour les charges de travail les plus difficiles. Raisonnement multi-étapes complexe, synthèse de code du type que les modèles de raisonnement de la série o gèrent bien, compréhension et génération d'images, interaction vocale en temps réel. Aucune de ces dimensions n'est couverte par gpt-oss-120b. Pour ces charges de travail, il faut soit accepter la voie hébergée aux États-Unis, soit se tourner vers d'autres fournisseurs qui combinent forte capacité et hébergement européen à travers d'autres familles de modèles.

Le modèle est exclusivement textuel. Pas de vision, pas d'audio, pas de capacité multimodale. Pour des charges de travail multimodales, OVH propose d'autres familles de modèles comme Qwen2.5-VL via le même schéma d'endpoint, mais il s'agit de lignées différentes au profil comportemental distinct.

L'échelle de 120 milliards de paramètres est importante, mais pas située au plafond absolu des capacités. Les charges de travail qui ont véritablement besoin d'un modèle de classe frontière ressentiront la différence. Pour les charges qui s'inscrivent confortablement dans l'enveloppe 120b, la différence ne compte pas et l'avantage de l'hébergement européen domine le calcul d'arbitrage.

Comment le choisir et quelles alternatives considérer

Pour les clients européens qui construisent des applications textuelles généralistes et qui veulent la lignée OpenAI conjuguée à la résidence des données dans l'UE, gpt-oss-120b sur OVH est le choix par défaut adéquat. La configuration résout un vrai problème qui a constitué un blocage achats pendant des années pour les entreprises européennes et les acheteurs du secteur public.

Pour les charges de travail qui n'exigent pas spécifiquement la lignée OpenAI, le catalogue OVH offre de solides alternatives dans la même enveloppe d'hébergement. meta-llama-3_3-70b-instruct est l'option open-weight de Meta à un niveau de capacité comparable. mistral-small-3.2-24b-instruct-2506 est un modèle d'origine européenne qui associe l'hébergement souverain européen à un entraînement d'origine européenne. qwen3-32b est une option généraliste solide à une échelle de paramètres plus réduite et un coût moindre.

Pour les charges de travail qui ont besoin d'une variante plus petite, plus rapide et moins coûteuse de la même lignée open-weight d'OpenAI, gpt-oss-20b est le petit frère. Pour les charges de travail qui requièrent une véritable capacité de frontière et peuvent accepter une inférence hébergée aux États-Unis, l'API directe d'OpenAI avec des modèles de raisonnement et multimodaux plus récents constitue la voie alternative. Le choix dépend du fait de savoir si l'hébergement souverain européen est une exigence ferme ou une préférence qui peut être assouplie pour des besoins de capacité spécifiques.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-oss-120b — illustration 2
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
403 ms
Latence P95
541 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026