Ce modèle est-il recommandé pour les PME européennes ?

Oui, la combinaison de l hébergement UE et d un modèle accessible en fait une option intéressante pour les PME soucieuses de conformité.

GPT-OSS-20B peut-il traiter des requêtes en français ?

Oui, les modèles OSS bien entraînés ont généralement de bonnes capacités en français et autres langues européennes.

Comment accéder à ce modèle via OVH ?

Via l API OVH AI Endpoints depuis votre compte OVH, sans gestion de l infrastructure sous-jacente.

La latence est-elle acceptable pour des applications en temps réel ?

Elle dépend de la charge et de la distance au datacenter. L hébergement à Gravelines favorise les clients européens.

Tier C — Spécialiste

Fonctionne en :FranceCréé en :United States

OVH AI Endpoints (GRA)

gpt-oss-20b

Q: Quand GPT-OSS-20B est-il préférable à GPT-OSS-120B ?

Pour les tâches moins complexes où les 20B de paramètres sont suffisants, le modèle offre une meilleure efficacité opérationnelle avec un coût réduit.

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

GPT-OSS-20B est un modèle de génération de texte proposé via OVH AI Endpoints, hébergé spécifiquement dans la région du centre de données de Gravelines (GRA) d'OVH, en France. Ce modèle offre des capacités standard de traitement du langage naturel, notamment la complétion de texte, la réponse aux questions et les tâches conversationnelles générales. En tant que composante du service AI Endpoints d'OVH, il s'exécute au sein de l'infrastructure cloud européenne d'OVH, ce qui le destine aux utilisateurs exigeant une résidence des données dans l'UE ou privilégiant des ressources de calcul basées en Europe. Les spécifications de la fenêtre de contexte du modèle n'ont pas été documentées publiquement, bien qu'il prenne en charge les opérations classiques des modèles de langage pour les applications d'entreprise et de développement. GPT-OSS-20B gère les charges de travail standard de génération de texte sans fonctionnalités spécialisées pour le traitement multimodal, l'appel de fonctions ou d'autres capacités avancées. Il fonctionne comme un modèle de langage simple, adapté à l'intégration dans des applications nécessitant la génération automatisée de texte, le traitement de contenu ou des interfaces conversationnelles. Au sein du portefeuille AI Endpoints d'OVH, GPT-OSS-20B représente une option accessible pour les organisations utilisant déjà les services cloud d'OVH ou recherchant des capacités d'inférence IA hébergées dans des centres de données européens. Le modèle se positionne comme un modèle de langage généraliste plutôt qu'une offre spécialisée ou phare, fournissant des fonctionnalités de base de génération de texte pour les développeurs concevant des applications sur l'infrastructure d'OVH. Sa disponibilité via OVH AI Endpoints permet l'intégration avec d'autres services OVH tout en préservant la localité géographique des données au sein du réseau du fournisseur.

Testez gpt-oss-20b avec vos propres questions

GPT-OSS-20B offre des capacités open source dans un format de 20 milliards de paramètres depuis l infrastructure européenne d OVH.
— Synthèse benchmark Tokonomix

Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P95102 runs

Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

Créatif

Factuel

100

Multilingue

Raisonnement

Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — gpt-oss-20b

$0.0400 par 1M de tokens d'entrée

$0.1500 par 1M de tokens de sortie

≈ <$0.0001 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.0400

par 1M de tokens de sortie$0.1500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0400

input / 1M

— stable

$0.1500

output / 1M

— stable

2026-06-142026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)833 / avg 738

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Hébergement européen (Gravelines)Modèle open sourceTaille efficiente pour les tâches courantesRésidence des données en UEIntégration OVH Cloud native

Faiblesses

Fenêtre de contexte non documentéeRaisonnement limité vs modèles plus grandsPerformances inférieures aux LLMs de référenceDocumentation technique limitée

Section 06

Capacités

ownedBy: OpenAI

Section 07

Questions fréquentes

Pour les tâches moins complexes où les 20B de paramètres sont suffisants, le modèle offre une meilleure efficacité opérationnelle avec un coût réduit.

Un modèle accessible et hébergé en Europe pour les développeurs cherchant efficacité et souveraineté des données.
— Synthèse benchmark Tokonomix

Section 08

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

—

30 derniers jours

100.0%

n=1

Temps de réponse médian

449ms

n=1

Basé sur 381 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

Réponses OK (30d)

Total des appels (7d)

Réponses OK (7d)

Section 09

Verdicts benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-579/100 · 52 runs

39 correct3 partial10 wrong75% accuracy

● 2026-07-26

gpt-oss-20b plummets to 48.5 as factual and reasoning scores hit zero

This benchmark window reveals a dramatic performance collapse for gpt-oss-20b, with the overall quality score dropping 45.6 points from 94.1 to 48.5. The most alarming development is the complete failure in factual and reasoning categories, both scoring zero compared to strong previous performance. This suggests a fundamental regression in the model's core capabilities for logical processing and accurate information retrieval. The creative writing score surged to 94, up from 85, and multilingual support maintained its perfect 100 rating, demonstrating that some capabilities remain intact. Latency improved slightly from 7330ms to 7132ms at the median, though this minor speed gain is overshadowed by the quality deterioration. The test sample size remained consistent at 5 runs per window. Users should exercise caution deploying this model for factual or analytical tasks until these critical regressions are addressed. The selective nature of the failures, with creative and multilingual tasks unaffected while reasoning collapses entirely, points to a possible configuration issue or model version regression rather than general degradation.

Quality

48.5

Latency p50

7,132 ms

Test runs

✗ Factual accuracy dropped to zero✗ Reasoning capability completely failed✓ Creative score improved to 94✓ Multilingual remains perfect at 100

Section 10

Profil complet du modèle

OVH gpt-oss-20b : la variante légère de la lignée open-weight d'OpenAI sur hébergement souverain européen

OVH AI Endpoints propose gpt-oss-20b depuis son centre de données de Gravelines (France), le petit frère de 20 milliards de paramètres de la version 120b issue de la même famille open-weight d'OpenAI. Les compromis par rapport à la variante plus volumineuse sont évidents : moins de capacités, des réponses plus rapides, une empreinte computationnelle réduite. Ce qui reste identique, c'est l'histoire de l'hébergement souverain européen et la lignée OpenAI contre laquelle les équipes de production ont passé des années à calibrer leurs systèmes.

Ce que le palier 20b apporte réellement

L'échelle de 20 milliards de paramètres est suffisamment importante pour la génération de texte à usage général, le suivi d'instructions, les sorties structurées et les conversations multi-tours modérément complexes. Pour les charges de travail où le 120b complet est disproportionné, le 20b gère le même type de tâches pour une fraction du coût computationnel et avec une latence sensiblement inférieure.

La génération de code de portée modérée fonctionne correctement. Écrire des scripts de quelques dizaines de lignes, refactoriser de petites fonctions, expliquer ce que fait un code non familier. Le 20b capturera la plupart des cas qui comptent pour l'assistance quotidienne aux développeurs sans atteindre le profil de coût qu'impliquerait une utilisation à haute fréquence d'un modèle 120b.

La couverture multilingue est héritée du modèle plus volumineux. Le français, l'allemand, le néerlandais, l'espagnol, l'italien, le portugais et le polonais fonctionnent tous bien au niveau du 20b, bien que la traduction littéraire nuancée et la terminologie complexe spécifique à un domaine commencent à montrer des faiblesses que le 120b gérerait mieux. Pour la traduction de support client, l'adaptation de contenu marketing et la plupart des travaux multilingues quotidiens, le 20b est suffisant.

L'hébergement OVH offre la même garantie de résidence des données souveraine européenne que le 120b. Le trafic reste en France. Les opérations sont régies par le droit français et européen des données. La conversation relative à l'accord de traitement des données avec les clients européens est simple.

Où il fonctionne bien

Charges de travail textuelles à volume élevé où le coût par appel domine et où la complexité moyenne des tâches est modérée. Backends de chatbot pour le support client, pipelines de modération de contenu, workflows d'extraction structurée sur des documents ne nécessitant pas de raisonnement de pointe, tâches de résumé par lots.

Applications sensibles à la latence où l'inférence plus rapide du 20b compte. Interfaces de chat interactives où l'utilisateur s'attend à une réponse en quelques secondes plutôt que d'attendre que le modèle réfléchisse. Augmentation de contenu en temps réel où le modèle doit suivre la frappe ou la navigation d'un utilisateur plutôt que d'être un service de traitement par lots en arrière-plan.

Exigences d'hébergement dans l'UE avec une enveloppe budgétaire qui ne justifie pas le 120b plus volumineux pour un travail de routine. Le 20b est le bon palier lorsque l'aspect souveraineté est une exigence ferme et que la charge de travail n'a pas besoin du plafond de capacités du modèle plus grand.

Workflows de développement et de prototypage où vous souhaitez itérer rapidement sur les prompts et les architectures avant de décider d'investir dans une inférence de niveau supérieur. Le coût inférieur du 20b et son temps de réponse plus rapide en font le meilleur choix pour la phase d'itération rapide de construction d'une application.

Où il échoue

Tâches de raisonnement complexes qui bénéficient d'une échelle de paramètres plus importante. Le 20b produira des réponses d'apparence plausible à des questions difficiles mais manquera des subtilités que le gpt-oss-120b captera. Pour les charges de travail où la profondeur de raisonnement compte et où l'hébergement dans l'UE est requis, le 120b est le meilleur palier.

Synthèse de code de portée significative. Écrire un algorithme d'une complexité significative, refactoriser une fonction enchevêtrée avec de nombreuses préoccupations en interaction, générer des suites de tests non triviales. Le 20b gère bien le code de petite portée, mais le taux d'échec augmente à mesure que la portée s'étend.

Charges de travail de capacités de pointe. Aucun modèle 20b ne rivalise avec le plafond de capacités absolu que les modèles propriétaires de pointe atteignent. Le 20b est le palier de volume, pas le palier de pointe, et l'utiliser pour des charges de travail qui nécessitent réellement des capacités de pointe vous donnera des résultats frustrants.

Travail multimodal. Le modèle est uniquement textuel. Pour la vision, l'audio ou les capacités multimodales, OVH propose d'autres familles de modèles comme qwen2.5-vl-72b-instruct pour le travail vision-langage selon le même modèle d'hébergement souverain européen.

Le choisir ou monter en gamme

Pour les clients européens qui construisent des applications textuelles à volume élevé et qui veulent la lignée OpenAI à un profil de coût qui s'adapte à l'échelle, gpt-oss-20b sur OVH est le bon choix par défaut. La configuration gère la majeure partie des charges de travail textuelles de routine avec une économie unitaire que le 120b ne peut égaler.

Pour les charges de travail où les capacités comptent plus que le coût, gpt-oss-120b est la montée en gamme au sein de la même lignée et du même environnement d'hébergement. La migration est triviale en termes de surface d'API. La différence de coût est significative, donc la question est de savoir si votre charge de travail a réellement besoin du modèle plus volumineux.

Pour les charges de travail à l'échelle de 20 milliards de paramètres qui n'ont pas spécifiquement besoin de la lignée OpenAI, OVH propose des alternatives solides. llama-3.1-8b-instruct se situe à l'extrémité inférieure du même palier de capacités générales. mistral-small-3.2-24b-instruct-2506 est l'alternative d'origine européenne à une échelle comparable. qwen3-32b est une autre option à usage général avec un nombre de paramètres légèrement supérieur, également dans l'enveloppe d'hébergement souverain européen.

Pour les charges de travail qui nécessitent de véritables capacités de pointe et peuvent accepter un hébergement hors UE, l'API OpenAI directe avec des modèles de raisonnement et multimodaux plus récents est le chemin alternatif. Le choix entre une inférence capable et souveraine dans l'UE et une inférence de pointe hébergée aux États-Unis est la décision stratégique que ce modèle existe pour éclairer.

Dernière analyse technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

30 juil. 2026 · 14:04 UTC · Benchmark de vitesse

Latence P50

240 ms

Latence P95

244 ms

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026