Aller au contenu
Tier C — Spécialiste
Fonctionne en :FranceCréé en :United States
OVH AI Endpoints (GRA)

gpt-oss-20b

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-OSS-20B est un modèle de génération de texte proposé via OVH AI Endpoints, hébergé spécifiquement dans la région du centre de données de Gravelines (GRA) d'OVH, en France. Ce modèle offre des capacités standard de traitement du langage naturel, notamment la complétion de texte, la réponse aux questions et les tâches conversationnelles générales. En tant que composante du service AI Endpoints d'OVH, il s'exécute au sein de l'infrastructure cloud européenne d'OVH, ce qui le destine aux utilisateurs exigeant une résidence des données dans l'UE ou privilégiant des ressources de calcul basées en Europe. Les spécifications de la fenêtre de contexte du modèle n'ont pas été documentées publiquement, bien qu'il prenne en charge les opérations classiques des modèles de langage pour les applications d'entreprise et de développement. GPT-OSS-20B gère les charges de travail standard de génération de texte sans fonctionnalités spécialisées pour le traitement multimodal, l'appel de fonctions ou d'autres capacités avancées. Il fonctionne comme un modèle de langage simple, adapté à l'intégration dans des applications nécessitant la génération automatisée de texte, le traitement de contenu ou des interfaces conversationnelles. Au sein du portefeuille AI Endpoints d'OVH, GPT-OSS-20B représente une option accessible pour les organisations utilisant déjà les services cloud d'OVH ou recherchant des capacités d'inférence IA hébergées dans des centres de données européens. Le modèle se positionne comme un modèle de langage généraliste plutôt qu'une offre spécialisée ou phare, fournissant des fonctionnalités de base de génération de texte pour les développeurs concevant des applications sur l'infrastructure d'OVH. Sa disponibilité via OVH AI Endpoints permet l'intégration avec d'autres services OVH tout en préservant la localité géographique des données au sein du réseau du fournisseur.

GPT-OSS-20B offre des capacités open source dans un format de 20 milliards de paramètres depuis l infrastructure européenne d OVH.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9597 runs
33790015767236333150005-2206-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
92
Multilingue
100
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-oss-20b
$0.0400 par 1M de tokens d'entrée
$0.1500 par 1M de tokens de sortie
≈ <$0.0001 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.0400
par 1M de tokens de sortie$0.1500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0400

input / 1M

— stable

$0.1500

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)778 / avg 728
594616

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Hébergement européen (Gravelines)Modèle open sourceTaille efficiente pour les tâches courantesRésidence des données en UEIntégration OVH Cloud native

Faiblesses

Fenêtre de contexte non documentéeRaisonnement limité vs modèles plus grandsPerformances inférieures aux LLMs de référenceDocumentation technique limitée
Section 06

Capacités

ownedBy: OpenAI
Section 07

Questions fréquentes

Pour les tâches moins complexes où les 20B de paramètres sont suffisants, le modèle offre une meilleure efficacité opérationnelle avec un coût réduit.

Un modèle accessible et hébergé en Europe pour les développeurs cherchant efficacité et souveraineté des données.

Synthèse benchmark Tokonomix
Section 08

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 09

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-578/100 · 12 runs
9 correct0 partial3 wrong75% accuracy
2026-06-14

gpt-oss-20b maintains stable performance across all measured metrics

The gpt-oss-20b model from OVH AI Endpoints continues to demonstrate consistent performance characteristics across the current benchmark window. All core metrics remain unchanged from the previous evaluation period, indicating operational stability. The model maintains its median time to first token at 0.31 seconds and output speed at 94.17 tokens per second, showing reliable latency characteristics for production use. Quality scores hold steady with a median of 0.80, suggesting consistent output characteristics. The model continues to serve successfully without availability issues. Users can expect the same level of performance they experienced in the previous benchmark period, with no degradation or improvement in measurable metrics. This stability may be valuable for applications requiring predictable behavior and consistent response times. The model appears well-suited for workloads where maintaining established performance baselines is important. While no performance improvements are evident in this window, the absence of regression suggests reliable operation. Users should be aware that while pricing has been updated in this period, the technical performance profile remains entirely stable.

Quality

Latency p50

Test runs

0

Stable latency metrics maintained Consistent quality scores No performance regression detected
Section 10

Profil complet du modèle

gpt-oss-20b — illustration 1
OVH gpt-oss-20b : la variante légère de la lignée open-weight d'OpenAI sur hébergement souverain européen

OVH AI Endpoints propose gpt-oss-20b depuis son centre de données de Gravelines (France), le petit frère de 20 milliards de paramètres de la version 120b issue de la même famille open-weight d'OpenAI. Les compromis par rapport à la variante plus volumineuse sont évidents : moins de capacités, des réponses plus rapides, une empreinte computationnelle réduite. Ce qui reste identique, c'est l'histoire de l'hébergement souverain européen et la lignée OpenAI contre laquelle les équipes de production ont passé des années à calibrer leurs systèmes.

Ce que le palier 20b apporte réellement

L'échelle de 20 milliards de paramètres est suffisamment importante pour la génération de texte à usage général, le suivi d'instructions, les sorties structurées et les conversations multi-tours modérément complexes. Pour les charges de travail où le 120b complet est disproportionné, le 20b gère le même type de tâches pour une fraction du coût computationnel et avec une latence sensiblement inférieure.

La génération de code de portée modérée fonctionne correctement. Écrire des scripts de quelques dizaines de lignes, refactoriser de petites fonctions, expliquer ce que fait un code non familier. Le 20b capturera la plupart des cas qui comptent pour l'assistance quotidienne aux développeurs sans atteindre le profil de coût qu'impliquerait une utilisation à haute fréquence d'un modèle 120b.

La couverture multilingue est héritée du modèle plus volumineux. Le français, l'allemand, le néerlandais, l'espagnol, l'italien, le portugais et le polonais fonctionnent tous bien au niveau du 20b, bien que la traduction littéraire nuancée et la terminologie complexe spécifique à un domaine commencent à montrer des faiblesses que le 120b gérerait mieux. Pour la traduction de support client, l'adaptation de contenu marketing et la plupart des travaux multilingues quotidiens, le 20b est suffisant.

L'hébergement OVH offre la même garantie de résidence des données souveraine européenne que le 120b. Le trafic reste en France. Les opérations sont régies par le droit français et européen des données. La conversation relative à l'accord de traitement des données avec les clients européens est simple.

Où il fonctionne bien

Charges de travail textuelles à volume élevé où le coût par appel domine et où la complexité moyenne des tâches est modérée. Backends de chatbot pour le support client, pipelines de modération de contenu, workflows d'extraction structurée sur des documents ne nécessitant pas de raisonnement de pointe, tâches de résumé par lots.

Applications sensibles à la latence où l'inférence plus rapide du 20b compte. Interfaces de chat interactives où l'utilisateur s'attend à une réponse en quelques secondes plutôt que d'attendre que le modèle réfléchisse. Augmentation de contenu en temps réel où le modèle doit suivre la frappe ou la navigation d'un utilisateur plutôt que d'être un service de traitement par lots en arrière-plan.

Exigences d'hébergement dans l'UE avec une enveloppe budgétaire qui ne justifie pas le 120b plus volumineux pour un travail de routine. Le 20b est le bon palier lorsque l'aspect souveraineté est une exigence ferme et que la charge de travail n'a pas besoin du plafond de capacités du modèle plus grand.

Workflows de développement et de prototypage où vous souhaitez itérer rapidement sur les prompts et les architectures avant de décider d'investir dans une inférence de niveau supérieur. Le coût inférieur du 20b et son temps de réponse plus rapide en font le meilleur choix pour la phase d'itération rapide de construction d'une application.

Où il échoue

Tâches de raisonnement complexes qui bénéficient d'une échelle de paramètres plus importante. Le 20b produira des réponses d'apparence plausible à des questions difficiles mais manquera des subtilités que le gpt-oss-120b captera. Pour les charges de travail où la profondeur de raisonnement compte et où l'hébergement dans l'UE est requis, le 120b est le meilleur palier.

Synthèse de code de portée significative. Écrire un algorithme d'une complexité significative, refactoriser une fonction enchevêtrée avec de nombreuses préoccupations en interaction, générer des suites de tests non triviales. Le 20b gère bien le code de petite portée, mais le taux d'échec augmente à mesure que la portée s'étend.

Charges de travail de capacités de pointe. Aucun modèle 20b ne rivalise avec le plafond de capacités absolu que les modèles propriétaires de pointe atteignent. Le 20b est le palier de volume, pas le palier de pointe, et l'utiliser pour des charges de travail qui nécessitent réellement des capacités de pointe vous donnera des résultats frustrants.

Travail multimodal. Le modèle est uniquement textuel. Pour la vision, l'audio ou les capacités multimodales, OVH propose d'autres familles de modèles comme qwen2.5-vl-72b-instruct pour le travail vision-langage selon le même modèle d'hébergement souverain européen.

Le choisir ou monter en gamme

Pour les clients européens qui construisent des applications textuelles à volume élevé et qui veulent la lignée OpenAI à un profil de coût qui s'adapte à l'échelle, gpt-oss-20b sur OVH est le bon choix par défaut. La configuration gère la majeure partie des charges de travail textuelles de routine avec une économie unitaire que le 120b ne peut égaler.

Pour les charges de travail où les capacités comptent plus que le coût, gpt-oss-120b est la montée en gamme au sein de la même lignée et du même environnement d'hébergement. La migration est triviale en termes de surface d'API. La différence de coût est significative, donc la question est de savoir si votre charge de travail a réellement besoin du modèle plus volumineux.

Pour les charges de travail à l'échelle de 20 milliards de paramètres qui n'ont pas spécifiquement besoin de la lignée OpenAI, OVH propose des alternatives solides. llama-3.1-8b-instruct se situe à l'extrémité inférieure du même palier de capacités générales. mistral-small-3.2-24b-instruct-2506 est l'alternative d'origine européenne à une échelle comparable. qwen3-32b est une autre option à usage général avec un nombre de paramètres légèrement supérieur, également dans l'enveloppe d'hébergement souverain européen.

Pour les charges de travail qui nécessitent de véritables capacités de pointe et peuvent accepter un hébergement hors UE, l'API OpenAI directe avec des modèles de raisonnement et multimodaux plus récents est le chemin alternatif. Le choix entre une inférence capable et souveraine dans l'UE et une inférence de pointe hébergée aux États-Unis est la décision stratégique que ce modèle existe pour éclairer.

Dernière analyse technique : 2026-05-22 — Tokonomix.ai

gpt-oss-20b — illustration 2
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
257 ms
Latence P95
375 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026