Ir al contenido
Tier C — Especialista
Se ejecuta en:FranceCreado en:United States
OVH AI Endpoints (GRA)

gpt-oss-20b

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-OSS-20B es un modelo de generación de texto disponible a través de OVH AI Endpoints, alojado específicamente en la región del centro de datos de OVH en Gravelines (GRA), Francia. Este modelo ofrece capacidades estándar de procesamiento de lenguaje natural, incluyendo completado de texto, respuesta a preguntas y tareas conversacionales generales. Como parte del servicio AI Endpoints de OVH, opera dentro de la infraestructura de nube europea de OVH, posicionándolo para usuarios que requieren residencia de datos en la UE o prefieren recursos de cómputo basados en Europa. Las especificaciones de la ventana de contexto del modelo no han sido documentadas públicamente, aunque admite operaciones típicas de modelos de lenguaje para aplicaciones empresariales y de desarrollo. GPT-OSS-20B gestiona cargas de trabajo estándar de generación de texto sin funciones especializadas para procesamiento multimodal, llamada a funciones u otras capacidades avanzadas. Funciona como un modelo de lenguaje directo, adecuado para integrarse en aplicaciones que requieren generación automatizada de texto, procesamiento de contenido o interfaces conversacionales. Dentro del portafolio de AI Endpoints de OVH, GPT-OSS-20B representa una opción accesible para organizaciones que ya utilizan los servicios de nube de OVH o que buscan capacidades de inferencia de IA alojadas en centros de datos europeos. El modelo funciona como un modelo de lenguaje de propósito general en lugar de una oferta especializada o insignia, proporcionando funcionalidad básica de generación de texto para desarrolladores que crean aplicaciones sobre la infraestructura de OVH. Su disponibilidad mediante OVH AI Endpoints permite la integración con otros servicios de OVH manteniendo la localidad geográfica de los datos dentro de la red del proveedor.

GPT-OSS-20B es un modelo de código abierto de 20B parámetros disponible en infraestructura europea de OVH, ofreciendo capacidades de lenguaje básicas con residencia de datos en Europa.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
33790015767236333150005-2206-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
92
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-oss-20b
$0.0400 por 1M de tokens de entrada
$0.1500 por 1M de tokens de salida
≈ <$0.0001 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.0400
por 1M de tokens de salida$0.1500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0400

input / 1M

— stable

$0.1500

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)778 / avg 728
594616

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Procesamiento en data center europeoMenor costo que modelos más grandesTareas de texto básicas cubiertasLatencia reducida para usuarios europeosCumplimiento de residencia de datos GDPRSin gestión de infraestructura propia

Debilidades

Capacidad limitada con 20B parámetrosContexto no documentadoNo apto para tareas de alta complejidadRazonamiento avanzado reducido
Sección 06

Capacidades

ownedBy: OpenAI
Sección 07

Preguntas frecuentes

Cuando el costo es prioritario y las tareas no requieren el razonamiento más avanzado; 20B es más eficiente para texto básico.

Una opción accesible para organizaciones europeas que necesitan procesamiento de texto básico cumpliendo con los requisitos de residencia de datos.

Resumen de benchmark Tokonomix
Sección 08

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 09

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-578/100 · 12 runs
9 correct0 partial3 wrong75% accuracy
2026-06-14

gpt-oss-20b maintains stable performance across all measured metrics

The gpt-oss-20b model from OVH AI Endpoints continues to demonstrate consistent performance characteristics across the current benchmark window. All core metrics remain unchanged from the previous evaluation period, indicating operational stability. The model maintains its median time to first token at 0.31 seconds and output speed at 94.17 tokens per second, showing reliable latency characteristics for production use. Quality scores hold steady with a median of 0.80, suggesting consistent output characteristics. The model continues to serve successfully without availability issues. Users can expect the same level of performance they experienced in the previous benchmark period, with no degradation or improvement in measurable metrics. This stability may be valuable for applications requiring predictable behavior and consistent response times. The model appears well-suited for workloads where maintaining established performance baselines is important. While no performance improvements are evident in this window, the absence of regression suggests reliable operation. Users should be aware that while pricing has been updated in this period, the technical performance profile remains entirely stable.

Quality

Latency p50

Test runs

0

Stable latency metrics maintained Consistent quality scores No performance regression detected
Sección 10

Perfil completo del modelo

gpt-oss-20b — illustration 1
OVH gpt-oss-20b: la variante ligera del linaje de pesos abiertos de OpenAI en hosting soberano europeo

OVH AI Endpoints sirve gpt-oss-20b desde su centro de datos en Gravelines (Francia), el hermano menor de 20 mil millones de parámetros del lanzamiento 120b dentro de la misma familia de pesos abiertos de OpenAI. Las concesiones frente a la variante más grande son las obvias: menos capacidad, respuestas más rápidas, menor huella computacional. Lo que permanece igual es la narrativa de hosting soberano europeo y el linaje de OpenAI contra el cual los equipos de producción han pasado años calibrando.

Lo que realmente entrega el tier de 20b

La escala de 20 mil millones de parámetros es suficientemente grande para generación de texto de propósito general, seguimiento de instrucciones, salida estructurada y conversación multi-turno moderadamente compleja. Para cargas de trabajo donde el 120b completo resulta excesivo, el 20b maneja el mismo tipo de tareas a una fracción del costo computacional y con latencia sustancialmente menor.

La generación de código a escala moderada funciona bien. Escribir scripts de unas pocas docenas de líneas, refactorizar funciones pequeñas, explicar qué hace código desconocido. El 20b capturará la mayoría de los casos que importan para asistencia de desarrollador cotidiana sin alcanzar el perfil de costos que implicaría el uso de alta frecuencia de un modelo 120b.

La cobertura multilingüe se hereda del modelo más grande. Francés, alemán, holandés, español, italiano, portugués y polaco funcionan bien en el tier 20b, aunque la traducción literaria matizada y la terminología compleja específica de dominio empiezan a mostrar debilidades que el 120b manejaría mejor. Para traducción de soporte al cliente, adaptación de copy de marketing y la mayoría del trabajo multilingüe cotidiano, el 20b es suficiente.

El hosting de OVH ofrece la misma narrativa de residencia de datos soberana europea que el 120b. El tráfico permanece en Francia. Las operaciones se rigen por la ley francesa y europea de datos. La conversación sobre acuerdos de procesamiento de datos con clientes europeos es directa.

Dónde funciona

Cargas de trabajo de texto de alto volumen donde el costo por llamada domina y la complejidad promedio de tarea es moderada. Backends de chatbot para soporte al cliente, pipelines de moderación de contenido, flujos de trabajo de extracción estructurada sobre documentos que no requieren razonamiento de frontera, trabajos de resumen por lotes.

Aplicaciones sensibles a latencia donde la inferencia más rápida del 20b importa. Interfaces de chat interactivo donde el usuario espera una respuesta en pocos segundos en lugar de esperar a que el modelo piense. Aumento de contenido en tiempo real donde el modelo debe mantener el ritmo de la escritura o navegación del usuario en lugar de ser un servicio batch de back-office.

Requisitos de hosting europeo con un presupuesto que no justifica el 120b más grande para trabajo rutinario. El 20b es el tier correcto cuando la narrativa de soberanía es un requisito estricto y la carga de trabajo no necesita el techo de capacidad del modelo más grande.

Flujos de trabajo de desarrollo y prototipado donde quieres iterar rápidamente sobre prompts y arquitecturas antes de decidir si invertir en inferencia de tier superior. El menor costo y tiempo de respuesta más rápido del 20b lo convierten en la mejor opción para la fase de iteración rápida de construcción de una aplicación.

Dónde falla

Tareas de razonamiento complejo que se benefician de una escala de parámetros mayor. El 20b producirá respuestas de apariencia plausible a preguntas difíciles pero perderá sutilezas que el gpt-oss-120b captura. Para cargas de trabajo donde la profundidad de razonamiento importa y se requiere hosting europeo, el 120b es el mejor tier.

Síntesis de código a escala significativa. Escribir un algoritmo de complejidad significativa, refactorizar una función enredada con muchas preocupaciones que interactúan, generar suites de prueba no triviales. El 20b maneja bien codificación de alcance pequeño pero la tasa de fallo aumenta a medida que crece el alcance.

Cargas de trabajo de capacidad de frontera. Ningún modelo de 20b compite con el techo absoluto de capacidad que logran los modelos propietarios de frontera. El 20b es el tier de volumen, no el tier de frontera, y usarlo para cargas de trabajo que genuinamente necesitan capacidad de frontera te da salidas frustrantes.

Trabajo multimodal. El modelo es solo texto. Para visión, audio o capacidad multimodal, OVH ofrece otras familias de modelos como qwen2.5-vl-72b-instruct para trabajo de visión-lenguaje a través del mismo patrón de hosting soberano europeo.

Elegirlo o escalar hacia arriba

Para clientes europeos que construyen aplicaciones de texto de alto volumen y quieren el linaje de OpenAI con un perfil de costos que escala, gpt-oss-20b en OVH es la opción predeterminada correcta. La configuración maneja el grueso de cargas de trabajo de texto rutinarias con una economía unitaria que el 120b no puede igualar.

Para cargas de trabajo donde la capacidad importa más que el costo, gpt-oss-120b es la actualización dentro del mismo linaje y el mismo entorno de hosting. La migración es trivial en superficie de API. La diferencia de costo es significativa, así que la pregunta es si tu carga de trabajo realmente necesita el modelo más grande.

Para cargas de trabajo a la escala de parámetros 20b que no necesitan específicamente el linaje de OpenAI, OVH ofrece alternativas sólidas. llama-3.1-8b-instruct se sitúa en el extremo más pequeño del mismo tier general de capacidad. mistral-small-3.2-24b-instruct-2506 es la alternativa de origen europeo a escala comparable. qwen3-32b es otra opción de propósito general con recuento de parámetros ligeramente superior, también dentro del sobre de hosting soberano europeo.

Para cargas de trabajo que necesitan verdadera capacidad de frontera y pueden aceptar hosting no europeo, la API directa de OpenAI con modelos de razonamiento y multimodales más nuevos es la ruta alternativa. La elección entre inferencia capaz soberana europea e inferencia capaz de frontera alojada en EE.UU. es la decisión estratégica que este modelo existe para informar.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-oss-20b — illustration 2
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
257 ms
Latencia P95
375 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026