¿Para qué tareas es suficiente 20B parámetros?

Generación de texto básica, resumen de documentos cortos, clasificación y tareas conversacionales de baja complejidad.

¿Está disponible en regiones de OVH fuera de GRA?

La disponibilidad específica por región se detalla en el catálogo de OVH AI Endpoints; GRA es la región documentada.

¿Puede integrarse con otros servicios de OVH Cloud?

Sí, como parte del ecosistema OVH se integra con sus servicios de computación y almacenamiento europeos.

Tier C — Especialista

Se ejecuta en:FranceCreado en:United States

OVH AI Endpoints (GRA)

gpt-oss-20b

Q: ¿Cuándo elegir 20B sobre 120B en OVH?

Cuando el costo es prioritario y las tareas no requieren el razonamiento más avanzado; 20B es más eficiente para texto básico.

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-OSS-20B es un modelo de generación de texto disponible a través de OVH AI Endpoints, alojado específicamente en la región del centro de datos de OVH en Gravelines (GRA), Francia. Este modelo ofrece capacidades estándar de procesamiento de lenguaje natural, incluyendo completado de texto, respuesta a preguntas y tareas conversacionales generales. Como parte del servicio AI Endpoints de OVH, opera dentro de la infraestructura de nube europea de OVH, posicionándolo para usuarios que requieren residencia de datos en la UE o prefieren recursos de cómputo basados en Europa. Las especificaciones de la ventana de contexto del modelo no han sido documentadas públicamente, aunque admite operaciones típicas de modelos de lenguaje para aplicaciones empresariales y de desarrollo. GPT-OSS-20B gestiona cargas de trabajo estándar de generación de texto sin funciones especializadas para procesamiento multimodal, llamada a funciones u otras capacidades avanzadas. Funciona como un modelo de lenguaje directo, adecuado para integrarse en aplicaciones que requieren generación automatizada de texto, procesamiento de contenido o interfaces conversacionales. Dentro del portafolio de AI Endpoints de OVH, GPT-OSS-20B representa una opción accesible para organizaciones que ya utilizan los servicios de nube de OVH o que buscan capacidades de inferencia de IA alojadas en centros de datos europeos. El modelo funciona como un modelo de lenguaje de propósito general en lugar de una oferta especializada o insignia, proporcionando funcionalidad básica de generación de texto para desarrolladores que crean aplicaciones sobre la infraestructura de OVH. Su disponibilidad mediante OVH AI Endpoints permite la integración con otros servicios de OVH manteniendo la localidad geográfica de los datos dentro de la red del proveedor.

Prueba gpt-oss-20b con tus propias preguntas

GPT-OSS-20B es un modelo de código abierto de 20B parámetros disponible en infraestructura europea de OVH, ofreciendo capacidades de lenguaje básicas con residencia de datos en Europa.
— Resumen de benchmark Tokonomix

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95101 runs

Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

Razonamiento

Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-oss-20b

$0.0400 por 1M de tokens de entrada

$0.1500 por 1M de tokens de salida

≈ <$0.0001 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.0400

por 1M de tokens de salida$0.1500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0400

input / 1M

— stable

$0.1500

output / 1M

— stable

2026-06-142026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)803 / avg 737

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Procesamiento en data center europeoMenor costo que modelos más grandesTareas de texto básicas cubiertasLatencia reducida para usuarios europeosCumplimiento de residencia de datos GDPRSin gestión de infraestructura propia

Debilidades

Capacidad limitada con 20B parámetrosContexto no documentadoNo apto para tareas de alta complejidadRazonamiento avanzado reducido

Sección 06

Capacidades

ownedBy: OpenAI

Sección 07

Preguntas frecuentes

Cuando el costo es prioritario y las tareas no requieren el razonamiento más avanzado; 20B es más eficiente para texto básico.

Una opción accesible para organizaciones europeas que necesitan procesamiento de texto básico cumpliendo con los requisitos de residencia de datos.
— Resumen de benchmark Tokonomix

Sección 08

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

—

Últimos 30 días

100.0%

n=1

Tiempo de respuesta mediano

449ms

n=1

Basado en 381 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

Respuestas OK (30d)

Total de llamadas (7d)

Respuestas OK (7d)

Sección 09

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-579/100 · 52 runs

39 correct3 partial10 wrong75% accuracy

● 2026-07-26

gpt-oss-20b plummets to 48.5 as factual and reasoning scores hit zero

This benchmark window reveals a dramatic performance collapse for gpt-oss-20b, with the overall quality score dropping 45.6 points from 94.1 to 48.5. The most alarming development is the complete failure in factual and reasoning categories, both scoring zero compared to strong previous performance. This suggests a fundamental regression in the model's core capabilities for logical processing and accurate information retrieval. The creative writing score surged to 94, up from 85, and multilingual support maintained its perfect 100 rating, demonstrating that some capabilities remain intact. Latency improved slightly from 7330ms to 7132ms at the median, though this minor speed gain is overshadowed by the quality deterioration. The test sample size remained consistent at 5 runs per window. Users should exercise caution deploying this model for factual or analytical tasks until these critical regressions are addressed. The selective nature of the failures, with creative and multilingual tasks unaffected while reasoning collapses entirely, points to a possible configuration issue or model version regression rather than general degradation.

Quality

48.5

Latency p50

7,132 ms

Test runs

✗ Factual accuracy dropped to zero✗ Reasoning capability completely failed✓ Creative score improved to 94✓ Multilingual remains perfect at 100

Sección 10

Perfil completo del modelo

OVH gpt-oss-20b: la variante ligera del linaje de pesos abiertos de OpenAI en hosting soberano europeo

OVH AI Endpoints sirve gpt-oss-20b desde su centro de datos en Gravelines (Francia), el hermano menor de 20 mil millones de parámetros del lanzamiento 120b dentro de la misma familia de pesos abiertos de OpenAI. Las concesiones frente a la variante más grande son las obvias: menos capacidad, respuestas más rápidas, menor huella computacional. Lo que permanece igual es la narrativa de hosting soberano europeo y el linaje de OpenAI contra el cual los equipos de producción han pasado años calibrando.

Lo que realmente entrega el tier de 20b

La escala de 20 mil millones de parámetros es suficientemente grande para generación de texto de propósito general, seguimiento de instrucciones, salida estructurada y conversación multi-turno moderadamente compleja. Para cargas de trabajo donde el 120b completo resulta excesivo, el 20b maneja el mismo tipo de tareas a una fracción del costo computacional y con latencia sustancialmente menor.

La generación de código a escala moderada funciona bien. Escribir scripts de unas pocas docenas de líneas, refactorizar funciones pequeñas, explicar qué hace código desconocido. El 20b capturará la mayoría de los casos que importan para asistencia de desarrollador cotidiana sin alcanzar el perfil de costos que implicaría el uso de alta frecuencia de un modelo 120b.

La cobertura multilingüe se hereda del modelo más grande. Francés, alemán, holandés, español, italiano, portugués y polaco funcionan bien en el tier 20b, aunque la traducción literaria matizada y la terminología compleja específica de dominio empiezan a mostrar debilidades que el 120b manejaría mejor. Para traducción de soporte al cliente, adaptación de copy de marketing y la mayoría del trabajo multilingüe cotidiano, el 20b es suficiente.

El hosting de OVH ofrece la misma narrativa de residencia de datos soberana europea que el 120b. El tráfico permanece en Francia. Las operaciones se rigen por la ley francesa y europea de datos. La conversación sobre acuerdos de procesamiento de datos con clientes europeos es directa.

Dónde funciona

Cargas de trabajo de texto de alto volumen donde el costo por llamada domina y la complejidad promedio de tarea es moderada. Backends de chatbot para soporte al cliente, pipelines de moderación de contenido, flujos de trabajo de extracción estructurada sobre documentos que no requieren razonamiento de frontera, trabajos de resumen por lotes.

Aplicaciones sensibles a latencia donde la inferencia más rápida del 20b importa. Interfaces de chat interactivo donde el usuario espera una respuesta en pocos segundos en lugar de esperar a que el modelo piense. Aumento de contenido en tiempo real donde el modelo debe mantener el ritmo de la escritura o navegación del usuario en lugar de ser un servicio batch de back-office.

Requisitos de hosting europeo con un presupuesto que no justifica el 120b más grande para trabajo rutinario. El 20b es el tier correcto cuando la narrativa de soberanía es un requisito estricto y la carga de trabajo no necesita el techo de capacidad del modelo más grande.

Flujos de trabajo de desarrollo y prototipado donde quieres iterar rápidamente sobre prompts y arquitecturas antes de decidir si invertir en inferencia de tier superior. El menor costo y tiempo de respuesta más rápido del 20b lo convierten en la mejor opción para la fase de iteración rápida de construcción de una aplicación.

Dónde falla

Tareas de razonamiento complejo que se benefician de una escala de parámetros mayor. El 20b producirá respuestas de apariencia plausible a preguntas difíciles pero perderá sutilezas que el gpt-oss-120b captura. Para cargas de trabajo donde la profundidad de razonamiento importa y se requiere hosting europeo, el 120b es el mejor tier.

Síntesis de código a escala significativa. Escribir un algoritmo de complejidad significativa, refactorizar una función enredada con muchas preocupaciones que interactúan, generar suites de prueba no triviales. El 20b maneja bien codificación de alcance pequeño pero la tasa de fallo aumenta a medida que crece el alcance.

Cargas de trabajo de capacidad de frontera. Ningún modelo de 20b compite con el techo absoluto de capacidad que logran los modelos propietarios de frontera. El 20b es el tier de volumen, no el tier de frontera, y usarlo para cargas de trabajo que genuinamente necesitan capacidad de frontera te da salidas frustrantes.

Trabajo multimodal. El modelo es solo texto. Para visión, audio o capacidad multimodal, OVH ofrece otras familias de modelos como qwen2.5-vl-72b-instruct para trabajo de visión-lenguaje a través del mismo patrón de hosting soberano europeo.

Elegirlo o escalar hacia arriba

Para clientes europeos que construyen aplicaciones de texto de alto volumen y quieren el linaje de OpenAI con un perfil de costos que escala, gpt-oss-20b en OVH es la opción predeterminada correcta. La configuración maneja el grueso de cargas de trabajo de texto rutinarias con una economía unitaria que el 120b no puede igualar.

Para cargas de trabajo donde la capacidad importa más que el costo, gpt-oss-120b es la actualización dentro del mismo linaje y el mismo entorno de hosting. La migración es trivial en superficie de API. La diferencia de costo es significativa, así que la pregunta es si tu carga de trabajo realmente necesita el modelo más grande.

Para cargas de trabajo a la escala de parámetros 20b que no necesitan específicamente el linaje de OpenAI, OVH ofrece alternativas sólidas. llama-3.1-8b-instruct se sitúa en el extremo más pequeño del mismo tier general de capacidad. mistral-small-3.2-24b-instruct-2506 es la alternativa de origen europeo a escala comparable. qwen3-32b es otra opción de propósito general con recuento de parámetros ligeramente superior, también dentro del sobre de hosting soberano europeo.

Para cargas de trabajo que necesitan verdadera capacidad de frontera y pueden aceptar hosting no europeo, la API directa de OpenAI con modelos de razonamiento y multimodales más nuevos es la ruta alternativa. La elección entre inferencia capaz soberana europea e inferencia capaz de frontera alojada en EE.UU. es la decisión estratégica que este modelo existe para informar.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

30 jul 2026 · 08:04 UTC · Benchmark de velocidad

Latencia P50

249 ms

Latencia P95

250 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026