¿Qué nivel de capacidad ofrece 120B parámetros?

Con 120B parámetros se sitúa en la categoría de modelos grandes, con capacidades generales sólidas comparables a modelos conocidos de escala similar.

¿Tiene latencia diferente al procesar en Europa?

Para usuarios europeos, la latencia puede ser menor por proximidad geográfica respecto a endpoints en EE.UU. o Asia.

¿Es adecuado para análisis de contratos empresariales?

Sí, con 120B parámetros y procesamiento europeo es una opción válida para análisis de documentos legales en contexto GDPR.

Tier C — Especialista

Se ejecuta en:FranceCreado en:United States

OVH AI Endpoints (GRA)

gpt-oss-120b

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

GPT-OSS-120B es un gran modelo de lenguaje disponible a través de OVH AI Endpoints, alojado en la región del centro de datos GRA (Gravelines, Francia) de la compañía. Este modelo representa la oferta de OVH de infraestructura de modelos de lenguaje de código abierto, desplegada sobre su infraestructura cloud europea. La escala de 120 mil millones de parámetros lo posiciona como un modelo robusto capaz de gestionar tareas de procesamiento de lenguaje natural de propósito general, incluyendo generación de texto, conversación, análisis y razonamiento básico. El modelo proporciona capacidades estándar de generación de texto adecuadas para aplicaciones que requieren contenido coherente de formato largo, respuesta a preguntas, resumen y cargas de trabajo similares de NLP. Si bien el tamaño específico de la ventana de contexto no ha sido documentado públicamente, el modelo sigue los patrones convencionales de arquitectura transformer típicos de modelos en este rango de parámetros. OVH AI Endpoints ofrece este modelo a través de su infraestructura de API, permitiendo a los desarrolladores integrar capacidades de grandes modelos de lenguaje sin gestionar los recursos computacionales subyacentes. Dentro de la gama AI Endpoints de OVH, GPT-OSS-120B funciona como una de las opciones de modelos de código abierto de mayor tamaño disponibles para clientes que buscan capacidades sustanciales de procesamiento de lenguaje manteniendo la soberanía de datos dentro de infraestructura europea. La ubicación de despliegue en GRA puede resultar especialmente relevante para usuarios con requisitos de residencia de datos bajo la normativa europea. El enfoque de OVH se centra en proporcionar acceso a modelos de código abierto a través de su infraestructura cloud existente, ofreciendo una alternativa a los proveedores de modelos propietarios mientras aprovecha su presencia consolidada en el mercado europeo de hosting.

Prueba gpt-oss-120b con tus propias preguntas

GPT-OSS-120B es un modelo de lenguaje de 120B parámetros de código abierto disponible en la infraestructura europea de OVH, ideal para organizaciones con requisitos de soberanía de datos.
— Resumen de benchmark Tokonomix

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95101 runs

Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

Razonamiento

Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-oss-120b

$0.0800 por 1M de tokens de entrada

$0.4000 por 1M de tokens de salida

≈ $0.0001 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.0800

por 1M de tokens de salida$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0800

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-06-142026-07-052026-07-19

Input

Output

Price change

⟳ synced weekly

Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)462 / avg 713

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Infraestructura 100% europea120B parámetros para tareas complejasDatos procesados en EuropaGeneración de texto versátilSin gestión de infraestructura propiaApto para cumplimiento GDPR

Debilidades

Contexto no documentado públicamentePuede ser inferior a modelos propietarios de similar escalaDocumentación técnica limitada en OVHOpciones de personalización reducidas

Sección 06

Capacidades

ownedBy: OpenAI

Sección 07

Preguntas frecuentes

Para organizaciones con requisitos de residencia de datos en Europa, OVH garantiza que el procesamiento permanece en territorio europeo.

La combinación de 120B parámetros con infraestructura europea hace de este modelo una opción sólida para organizaciones bajo regulaciones GDPR estrictas.
— Resumen de benchmark Tokonomix

Sección 08

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 09

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 52 runs

46 correct5 partial1 wrong88% accuracy

● 2026-07-19

gpt-oss-120b quality drops 6.1 points, latency improves 20%

The current benchmark window shows a notable quality decline for gpt-oss-120b, with the overall score falling from 99.6 to 93.5 points. This 6.1 point drop represents a shift from near-perfect performance to strong but less consistent output. The category composition changed significantly between windows, with the previous period testing multilingual, coding, and reasoning capabilities, while the current window focuses on coding and creative tasks. Coding performance remains excellent at 100, maintaining the model's strength in this domain. However, the creative category scored 87, suggesting room for improvement in generative tasks. On a positive note, latency improved substantially, with p50 response times decreasing from 4092ms to 3269ms, a 20% reduction that enhances user experience. The test run count decreased slightly from 5 to 4, which may affect statistical confidence. Users should expect faster responses and continued excellence in coding tasks, but may notice variability in other domains compared to the previous benchmark period. The quality regression warrants monitoring in future windows to determine whether this represents a temporary fluctuation or a sustained trend.

Quality

93.5

Latency p50

3,269 ms

Test runs

✗ Quality dropped 6.1 points✓ Latency improved 20%✓ Coding remains at 100✗ Creative performance at 87

Sección 10

Perfil completo del modelo

OVH gpt-oss-120b: el modelo insignia de peso abierto de OpenAI alojado en infraestructura soberana de la UE

OVH AI Endpoints sirve gpt-oss-120b desde su centro de datos de Gravelines (Francia). La combinación es la historia real aquí. OpenAI lanzó un modelo de peso abierto de 120 mil millones de parámetros. OVH aloja la inferencia dentro de infraestructura francesa con operaciones nativas del RGPD y garantías de residencia de datos en la UE. Para los equipos europeos que han estado esperando un modelo de alta capacidad del linaje OpenAI que puedan usar sin enviar tráfico a endpoints de inferencia en EE.UU., esta configuración es el camino que se abrió.

Por qué importa la combinación OpenAI-más-OVH

El perfil de capacidad que se obtiene de gpt-oss-120b está más cerca del frontier de OpenAI que cualquier otra cosa disponible bajo alojamiento soberano de la UE. Los modelos de peso abierto de otros proveedores son competitivos en benchmarks, pero el linaje de OpenAI lleva hábitos de seguimiento de instrucciones, fiabilidad de salida estructurada y patrones de razonamiento contra los que los sistemas de producción han pasado años calibrando. Cambiar a una familia de modelos diferente no es gratis aunque las puntuaciones de benchmark parezcan comparables.

El alojamiento en OVH dentro de Francia le da la historia del acuerdo de procesamiento de datos que los clientes de la UE realmente necesitan. El tráfico permanece dentro de las fronteras francesas. Las operaciones están regidas por la ley de datos francesa y europea. La conversación del DPA con los clientes es sencilla de una forma que llamar a los endpoints de OpenAI en EE.UU. nunca lo es, independientemente de lo buenos que sean los términos de protección de datos al estilo Anthropic.

La compensación es que se renuncia al comportamiento más reciente absoluto de OpenAI. Los pesos de gpt-oss-120b son una instantánea fija en lugar de un modelo de producción actualizado continuamente. OpenAI sigue lanzando modelos de razonamiento más nuevos, modelos de imagen y capacidades multimodales a través de su propia API, y estos no se propagan al lanzamiento de peso abierto. Para las cargas de trabajo donde la capacidad del 120b de peso abierto es suficiente, esto está bien. Para las cargas de trabajo que dependen del frontier, esta no es la herramienta correcta.

Qué cubre bien

Generación de texto de propósito general, seguimiento de instrucciones, salida estructurada, conversación de múltiples turnos. La escala de 120b parámetros es suficientemente grande para gestionar razonamiento moderadamente complejo, síntesis de código de alcance no trivial y generación de formato largo con estructura coherente. Para la mayoría de las cargas de trabajo que antes corrían en modelos de clase GPT-4 para trabajo general, gpt-oss-120b es una alternativa creíble.

La cobertura multilingüe es sólida en los idiomas europeos, lo que importa para la base de clientes de la UE a la que apunta esta configuración de alojamiento. Francés, alemán, neerlandés, español, italiano, portugués y polaco funcionan bien. El modelo está cómodo gestionando traducción, soporte al cliente multilingüe y generación de contenido en idiomas donde las alternativas alojadas en EE.UU. a veces tienen un estilo de salida anglocéntrico.

El alojamiento de OVH ofrece latencia europea predecible. El centro de datos de Gravelines está bien posicionado para el acceso de baja latencia desde la Europa continental y el Reino Unido. Para las aplicaciones sensibles a la latencia, el ida y vuelta es notablemente mejor que las rutas trasatlánticas a los endpoints de OpenAI en EE.UU.

Dónde falla

La brecha de capacidad frontier es real para las cargas de trabajo más difíciles. Razonamiento complejo de múltiples pasos, el tipo de síntesis de código que los modelos de razonamiento de la serie o gestionan bien, comprensión y generación de imágenes, interacción de voz en tiempo real. Ninguno de estos es abordado por gpt-oss-120b. Para esas cargas de trabajo hay que aceptar la ruta alojada en EE.UU. o buscar otros proveedores que combinen alta capacidad con alojamiento en la UE a través de diferentes familias de modelos.

El modelo es solo texto. Sin visión, sin audio, sin capacidad multimodal. Para las cargas de trabajo multimodales, OVH ofrece otras familias de modelos como Qwen2.5-VL a través del mismo patrón de endpoint, pero esas son diferentes linajes con diferentes perfiles de comportamiento.

La escala de 120b parámetros es grande pero no está en el techo absoluto de capacidad. Las cargas de trabajo que genuinamente necesitan un modelo de clase frontier sentirán la diferencia. Para las cargas de trabajo que encajan cómodamente dentro del envolvente de 120b, la diferencia no importa y la ventaja del alojamiento en la UE domina el cálculo de la compensación.

Cuándo elegirlo y qué más considerar

Para los clientes de la UE que construyen aplicaciones de texto de propósito general que quieren el linaje de OpenAI y la residencia de datos en la UE, gpt-oss-120b en OVH es el valor predeterminado correcto. La configuración resuelve un problema real que ha sido un bloqueador de adquisición para las empresas europeas y los compradores del sector público durante años.

Para las cargas de trabajo que no necesitan específicamente el linaje de OpenAI, el catálogo de OVH ofrece alternativas sólidas en el mismo envolvente de alojamiento. meta-llama-3_3-70b-instruct es la opción de peso abierto de Meta en un tier de capacidad similar. mistral-small-3.2-24b-instruct-2506 es un modelo de origen europeo que combina el alojamiento soberano de la UE con el entrenamiento de origen de la UE. qwen3-32b es una opción sólida de propósito general a una escala de parámetros más pequeña y menor coste.

Para las cargas de trabajo que necesitan una variante más pequeña, más rápida y más barata del mismo linaje de peso abierto de OpenAI, gpt-oss-20b es el hermano más pequeño. Para las cargas de trabajo que necesitan capacidad frontier real y pueden aceptar la inferencia alojada en EE.UU., la API directa de OpenAI con modelos de razonamiento y multimodales más nuevos es el camino alternativo. La elección depende de si el alojamiento soberano de la UE es un requisito estricto o una preferencia que puede relajarse para necesidades de capacidad específicas.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

30 jul 2026 · 08:04 UTC · Benchmark de velocidad

Latencia P50

433 ms

Latencia P95

540 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026