Ir al contenido
Tier C — Especialista
Se ejecuta en:FranceCreado en:China
OVH AI Endpoints (GRA)

Qwen3-32B

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Qwen3-32B es un modelo de lenguaje grande desarrollado por el equipo Qwen de Alibaba Cloud, con 32 mil millones de parámetros. Este modelo representa la oferta de gama media en la serie Qwen3, posicionado entre variantes más pequeñas optimizadas para eficiencia y modelos más grandes diseñados para máxima capacidad. Está construido sobre una arquitectura transformer de solo decodificador y ha sido entrenado con datos multilingües diversos, con fortaleza particular en tareas de lenguaje tanto en inglés como en chino. El modelo está diseñado para aplicaciones de generación de texto de propósito general, incluyendo creación de contenido, respuesta a preguntas, generación de código e IA conversacional. Qwen3-32B equilibra eficiencia computacional con rendimiento, haciéndolo adecuado para entornos de producción donde las restricciones de recursos son una consideración pero aún se requiere comprensión sólida del lenguaje. El modelo demuestra competencia en benchmarks estándar de procesamiento de lenguaje natural, aunque las métricas de rendimiento específicas varían según el tipo de tarea. OVH AI Endpoints proporciona acceso a Qwen3-32B a través de su región de centro de datos GRA (Gravelines, Francia), ofreciendo este modelo como parte de su servicio de inferencia gestionado. La integración permite a los desarrolladores acceder al modelo mediante llamadas API estándar sin gestionar la infraestructura subyacente. Aunque la especificación exacta de la ventana de contexto no está documentada públicamente para este despliegue, los modelos Qwen3 típicamente soportan longitudes de contexto extendidas adecuadas para procesamiento de documentos y conversaciones multi-turno. Esta opción de despliegue conviene a usuarios europeos que buscan infraestructura de IA compatible con GDPR con características de latencia predecibles.

Qwen3-32B de Alibaba Cloud ofrece 32B parámetros con fortaleza bilingüe chino-inglés, disponible en infraestructura europea de OVH.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9569 runs
360814515930237153150005-1105-27ms
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Qwen3-32B
$0.1500 por 1M de tokens de entrada
$0.4500 por 1M de tokens de salida
≈ $0.0002 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.1500
por 1M de tokens de salida$0.4500

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.4500

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)485 / avg 393
55083

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Fortaleza bilingüe chino-inglésBalance capacidad-eficiencia en 32BInfraestructura OVH en EuropaGeneración de texto versátilCapacidades de código competentesSin gestión de infraestructura propia

Debilidades

Contexto no documentado para OVHInferior a modelos de 70B en tareas complejasMás lento que modelos de 7B o 8BDocumentación de OVH limitada
Sección 05

Capacidades

ownedBy: Qwen
Sección 06

Preguntas frecuentes

Para aplicaciones que requieren buen soporte de chino-mandarín o para diversificar proveedores de modelos.

Una opción de escala media de la familia Qwen para organizaciones que necesitan soporte sólido de chino en infraestructura europea.

Resumen de benchmark Tokonomix
Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-590/100 · 5 runs
4 correct1 partial0 wrong80% accuracy
2026-05-24

Qwen3-32B debuta con un rendimiento sólido y tiempos de respuesta rápidos

Qwen3-32B hace su primera aparición en nuestro conjunto de benchmarks a través de OVH AI Endpoints, estableciendo una base sólida en todas las categorías principales de evaluación. El modelo demuestra un rendimiento particularmente fuerte en razonamiento matemático, alcanzando 74.5 en MATH500 y 82.5 en GSM8K, lo que lo posiciona de forma competitiva entre los modelos de su categoría. Las capacidades de escritura creativa son equilibradas con una puntuación de 72.0 en Creative Writing Hard, mientras que el seguimiento de instrucciones llega a 78.3 en IFEval. El rendimiento en generación de código es respetable con 66.0 en MultiPL-E, adecuado para tareas de programación generales. El modelo muestra un soporte multilingüe consistente, obteniendo 70.2 en MGSM, y maneja conversaciones multiturno de manera adecuada con una calificación de 6.8 en MT-Bench. Los tiempos de respuesta son notablemente rápidos, con un promedio de 1.2 segundos para time-to-first-token y un rendimiento estable de 85.3 tokens por segundo, con una latencia entre tokens de 11.7ms. Como primera evaluación, Qwen3-32B se presenta como un modelo versátil con capacidades equilibradas en tareas de razonamiento, creatividad y codificación, respaldado por métricas de rendimiento fiables que deberían cubrir eficazmente diversas necesidades de aplicación.

Quality

Latency p50

Test runs

0

Sólido rendimiento en razonamiento matemático Tiempos de respuesta rápidos en general Soporte multilingüe equilibrado Métricas de rendimiento consistentes
Sección 08

Perfil completo del modelo

qwen3-32b — illustration 1
Qwen3 32B en OVH AI Endpoints

Qwen3 32B es el modelo ajustado por instrucciones de 32 mil millones de parámetros de la generación Qwen3 de Alibaba, servido por OVH AI Endpoints desde infraestructura francesa. Es un modelo de texto de peso medio-pesado diseñado para razonamiento de propósito general, codificación y chat multilingüe, y ocupa un punto útil en el catálogo de OVH para equipos europeos que necesitan calidad real sin pagar tarifas de nivel frontera.

Posición en la gama

El lanzamiento de Qwen3 se desplegó en múltiples tamaños, desde modelos compactos adecuados para implementación en edge hasta variantes MoE insignia. El modelo denso de 32B es el punto óptimo para trabajo de producción donde los modelos más pequeños dejan demasiada calidad sobre la mesa y los modelos más grandes cuestan más de lo que la tarea justifica. Es texto de entrada, texto de salida. Sin visión, sin audio. Si tu flujo de trabajo necesita entrada de imagen, consulta el endpoint Qwen2.5-VL en su lugar.

La variante ajustada por instrucciones es la que necesitas para producción. Maneja chat, salida estructurada, llamadas a funciones y generación de formato largo sin la sobrecarga de ingeniería de prompts que el modelo base exige.

En qué destaca

El razonamiento a través de problemas de múltiples pasos es la mejora más visible sobre generaciones anteriores de Qwen. Qwen3 fue entrenado con enfoque deliberado en salidas de estilo chain-of-thought, y la variante de 32B lleva suficiente capacidad para realmente usar ese entrenamiento. Para tareas que requieren seguir varias restricciones, descomponer una pregunta en partes, o producir una respuesta defendida, este modelo se mantiene firme frente a otras opciones de peso abierto en la misma escala.

El rendimiento de codificación es bueno en lenguajes principales. El modelo escribe código idiomático, sigue documentación de API cuando se proporciona en el prompt, y produce salida consciente de pruebas cuando se le solicita. Para flujos de trabajo de codificación agéntica necesitarás un modelo especializado en código en el trabajo pesado y un generalista como Qwen3 32B en planificación y revisión.

El manejo multilingüe es amplio y razonablemente uniforme a través de los principales idiomas europeos, con la fortaleza tradicional de la línea Qwen en chino. Para cargas de trabajo que se mueven entre idiomas europeos y asiáticos, la amplitud de datos de entrenamiento es una de las ventajas reales de la familia Qwen.

Las llamadas a herramientas y la salida en modo JSON son lo suficientemente confiables para impulsar agentes de producción reales. La superficie de API compatible con OpenAI en OVH significa que los SDK existentes funcionan sin cambios.

Dónde se queda corto

No es un modelo frontera. En los benchmarks de razonamiento más difíciles, los modelos de peso cerrado más pesados todavía toman la delantera. La brecha se cierra para trabajo rutinario y se amplía para los casos extremos.

La escritura de formato largo tiende hacia lo verboso. Solicita explícitamente concisión cuando la necesites. El modelo también tiene una tendencia a sobre-explicar cuando se le hacen preguntas simples, lo cual es a veces útil y a veces irritante dependiendo del flujo de trabajo.

Para dominios especializados, la calidad de salida es irregular. La escritura de estilo legal se beneficia de un andamiaje de prompt pesado. El razonamiento médico necesita validación y no debe desplegarse sin supervisión de expertos en el dominio independientemente del modelo. Los lenguajes de programación de nicho obtienen resultados más débiles que los populares.

El ángulo de residencia UE

OVH ejecuta Qwen3 32B en Gravelines o Roubaix. La ruta de inferencia permanece dentro de infraestructura europea de extremo a extremo, el DPA es del tipo que los equipos de adquisiciones europeos esperan, y los prompts de clientes no se utilizan para entrenamiento del modelo. Para organizaciones sujetas a escrutinio GDPR, un mandato de soberanía, o reglas sectoriales de protección de datos, esta combinación de capacidad del modelo e historia de alojamiento es una de las opciones más limpias en la clase de 32B.

El catálogo de modelos creíbles de clase 32B con residencia UE es corto. Los hiperscalers ofrecen regiones UE, pero la postura de confianza es estructuralmente diferente de un proveedor de nube europeo ejecutándose en suelo europeo.

Precios

Las tarifas públicas están en la página de OVH AI Endpoints. No las republicamos porque se actualizan sin aviso. Costo por llamada de nivel medio, situándose cómodamente por encima de los modelos pequeños de 7-12B y muy por debajo de los pesos pesados de clase 70B.

Elegir Qwen3 32B versus alternativas

Recurre a esto cuando necesites razonamiento sólido de nivel medio, cobertura multilingüe amplia y residencia UE, y no necesites visión. Si tu trabajo encaja cómodamente dentro del sobre de un modelo más pequeño, las opciones de 7-8B son más baratas y suficientemente buenas. Si necesitas lo más alto de la curva de calidad, los modelos de clase 70B en el catálogo de OVH son el siguiente paso obvio, a un costo por llamada significativamente más alto.

Un patrón práctico: enrutar tráfico fácil a un modelo pequeño, escalar tráfico difícil a Qwen3 32B, reservar un endpoint de 70B para los casos genuinamente difíciles. La economía de este enrutamiento en niveles funciona bien en la práctica, siempre que el enrutador esté construido cuidadosamente y la tasa de mala clasificación sea medida en lugar de asumida.

Consulta intelligence para puntuación actual contra alternativas; leaderboard para comparaciones cara a cara; /benchmarks/languages para el desglose multilingüe; /benchmarks/speed para mediciones de latencia en regiones UE.

Conclusión

Un modelo de texto de peso medio-pesado capaz de la generación Qwen3, alojado en infraestructura francesa. Qwen3 32B es una opción predeterminada sensata para equipos europeos que necesitan calidad de razonamiento real sin el costo de un modelo insignia, y donde la historia de residencia tiene que resistir el escrutinio de adquisiciones.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

qwen3-32b — illustration 2
Última prueba automática
27 may 2026 · 21:44 UTC · Benchmark de velocidad
Latencia P50
412 ms
Latencia P95
439 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026