¿Puede transcribir y responder en el mismo idioma del audio?

Sí, el soporte multilingüe abarca tanto la comprensión del audio entrante como la respuesta en el idioma apropiado.

¿Cuándo usar Voxtral en lugar de Mistral de texto puro?

Para aplicaciones donde el audio es la entrada principal o donde se quiere evitar un paso de transcripción previo.

¿Se puede usar para entrevistas o podcasts?

Sí, la comprensión de audio lo hace apto para análisis de contenido hablado, aunque para producción se recomienda evaluar la calidad.

Tier A — Frontera

Se ejecuta en:Multi-regionCreado en:France

OpenRouter

Mistral Voxtral Small 24B

Tier A — Frontera · 32K tokens · 24B

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 24 de mayo de 2026·Última revisión 24 de mayo de 2026

Mistral Voxtral Small 24B es un modelo de lenguaje multimodal desarrollado por Mistral AI y disponible a través de la plataforma de OpenRouter. Este modelo amplía las capacidades tradicionales basadas en texto al incorporar el procesamiento de entrada de audio, habilitando funcionalidad directa de conversión de voz a texto junto con tareas estándar de comprensión del lenguaje natural. Con soporte para múltiples idiomas, está diseñado para manejar contextos lingüísticos diversos mientras procesa entradas tanto textuales como habladas. El modelo opera con una ventana de contexto de 32,000 tokens, ofreciendo capacidad suficiente para procesar conversaciones extensas, documentos más largos o múltiples segmentos de audio dentro de una misma sesión. Su arquitectura de 24 mil millones de parámetros lo posiciona como un modelo de tamaño medio, equilibrando la eficiencia computacional con el rendimiento en diversas tareas. Las capacidades de procesamiento de audio lo distinguen de los modelos exclusivos de texto, permitiendo aplicaciones que requieren interacción por voz, transcripción o análisis de contenido hablado sin necesidad de sistemas separados de reconocimiento de voz. Dentro de la línea de modelos de Mistral AI, Voxtral Small 24B representa la entrada de la compañía a la IA multimodal, dirigida específicamente a casos de uso donde la comprensión de audio resulta esencial. La denominación "Small" indica su posición como una opción más accesible en comparación con variantes mayores, adecuada para aplicaciones con restricciones de recursos pero que requieren capacidades de audio. Este modelo atiende a usuarios que necesitan procesamiento multilingüe de voz, asistentes habilitados por voz, servicios de transcripción o aplicaciones que se benefician de la comprensión integrada de audio y texto sin la carga computacional de sistemas multimodales más grandes.

Prueba Mistral Voxtral Small 24B con tus propias preguntas

Mistral Voxtral Small 24B es el primer modelo multimodal de Mistral AI que integra comprensión de audio, con 32K tokens de contexto y 24B parámetros.
— Resumen de benchmark Tokonomix

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95120 runs

Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Mistral Voxtral Small 24B

$0.1000 por 1M de tokens de entrada

$0.3000 por 1M de tokens de salida

≈ $0.0001 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.1000

por 1M de tokens de salida$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-282026-07-19

Input

Output

Price change

⟳ synced weekly

Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)952 / avg 923

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Procesamiento de audio nativo de MistralProveedor europeo en multimodal de vozMultilingüe en texto y audioBalance capacidad en 24B parámetrosTranscripción sin sistema STT separadoComprensión contextual del audio

Debilidades

Contexto de 32K tokens limitadoPrimera versión de audio de MistralAcceso via OpenRouterCapacidades de audio en maduración

Sección 05

Capacidades

audio inputmultilingualspeech to text

Sección 06

Preguntas frecuentes

Mistral AI tiene reputación por modelos de alta eficiencia; su entrada en audio aporta una alternativa europea a los modelos de audio de OpenAI o Google.

Voxtral marca la entrada de Mistral AI al procesamiento de audio, combinando su reconocida calidad de texto con comprensión de voz nativa.
— Resumen de benchmark Tokonomix

Sección 07

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 08

Veredictos del benchmark Tokonomix

● 2026-07-19

Audio Capabilities Confirmed, No Performance Data Available for Evaluation

Mistral Voxtral Small 24B continues to show newly added audio input, multilingual, and speech-to-text capabilities that were detected in the previous benchmark window. However, comprehensive performance evaluation remains impossible as no benchmark scores are available in either the current or previous windows. The model's actual capabilities across standard benchmarks like MMLU, reasoning tasks, or coding challenges cannot be assessed. Without concrete performance metrics, users cannot make informed comparisons against other models in the 24B parameter class or evaluate whether this model meets their specific use case requirements. The presence of audio input functionality suggests potential applications in voice-based interactions and multilingual speech processing, but the quality and accuracy of these features remain unquantified. Organizations considering this model should conduct their own targeted testing to determine if it meets their performance standards, as public benchmark data does not provide sufficient insight into real-world effectiveness across language understanding, reasoning, or specialized tasks.

Quality

—

Latency p50

—

Test runs

✓ Audio input capability confirmed✓ Multilingual support available✗ No benchmark scores available✗ Performance remains unquantified

Sección 09

Perfil completo del modelo

Mistral Voxtral Small 24B: El Caballo de Batalla Multilingüe de Audio

Cuando Mistral AI lanzó Voxtral Small a mediados de 2025, entregó a los equipos de producto algo que los laboratorios punteros habían tardado en democratizar: una interfaz de voz multilingüe genuina con un tamaño que realmente puedes permitirte ejecutar a escala. Este es un modelo de 24 mil millones de parámetros que escucha, transcribe y razona en docenas de idiomas sin el sobreprecio que típicamente viene con los endpoints habilitados para audio de los tres grandes. Para fundadores que construyen experiencias voice-first fuera del mundo angloparlante—o ingenieros cansados de unir Whisper con una capa de razonamiento separada—Voxtral Small se ha convertido silenciosamente en el primer borrador de referencia.

Historia de Entrenamiento y Qué lo Distingue

Mistral construyó Voxtral Small sobre la base de su backbone de texto Mistral Small, luego lo extendió con un codificador de audio personalizado entrenado con cientos de miles de horas de datos de voz multilingües. La arquitectura resultante fusiona la extracción de características acústicas con las capas transformer que ya manejan el razonamiento de texto, por lo que el modelo no solo transcribe y delega—procesa tokens de audio directamente en contexto con cualquier prompt de texto que le estés suministrando. Esto importa porque evitas la latencia y la pérdida de información que viene de canalizar la salida de Whisper a una llamada LLM separada.

El conteo de 24 mil millones de parámetros lo coloca firmemente en la categoría "pequeña" según los estándares de 2025, pero el trabajo de destilación de Mistral significa que obtienes capacidades más cercanas a lo que los modelos de 30B–40B entregaban hace una generación. La compañía ha sido transparente sobre la mezcla de entrenamiento: aproximadamente 60 por ciento de idiomas de alto recurso (inglés, francés, español, alemán, mandarín), 30 por ciento de recurso medio (italiano, portugués, ruso, árabe, japonés, coreano), y 10 por ciento de idiomas de cola larga donde el modelo se apoya en aprendizaje de transferencia fonética. El resultado es un modelo que no alucinará tanto como GPT-4o en tagalo o bengalí, pero aún no igualará un sistema ASR especialista entrenado exclusivamente en esas localidades.

Donde Voxtral Small diverge de los modelos de transcripción puros es en su capacidad de seguir instrucciones sobre el audio mientras lo procesa. Puedes pedirle que resuma una llamada de soporte al cliente, extraiga elementos de acción de una grabación de reunión, o marque secciones donde un hablante suena inseguro—todo en una pasada. El modelo mantiene una ventana de contexto de 32k tokens, lo que se traduce en aproximadamente 90 minutos de audio a tasas de habla típicas, aunque en la práctica querrás fragmentar grabaciones más largas para mantenerte dentro de presupuestos de costo y latencia.

Dónde Realmente Brilla

Tres flujos de trabajo emergen consistentemente en nuestra telemetría de uso como ajustes naturales para Voxtral Small.

Primero: pipelines de soporte al cliente multilingües. Si estás enrutando consultas de voz entrantes en un mercado como el sudeste asiático o América Latina, necesitas algo que pueda manejar cambio de código, acentos regionales y la variación dialéctica ocasional sin desmoronarse. Voxtral Small maneja el espanglish, franglais y la mezcla mandarín-inglés mejor que cualquier alternativa de precio comparable que hayamos probado. Un equipo fintech con el que hablamos reemplazó una cadena de Whisper-large-v3 más GPT-3.5-turbo con una sola llamada a Voxtral Small y redujo su costo por interacción en 40 por ciento mientras mejoraba la precisión de clasificación de intención en tagalo en doce puntos.

Segundo: inteligencia de reuniones para equipos distribuidos. La capacidad del modelo de seguir instrucciones sobre contenido de audio significa que puedes alimentarlo con una grabación cruda de Zoom y pedir salida estructurada—decisiones clave, preguntas abiertas, quién se comprometió a qué. Porque razona sobre el audio directamente en lugar de trabajar desde una transcripción plana, capta el lenguaje evasivo y señales tonales que los modelos solo de texto pierden. La ventana de 32k es suficiente para la mayoría de reuniones de standup o sincronización sin fragmentar, y el bajo costo por token hace factible procesar cada reunión interna en lugar de solo las que alguien marca como importantes.

Tercero: moderación de contenido y cumplimiento. Si estás operando una plataforma de audio generado por usuarios—piensa en alojamiento de podcasts, notas de voz o funciones de llamadas comunitarias—necesitas escanear contenido prohibido a escala. Voxtral Small puede ejecutar análisis de sentimiento, detectar discurso de odio en varios idiomas, y marcar segmentos que violan tus ToS sin requerir que almacenes transcripciones en texto plano. El origen europeo del modelo también significa que Mistral ha sido más cauteloso sobre la retención de datos que algunos competidores, lo cual importa si estás manejando grabaciones sensibles bajo GDPR.

También hemos visto adopción en herramientas de accesibilidad: desarrolladores construyendo subtitulado en vivo para webinars o eventos en idiomas desatendidos por las principales plataformas. El modelo no es perfecto—tropieza con jerga técnica pesada y nombres propios—pero la combinación de velocidad, costo y cobertura multilingüe lo hace viable donde pagar por transcripción humana no escalaría.

Dónde No Encaja

Voxtral Small no es un sistema ASR especialista. Si necesitas transcripción de grado forense para deposiciones legales o dictado médico, quieres algo entrenado exclusivamente en ese dominio con soporte de vocabulario personalizado. El modelo captará la esencia, pero no captará confiablemente la diferencia entre "hipertensión" e "hipotensión" o renderizará correctamente citaciones de casos.

Tampoco es la elección correcta si tu audio es adversarial o extremadamente ruidoso. Los datos de entrenamiento se inclinaron hacia grabaciones relativamente limpias—llamadas de conferencia, podcasts, contenido con guion—por lo que se degrada más rápido que Whisper-large cuando le alimentas grabaciones de campo, audio telefónico fuertemente comprimido, o entornos con hablantes superpuestos. Un equipo que construía una herramienta para monitoreo de seguridad en sitios de construcción encontró que la precisión caía por debajo de umbrales aceptables una vez que el ruido ambiente excedía cierto umbral, y terminaron cambiando a un enfoque híbrido con preprocesamiento DSP tradicional.

Las aplicaciones sensibles a latencia son otra restricción. Voxtral Small no es lento—la mayoría de solicitudes de un solo turno regresan en tres a cinco segundos para longitudes de audio típicas—pero no es tiempo real de la manera que lo es un endpoint ASR de streaming. Si estás construyendo un asistente de voz que necesita interrumpir o responder a mitad de oración, necesitarás una arquitectura diferente. Este es un modelo orientado a lotes mejor adaptado para procesamiento después del hecho, no conversación en vivo.

La ventana de contexto de 32k suena generosa, pero se convierte en un cuello de botella práctico más rápido de lo que esperarías. El audio consume muchos tokens; una grabación de diez minutos puede consumir 8k–10k tokens dependiendo de la densidad del habla y el manejo del silencio. Eso te deja 22k–24k tokens para tu prompt y la respuesta del modelo, lo cual es suficiente para la mayoría de tareas pero no si estás intentando procesar un episodio completo de podcast o un town hall en una sola pasada.

Finalmente, el modelo no genera audio. Esta es estrictamente una modalidad de entrada—toma habla y te da texto o datos estructurados. Si necesitas text-to-speech en el bucle, estás uniendo múltiples servicios.

Cómo se Compara con sus Pares Más Cercanos

La comparación obvia es la familia Whisper de OpenAI emparejada con un modelo de texto. Whisper-large-v3 todavía supera a Voxtral Small en precisión de transcripción pura en inglés y un puñado de idiomas de alto recurso, pero una vez que factorizas la necesidad de canalizar esa transcripción a otro modelo para razonamiento, tanto el costo como la latencia se disparan. La arquitectura de una sola pasada de Voxtral Small gana en costo total de propiedad si tu caso de uso involucra cualquier tipo de análisis beyond transcripción cruda.

Contra GPT-4o con entrada de audio—ahora disponible pero aún con precio en el extremo alto—Voxtral Small es de un tercio a la mitad del costo dependiendo de cómo estructures tus llamadas. GPT-4o es más inteligente, maneja tareas de razonamiento más complejas, y tiene mejor soporte de idiomas de cola larga, pero para el 80 por ciento de flujos de trabajo que no necesitan razonamiento de frontera, Voxtral Small entrega capacidad suficiente a un precio que lo hace desplegable en características de cara al usuario en lugar de solo herramientas internas.

Gemini 1.5 Pro ofrece entrada de audio y una ventana de contexto vastamente mayor, pero el precio se sitúa por encima de Voxtral Small y el rendimiento multilingüe fuera del inglés y mandarín es inconsistente en nuestras pruebas. El modelo de Google es la mejor elección si estás procesando entrevistas de una hora de duración o necesitas cruzar referencias de audio con grandes conjuntos de documentos en el mismo contexto, pero para casos de uso típicos de menos de 30 minutos, Voxtral Small es más ágil.

Dentro de la línea Mistral, Voxtral Small es el único modelo capaz de audio en esta clase de peso. Mistral Large puede manejar razonamiento más sofisticado y contexto más largo, pero no procesa audio nativamente—aún necesitarías transcribir primero. La designación "Small" lo subestima; este modelo golpea por encima de su conteo de parámetros porque la arquitectura está construida específicamente para fusión audio-texto en lugar de añadida.

Entre alternativas de código abierto, podrías unir Whisper más un modelo de texto Mistral o Llama tú mismo, pero estás asumiendo la sobrecarga de orquestación y el problema de traspaso de contexto. El valor de Voxtral Small es precisamente que Mistral ya ha hecho esa ingeniería y afinado las costuras.

Costo y Disponibilidad

Voxtral Small se sitúa en la banda de costo de nivel bajo, lo que en el panorama actual significa que puedes procesar cientos de horas de audio por lo que costarían unas pocas horas de tiempo de API de modelo frontera. OpenRouter lo muestra junto con más de 200 modelos, por lo que puedes intercambiarlo en tu stack sin reescribir tu capa de integración. Esa dinámica de agregador también significa que no estás bloqueado en la infraestructura propia de Mistral—si la latencia o uptime de OpenRouter no cumple tu SLA, puedes enrutar al mismo modelo en otro host sin tocar código de aplicación.

La estructura de precios recompensa el procesamiento por lotes. Las solicitudes de un solo turno incurren en una sobrecarga mayor por token porque estás pagando por la pasada de codificación de audio, por lo que si estás procesando muchos clips cortos, vale la pena agregarlos en menos llamadas con plantillas de instrucciones que manejen múltiples segmentos en una ventana de contexto.

Mistral no ha liberado los pesos de Voxtral Small para despliegue local, por lo que esto es solo API. Esa es una restricción significativa si estás manejando audio altamente sensible u operando en jurisdicciones con requisitos estrictos de residencia de datos. La compañía ha estado abriendo gradualmente su catálogo de modelos, pero por ahora Voxtral Small sigue siendo un servicio alojado.

No hay drama de limitación de tasa o lista de espera. Si puedes autenticarte en OpenRouter u otro agregador, puedes comenzar a enviar solicitudes inmediatamente. La infraestructura de Mistral ha sido estable en nuestro monitoreo—sin interrupciones mayores, y las latencias p95 medianas se han mantenido estables incluso cuando la adopción aumentó durante el Q3 de 2025.

Nuestro Veredicto

Voxtral Small ocupa un nicho específico pero cada vez más valioso: es el modelo al que recurres cuando el audio es central para tu producto, tu base de usuarios es multilingüe, y tu economía unitaria requiere algo más barato que los laboratorios punteros pero más capaz que unir componentes de código abierto tú mismo. No está intentando ser el modelo más inteligente del stack; está intentando ser el que hace que las características impulsadas por audio sean financieramente viables a escala.

Para equipos de ingeniería, la arquitectura de una sola pasada y la ventana de 32k hacen más simple razonar sobre él que los pipelines de múltiples saltos. Para equipos de producto, el perfil de costo hace factible habilitar interfaces de voz en mercados o casos de uso que previamente no podían justificar el gasto de cómputo. Y para fundadores navegando el ecosistema agregador, Voxtral Small es un recordatorio de que el valor no siempre viene del mayor conteo de parámetros—a veces viene de un ajuste arquitectónico ajustado entre lo que el modelo hace nativamente y lo que tus usuarios realmente necesitan.

Si estás construyendo algo voice-first y no estás seguro de si puedes permitirte ejecutar audio a través de cada interacción, Voxtral Small es el modelo que te hace reconsiderar esa suposición.

Última prueba automática

25 jul 2026 · 02:01 UTC · Benchmark de velocidad

Latencia P50

210 ms

Latencia P95

215 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026