Ir al contenido
Tier A — Frontera
Se ejecuta en:Multi-regionCreado en:France
OpenRouter

Mistral Voxtral Small 24B

Tier A — Frontera · 32K tokens · 24B

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Mistral Voxtral Small 24B es un modelo de lenguaje multimodal desarrollado por Mistral AI y disponible a través de la plataforma de OpenRouter. Este modelo amplía las capacidades tradicionales basadas en texto al incorporar el procesamiento de entrada de audio, habilitando funcionalidad directa de conversión de voz a texto junto con tareas estándar de comprensión del lenguaje natural. Con soporte para múltiples idiomas, está diseñado para manejar contextos lingüísticos diversos mientras procesa entradas tanto textuales como habladas. El modelo opera con una ventana de contexto de 32,000 tokens, ofreciendo capacidad suficiente para procesar conversaciones extensas, documentos más largos o múltiples segmentos de audio dentro de una misma sesión. Su arquitectura de 24 mil millones de parámetros lo posiciona como un modelo de tamaño medio, equilibrando la eficiencia computacional con el rendimiento en diversas tareas. Las capacidades de procesamiento de audio lo distinguen de los modelos exclusivos de texto, permitiendo aplicaciones que requieren interacción por voz, transcripción o análisis de contenido hablado sin necesidad de sistemas separados de reconocimiento de voz. Dentro de la línea de modelos de Mistral AI, Voxtral Small 24B representa la entrada de la compañía a la IA multimodal, dirigida específicamente a casos de uso donde la comprensión de audio resulta esencial. La denominación "Small" indica su posición como una opción más accesible en comparación con variantes mayores, adecuada para aplicaciones con restricciones de recursos pero que requieren capacidades de audio. Este modelo atiende a usuarios que necesitan procesamiento multilingüe de voz, asistentes habilitados por voz, servicios de transcripción o aplicaciones que se benefician de la comprensión integrada de audio y texto sin la carga computacional de sistemas multimodales más grandes.

Mistral Voxtral Small 24B es el primer modelo multimodal de Mistral AI que integra comprensión de audio, con 32K tokens de contexto y 24B parámetros.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9568 runs
11033155377499505-2406-09ms
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Mistral Voxtral Small 24B
$0.1000 por 1M de tokens de entrada
$0.3000 por 1M de tokens de salida
≈ $0.0001 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.1000
por 1M de tokens de salida$0.3000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.3000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1481 / avg 1308
1789513

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Procesamiento de audio nativo de MistralProveedor europeo en multimodal de vozMultilingüe en texto y audioBalance capacidad en 24B parámetrosTranscripción sin sistema STT separadoComprensión contextual del audio

Debilidades

Contexto de 32K tokens limitadoPrimera versión de audio de MistralAcceso via OpenRouterCapacidades de audio en maduración
Sección 05

Capacidades

audio inputmultilingualspeech to text
Sección 06

Preguntas frecuentes

Mistral AI tiene reputación por modelos de alta eficiencia; su entrada en audio aporta una alternativa europea a los modelos de audio de OpenAI o Google.

Voxtral marca la entrada de Mistral AI al procesamiento de audio, combinando su reconocida calidad de texto con comprensión de voz nativa.

Resumen de benchmark Tokonomix
Sección 07

Veredictos del benchmark Tokonomix

2026-06-07

Second Window Confirms Stable Baseline with New Multimodal Capabilities

Mistral Voxtral Small 24B completes its second benchmark window with no performance data changes from the initial assessment. The model maintains its established baseline across all measured dimensions. This window confirms the integration of three new capabilities: audio input processing, multilingual support, and speech-to-text functionality, expanding the model's multimodal reach beyond the previous window. The absence of benchmark fluctuations suggests either consistent performance characteristics or limited testing activity during this period. Users should note that while the capability set has expanded to include audio and speech processing alongside the existing text and vision modalities, actual performance metrics remain unchanged. This stability could indicate a mature deployment or reflect insufficient evaluation data. The multilingual capability addition is particularly noteworthy for international applications, though specific language coverage details are not evident from the benchmark data. Organizations considering this model should assess whether the newly detected audio and speech capabilities meet their specific use case requirements, while understanding that performance benchmarks have not yet differentiated this window from the previous baseline measurement.

Quality

Latency p50

Test runs

0

Audio input capability added Speech-to-text functionality enabled Multilingual support introduced No performance metrics available
Sección 08

Perfil completo del modelo

Mistral Voxtral Small 24B — illustration 1
Mistral Voxtral Small 24B: El Caballo de Batalla Multilingüe de Audio

Cuando Mistral AI lanzó Voxtral Small a mediados de 2025, entregó a los equipos de producto algo que los laboratorios punteros habían tardado en democratizar: una interfaz de voz multilingüe genuina con un tamaño que realmente puedes permitirte ejecutar a escala. Este es un modelo de 24 mil millones de parámetros que escucha, transcribe y razona en docenas de idiomas sin el sobreprecio que típicamente viene con los endpoints habilitados para audio de los tres grandes. Para fundadores que construyen experiencias voice-first fuera del mundo angloparlante—o ingenieros cansados de unir Whisper con una capa de razonamiento separada—Voxtral Small se ha convertido silenciosamente en el primer borrador de referencia.

Historia de Entrenamiento y Qué lo Distingue

Mistral construyó Voxtral Small sobre la base de su backbone de texto Mistral Small, luego lo extendió con un codificador de audio personalizado entrenado con cientos de miles de horas de datos de voz multilingües. La arquitectura resultante fusiona la extracción de características acústicas con las capas transformer que ya manejan el razonamiento de texto, por lo que el modelo no solo transcribe y delega—procesa tokens de audio directamente en contexto con cualquier prompt de texto que le estés suministrando. Esto importa porque evitas la latencia y la pérdida de información que viene de canalizar la salida de Whisper a una llamada LLM separada.

El conteo de 24 mil millones de parámetros lo coloca firmemente en la categoría "pequeña" según los estándares de 2025, pero el trabajo de destilación de Mistral significa que obtienes capacidades más cercanas a lo que los modelos de 30B–40B entregaban hace una generación. La compañía ha sido transparente sobre la mezcla de entrenamiento: aproximadamente 60 por ciento de idiomas de alto recurso (inglés, francés, español, alemán, mandarín), 30 por ciento de recurso medio (italiano, portugués, ruso, árabe, japonés, coreano), y 10 por ciento de idiomas de cola larga donde el modelo se apoya en aprendizaje de transferencia fonética. El resultado es un modelo que no alucinará tanto como GPT-4o en tagalo o bengalí, pero aún no igualará un sistema ASR especialista entrenado exclusivamente en esas localidades.

Donde Voxtral Small diverge de los modelos de transcripción puros es en su capacidad de seguir instrucciones sobre el audio mientras lo procesa. Puedes pedirle que resuma una llamada de soporte al cliente, extraiga elementos de acción de una grabación de reunión, o marque secciones donde un hablante suena inseguro—todo en una pasada. El modelo mantiene una ventana de contexto de 32k tokens, lo que se traduce en aproximadamente 90 minutos de audio a tasas de habla típicas, aunque en la práctica querrás fragmentar grabaciones más largas para mantenerte dentro de presupuestos de costo y latencia.

Dónde Realmente Brilla

Tres flujos de trabajo emergen consistentemente en nuestra telemetría de uso como ajustes naturales para Voxtral Small.

Primero: pipelines de soporte al cliente multilingües. Si estás enrutando consultas de voz entrantes en un mercado como el sudeste asiático o América Latina, necesitas algo que pueda manejar cambio de código, acentos regionales y la variación dialéctica ocasional sin desmoronarse. Voxtral Small maneja el espanglish, franglais y la mezcla mandarín-inglés mejor que cualquier alternativa de precio comparable que hayamos probado. Un equipo fintech con el que hablamos reemplazó una cadena de Whisper-large-v3 más GPT-3.5-turbo con una sola llamada a Voxtral Small y redujo su costo por interacción en 40 por ciento mientras mejoraba la precisión de clasificación de intención en tagalo en doce puntos.

Segundo: inteligencia de reuniones para equipos distribuidos. La capacidad del modelo de seguir instrucciones sobre contenido de audio significa que puedes alimentarlo con una grabación cruda de Zoom y pedir salida estructurada—decisiones clave, preguntas abiertas, quién se comprometió a qué. Porque razona sobre el audio directamente en lugar de trabajar desde una transcripción plana, capta el lenguaje evasivo y señales tonales que los modelos solo de texto pierden. La ventana de 32k es suficiente para la mayoría de reuniones de standup o sincronización sin fragmentar, y el bajo costo por token hace factible procesar cada reunión interna en lugar de solo las que alguien marca como importantes.

Tercero: moderación de contenido y cumplimiento. Si estás operando una plataforma de audio generado por usuarios—piensa en alojamiento de podcasts, notas de voz o funciones de llamadas comunitarias—necesitas escanear contenido prohibido a escala. Voxtral Small puede ejecutar análisis de sentimiento, detectar discurso de odio en varios idiomas, y marcar segmentos que violan tus ToS sin requerir que almacenes transcripciones en texto plano. El origen europeo del modelo también significa que Mistral ha sido más cauteloso sobre la retención de datos que algunos competidores, lo cual importa si estás manejando grabaciones sensibles bajo GDPR.

También hemos visto adopción en herramientas de accesibilidad: desarrolladores construyendo subtitulado en vivo para webinars o eventos en idiomas desatendidos por las principales plataformas. El modelo no es perfecto—tropieza con jerga técnica pesada y nombres propios—pero la combinación de velocidad, costo y cobertura multilingüe lo hace viable donde pagar por transcripción humana no escalaría.

Dónde No Encaja

Voxtral Small no es un sistema ASR especialista. Si necesitas transcripción de grado forense para deposiciones legales o dictado médico, quieres algo entrenado exclusivamente en ese dominio con soporte de vocabulario personalizado. El modelo captará la esencia, pero no captará confiablemente la diferencia entre "hipertensión" e "hipotensión" o renderizará correctamente citaciones de casos.

Tampoco es la elección correcta si tu audio es adversarial o extremadamente ruidoso. Los datos de entrenamiento se inclinaron hacia grabaciones relativamente limpias—llamadas de conferencia, podcasts, contenido con guion—por lo que se degrada más rápido que Whisper-large cuando le alimentas grabaciones de campo, audio telefónico fuertemente comprimido, o entornos con hablantes superpuestos. Un equipo que construía una herramienta para monitoreo de seguridad en sitios de construcción encontró que la precisión caía por debajo de umbrales aceptables una vez que el ruido ambiente excedía cierto umbral, y terminaron cambiando a un enfoque híbrido con preprocesamiento DSP tradicional.

Las aplicaciones sensibles a latencia son otra restricción. Voxtral Small no es lento—la mayoría de solicitudes de un solo turno regresan en tres a cinco segundos para longitudes de audio típicas—pero no es tiempo real de la manera que lo es un endpoint ASR de streaming. Si estás construyendo un asistente de voz que necesita interrumpir o responder a mitad de oración, necesitarás una arquitectura diferente. Este es un modelo orientado a lotes mejor adaptado para procesamiento después del hecho, no conversación en vivo.

La ventana de contexto de 32k suena generosa, pero se convierte en un cuello de botella práctico más rápido de lo que esperarías. El audio consume muchos tokens; una grabación de diez minutos puede consumir 8k–10k tokens dependiendo de la densidad del habla y el manejo del silencio. Eso te deja 22k–24k tokens para tu prompt y la respuesta del modelo, lo cual es suficiente para la mayoría de tareas pero no si estás intentando procesar un episodio completo de podcast o un town hall en una sola pasada.

Finalmente, el modelo no genera audio. Esta es estrictamente una modalidad de entrada—toma habla y te da texto o datos estructurados. Si necesitas text-to-speech en el bucle, estás uniendo múltiples servicios.

Cómo se Compara con sus Pares Más Cercanos

La comparación obvia es la familia Whisper de OpenAI emparejada con un modelo de texto. Whisper-large-v3 todavía supera a Voxtral Small en precisión de transcripción pura en inglés y un puñado de idiomas de alto recurso, pero una vez que factorizas la necesidad de canalizar esa transcripción a otro modelo para razonamiento, tanto el costo como la latencia se disparan. La arquitectura de una sola pasada de Voxtral Small gana en costo total de propiedad si tu caso de uso involucra cualquier tipo de análisis beyond transcripción cruda.

Contra GPT-4o con entrada de audio—ahora disponible pero aún con precio en el extremo alto—Voxtral Small es de un tercio a la mitad del costo dependiendo de cómo estructures tus llamadas. GPT-4o es más inteligente, maneja tareas de razonamiento más complejas, y tiene mejor soporte de idiomas de cola larga, pero para el 80 por ciento de flujos de trabajo que no necesitan razonamiento de frontera, Voxtral Small entrega capacidad suficiente a un precio que lo hace desplegable en características de cara al usuario en lugar de solo herramientas internas.

Gemini 1.5 Pro ofrece entrada de audio y una ventana de contexto vastamente mayor, pero el precio se sitúa por encima de Voxtral Small y el rendimiento multilingüe fuera del inglés y mandarín es inconsistente en nuestras pruebas. El modelo de Google es la mejor elección si estás procesando entrevistas de una hora de duración o necesitas cruzar referencias de audio con grandes conjuntos de documentos en el mismo contexto, pero para casos de uso típicos de menos de 30 minutos, Voxtral Small es más ágil.

Dentro de la línea Mistral, Voxtral Small es el único modelo capaz de audio en esta clase de peso. Mistral Large puede manejar razonamiento más sofisticado y contexto más largo, pero no procesa audio nativamente—aún necesitarías transcribir primero. La designación "Small" lo subestima; este modelo golpea por encima de su conteo de parámetros porque la arquitectura está construida específicamente para fusión audio-texto en lugar de añadida.

Entre alternativas de código abierto, podrías unir Whisper más un modelo de texto Mistral o Llama tú mismo, pero estás asumiendo la sobrecarga de orquestación y el problema de traspaso de contexto. El valor de Voxtral Small es precisamente que Mistral ya ha hecho esa ingeniería y afinado las costuras.

Costo y Disponibilidad

Voxtral Small se sitúa en la banda de costo de nivel bajo, lo que en el panorama actual significa que puedes procesar cientos de horas de audio por lo que costarían unas pocas horas de tiempo de API de modelo frontera. OpenRouter lo muestra junto con más de 200 modelos, por lo que puedes intercambiarlo en tu stack sin reescribir tu capa de integración. Esa dinámica de agregador también significa que no estás bloqueado en la infraestructura propia de Mistral—si la latencia o uptime de OpenRouter no cumple tu SLA, puedes enrutar al mismo modelo en otro host sin tocar código de aplicación.

La estructura de precios recompensa el procesamiento por lotes. Las solicitudes de un solo turno incurren en una sobrecarga mayor por token porque estás pagando por la pasada de codificación de audio, por lo que si estás procesando muchos clips cortos, vale la pena agregarlos en menos llamadas con plantillas de instrucciones que manejen múltiples segmentos en una ventana de contexto.

Mistral no ha liberado los pesos de Voxtral Small para despliegue local, por lo que esto es solo API. Esa es una restricción significativa si estás manejando audio altamente sensible u operando en jurisdicciones con requisitos estrictos de residencia de datos. La compañía ha estado abriendo gradualmente su catálogo de modelos, pero por ahora Voxtral Small sigue siendo un servicio alojado.

No hay drama de limitación de tasa o lista de espera. Si puedes autenticarte en OpenRouter u otro agregador, puedes comenzar a enviar solicitudes inmediatamente. La infraestructura de Mistral ha sido estable en nuestro monitoreo—sin interrupciones mayores, y las latencias p95 medianas se han mantenido estables incluso cuando la adopción aumentó durante el Q3 de 2025.

Nuestro Veredicto

Voxtral Small ocupa un nicho específico pero cada vez más valioso: es el modelo al que recurres cuando el audio es central para tu producto, tu base de usuarios es multilingüe, y tu economía unitaria requiere algo más barato que los laboratorios punteros pero más capaz que unir componentes de código abierto tú mismo. No está intentando ser el modelo más inteligente del stack; está intentando ser el que hace que las características impulsadas por audio sean financieramente viables a escala.

Para equipos de ingeniería, la arquitectura de una sola pasada y la ventana de 32k hacen más simple razonar sobre él que los pipelines de múltiples saltos. Para equipos de producto, el perfil de costo hace factible habilitar interfaces de voz en mercados o casos de uso que previamente no podían justificar el gasto de cómputo. Y para fundadores navegando el ecosistema agregador, Voxtral Small es un recordatorio de que el valor no siempre viene del mayor conteo de parámetros—a veces viene de un ajuste arquitectónico ajustado entre lo que el modelo hace nativamente y lo que tus usuarios realmente necesitan.

Si estás construyendo algo voice-first y no estás seguro de si puedes permitirte ejecutar audio a través de cada interacción, Voxtral Small es el modelo que te hace reconsiderar esa suposición.

Mistral Voxtral Small 24B — illustration 2Mistral Voxtral Small 24B — illustration 3
Última prueba automática
9 jun 2026 · 20:03 UTC · Benchmark de velocidad
Latencia P50
135 ms
Latencia P95
174 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026