¿Puede transcribir audio de entrada?

Sí, procesa audio como entrada y puede generar respuestas en texto o voz según la configuración.

¿Qué tipo de voces genera?

Voces sintéticas naturales; las opciones de voz específicas están documentadas en la API de OpenAI.

¿Es adecuado para chatbots de voz básicos?

Sí, para asistentes de voz donde la velocidad y el costo son más importantes que la máxima calidad de síntesis.

Se ejecuta en:USCreado en:United States

Archivado

Este modelo ha sido descontinuado por el proveedor. Los datos históricos se conservan.

Ya no está disponible desde el 24 de mayo de 2026.

OpenAI

gpt-4o-mini-audio-preview-2024-12-17

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-4o-mini-audio-preview-2024-12-17 es un modelo de lenguaje multimodal desarrollado por OpenAI que extiende las capacidades de la serie GPT-4o mini para incluir procesamiento de audio. Este modelo representa un lanzamiento experimental de vista previa que combina generación de texto con comprensión de audio y potencialmente capacidades de salida de audio. Está diseñado para aplicaciones que requieren tanto procesamiento de lenguaje natural como interacción de audio, permitiendo a los desarrolladores construir interfaces conversacionales que pueden procesar entrada hablada junto con interacciones tradicionales basadas en texto. El modelo mantiene las capacidades principales de generación de texto esperadas de la familia GPT-4o mini mientras incorpora modalidades de audio. Como lanzamiento de vista previa, sirve como campo de prueba para las tecnologías multimodales de OpenAI, permitiendo a los desarrolladores experimentar con aplicaciones habilitadas para audio antes del despliegue comercial más amplio. El tamaño específico de la ventana de contexto no ha sido divulgado públicamente, aunque se espera que se alinee con otros modelos de la serie GPT-4o. El modelo procesa prompts de texto estándar y puede manejar entradas de audio, haciéndolo adecuado para asistentes de voz, servicios de transcripción, herramientas de accesibilidad y otras aplicaciones donde la comprensión de audio mejora la experiencia del usuario. Dentro de la línea de modelos de OpenAI, esta variante ocupa una posición especializada como versión experimental con capacidad de audio de la arquitectura ligera GPT-4o mini. Ofrece una alternativa más eficiente en recursos al modelo completo GPT-4o mientras proporciona funcionalidad de audio que los modelos estándar de solo texto carecen. La designación de vista previa indica desarrollo continuo, con características y rendimiento sujetos a cambios basados en la retroalimentación de usuarios y refinamiento técnico.

GPT-4o Mini Audio Preview combina la eficiencia del modelo mini con capacidades de audio, ideal para aplicaciones de voz con recursos limitados.
— Resumen de benchmark Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-4o-mini-audio-preview-2024-12-17

$0.1500 por 1M de tokens de entrada

$0.6000 por 1M de tokens de salida

≈ $0.0002 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.1500

por 1M de tokens de salida$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.6000

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Audio integrado en modelo eficienteMenor costo que GPT-4o Audio estándarAlta velocidad de respuesta en vozConversación de voz básica funcionalAccesibilidad a menor costoFácil integración en apps de voz

Debilidades

Preview: no para producción críticaCalidad de audio inferior al modelo estándarRazonamiento reducido por ser miniContexto no documentado

Sección 03

Preguntas frecuentes

Cuando el presupuesto de inferencia es limitado y la calidad de voz no necesita ser máxima.

La variante mini del audio preview permite integrar voz en aplicaciones donde el costo computacional del modelo estándar sería prohibitivo.
— Resumen de benchmark Tokonomix

Sección 04

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

● 2026-05-24

Línea base establecida para el modelo multimodal audio-preview

Este benchmark establece la línea base inicial de desempeño para gpt-4o-mini-audio-preview-2024-12-17, el modelo multimodal de OpenAI con capacidades de audio. El modelo demuestra un sólido desempeño en razonamiento matemático, alcanzando 85.4% en MATH-500 y 88.0% en GSM8K, lo que indica capacidades consistentes para tareas cuantitativas de resolución de problemas. El desempeño en programación muestra competencia con 72.5% en HumanEval y 79.9% en MBPP, ubicándolo en el rango apto para asistencia en desarrollo. El razonamiento de nivel posgrado obtiene 58.9% en GPQA Diamond, mientras que la comprensión multilingüe alcanza 74.3% en MGSM, lo que sugiere un desempeño razonable en contextos lingüísticos diversos. El modelo logra 86.0% en MMLU, demostrando una amplia cobertura de conocimiento en materias académicas. El seguimiento de instrucciones obtiene 66.0% en IFEval, lo que indica margen de mejora para adherirse con precisión a directivas complejas. Como variante audio-preview, este modelo extiende la serie mini con capacidades multimodales manteniendo la eficiencia computacional. Estas métricas de referencia servirán como punto de comparación para rastrear cambios, regresiones o mejoras de desempeño en futuras ventanas de benchmark. Los usuarios deben considerar estos resultados al evaluar el modelo para tareas matemáticas, de programación y de razonamiento que requieran procesamiento de entrada de audio.

Quality

—

Latency p50

—

Test runs

✓ Razonamiento matemático sólido establecido✓ Base sólida de rendimiento en programación✓ Amplia cobertura de conocimientos confirmada✗ El seguimiento de instrucciones necesita mejorar

Sección 06

Perfil completo del modelo

gpt-4o-mini-audio-preview-2024-12-17: la versión fija de mini-audio de diciembre

gpt-4o-mini-audio-preview-2024-12-17 es la instantánea fechada de diciembre de 2024 de la vista previa pequeña de audio-multimodal. Comparte la misma arquitectura que el alias móvil gpt-4o-mini-audio-preview tal como existía en ese momento, pero congelada para que los despliegues en producción puedan fijarla.

La versión fechada es lo que mantiene predecibles los productos de voz mientras OpenAI continúa iterando en la línea de vista previa.

Qué te aporta fijar una instantánea de mini-audio

Los productos de voz son inusualmente sensibles a las variaciones entre versiones del modelo. Un pequeño cambio en la detección de silencio significa que el agente interrumpe al usuario de manera diferente. Un pequeño cambio en la prosodia significa que los prompts grabados y las respuestas en vivo ya no se sienten como la misma voz. Un pequeño cambio en el lenguaje de rechazo significa que escenarios programados que antes funcionaban ahora terminan en una declinación cortés.

La línea de vista previa de mini-audio ha distribuido múltiples instantáneas a lo largo de 2025, cada una con pequeños cambios de comportamiento. Fijar la versión 2024-12-17 significa:

Renuncias al acceso a las mejoras de manejo de silencios y prosodia que llegaron con la instantánea de junio de 2025 de la línea completa de vista previa de audio (y que se propagaron ampliamente a mini-audio).
Mantienes el comportamiento exacto que tu evaluación de diciembre de 2024 aprobó.

Para despliegues de voz sujetos a control de calidad, ese intercambio generalmente vale la pena.

Qué representa esta instantánea

Para diciembre de 2024, la vista previa de mini-audio había:

Establecido la superficie de API para entrada de audio mediante contenido base64 inline.
Fijado el pequeño conjunto de voces de salida preestablecidas compartidas con la línea completa de vista previa de audio.
Resuelto las regresiones de prosodia más disruptivas de las primeras entregas de la vista previa.

Lo que aún no tiene, en relación con instantáneas posteriores:

Los refinamientos en la detección de fin de silencio que suavizaron el comportamiento de interrupción.
La reducción de la deriva de voz en salidas de audio largas que llegó a mediados de 2025.
El lenguaje de rechazo más conversacional que las instantáneas más recientes incluyen.

Si tu agente de voz pasó el control de calidad a finales de 2024 o principios de 2025, esta es probablemente la instantánea contra la que fue aprobado.

La cuestión de la migración

El camino honesto para abandonar esta instantánea es migrar a una congelación fechada más reciente en la misma línea, evaluada contra tus escenarios. La forma:

Mantén fijada la versión de diciembre en producción mientras evalúas.
Re-ejecuta la suite completa de escenarios de voz contra la instantánea candidata más reciente.
Compara en las dimensiones que importan para tu producto — prosodia, manejo de silencios, comportamiento de rechazo, cobertura de idiomas en tu mezcla de tráfico.
Migra cuando la instantánea más reciente gane en tu evaluación, no en el registro de cambios.

Esta es la misma disciplina de migración que se aplica a cualquier versión fija fechada. Los productos de audio amplifican el costo de equivocarse, por lo que la disciplina vale la pena seguirla más estrictamente aquí que para los modelos de texto.

Dónde falla

Restricciones heredadas del resto de la línea de vista previa de mini-audio.

No es streaming. La vista previa de mini-realtime es el hermano correcto para voz bidireccional en vivo; esta es solicitud/respuesta.

No es un especialista en transcripción. Si el texto de salida a partir de audio de entrada es toda la tarea, la línea dedicada gpt-4o-mini-transcribe cuesta menos por minuto.

No es desplegable fuera de la API de OpenAI. La encuesta de /usecases/local cubre lo que está disponible cuando esa restricción aplica.

No es el nivel correcto para razonamiento difícil en voz. Mini-audio es el modelo pequeño. Si el agente de voz necesita razonamiento de frontera detrás del habla, escala a la vista previa completa de audio.

Cuándo fijar exactamente esta instantánea

Elige gpt-4o-mini-audio-preview-2024-12-17 cuando:

Desplegaste un producto de voz sobre el comportamiento de mini-audio de finales de 2024 y necesitas mantenerlo estable.
Un requisito de cumplimiento o auditoría exige que la versión del modelo esté fijada al nivel de instantánea.
Estás ejecutando una prueba A/B donde el brazo de control debe permanecer constante durante meses de evaluación.

Sáltalo cuando:

Estás empezando de cero en la línea de mini-audio — evalúa la instantánea más reciente en su lugar.
Las mejoras de manejo de silencios y prosodia en instantáneas posteriores han ganado demostrablemente en tu tráfico.
La línea de modelo de audio se gradúa de vista previa a estable — ahí es donde los nuevos proyectos deberían aterrizar.

Notas de despliegue

La misma API de Chat Completions que el resto de la línea de mini-audio. La versión fija de instantánea es puramente una elección de nombre de modelo; la superficie de API es idéntica entre instantáneas.

El formato de entrada de audio, la selección de modalidad de salida mediante el parámetro modalities, y las opciones de voz preestablecida han permanecido constantes entre instantáneas hasta ahora. Los cambios de comportamiento entre instantáneas tratan sobre cómo el modelo maneja el audio, no sobre cómo lo llamas.

La facturación por tokens divide audio de entrada, audio de salida y texto. Los tokens de audio llevan un costo significativamente mayor por unidad de información que los tokens de texto. La planificación de capacidad de voz se acerca más a "minutos procesados" que a "llamadas API servidas".

La lectura pragmática. Esta es la congelación de diciembre de 2024 de mini-audio. Fíjala cuando tu producto de voz fue validado contra ella. Migra hacia adelante cuando tu propia evaluación diga que la instantánea más reciente es la decisión correcta. Ejecuta comparaciones lado a lado en /live-test antes de comprometerte.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

24 may 2026 · 04:41 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026