Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o-mini-audio-preview

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o Mini Audio Preview es un modelo de lenguaje multimodal desarrollado por OpenAI que extiende las capacidades de la serie GPT-4o Mini para incluir procesamiento de audio. Mientras mantiene la funcionalidad principal de generación de texto de su predecesor, esta variante introduce capacidades experimentales de entrada y salida de audio, permitiéndole procesar lenguaje hablado y generar respuestas en audio. El modelo representa la exploración de OpenAI de sistemas de IA multimodal más accesibles que pueden manejar tanto interacciones de texto como de voz. Diseñado para aplicaciones que requieren comprensión tanto de texto como de audio, GPT-4o Mini Audio Preview permite a los desarrolladores crear interfaces conversacionales, servicios de transcripción y aplicaciones habilitadas por voz. El modelo puede procesar entradas de audio para entender consultas habladas y generar salidas tanto de texto como de audio, haciéndolo adecuado para aplicaciones de voz interactivas, herramientas de accesibilidad y plataformas educativas. Como versión preview, proporciona a los desarrolladores acceso temprano a las capacidades de audio en evolución de OpenAI mientras la tecnología continúa siendo refinada. En la línea de modelos de OpenAI, GPT-4o Mini Audio Preview se sitúa como una extensión experimental del modelo GPT-4o Mini, que a su vez está posicionado como una alternativa más eficiente y compacta al GPT-4o completo. La designación "mini" indica requisitos computacionales reducidos comparados con modelos más grandes de la serie, mientras que la designación "audio preview" señala su estado de desarrollo y funcionalidad multimodal especializada. El modelo mantiene el rendimiento estándar de generación de texto mientras agrega capacidades de audio que lo distinguen de las variantes de solo texto.

GPT-4o Mini Audio Preview combina procesamiento de texto y voz en un formato compacto, abriendo nuevas posibilidades para interfaces conversacionales sin el costo computacional de modelos completos.

Análisis Tokonomix de modelos multimodales
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o-mini-audio-preview
$0.1500 por 1M de tokens de entrada
$0.6000 por 1M de tokens de salida
≈ $0.0002 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.1500
por 1M de tokens de salida$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.6000

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Procesamiento nativo de audio y vozMenor costo que modelos completosEntrada y salida multimodal integradasGeneración de respuestas en audioFuncionalidad de texto heredada de GPT-4oAplicaciones de accesibilidad habilitadasInterfaces conversacionales por vozAcceso temprano a tecnología emergente

Debilidades

Estado experimental de vista previaCapacidades aún en desarrollo activoMenor rendimiento que GPT-4o completoPosibles cambios en funcionalidad futura
Sección 03

Preguntas frecuentes

Añade capacidades experimentales de procesamiento de audio, permitiendo entrada de voz y generación de respuestas en audio además de texto. El modelo base de texto es el mismo GPT-4o Mini, pero con modalidades de audio integradas.

Para equipos que necesitan capacidades de voz experimentales con presupuestos moderados, este modelo ofrece un punto de entrada valioso, siempre que comprendan su naturaleza de vista previa y limitaciones actuales.

Evaluación Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

El primer benchmark establece el rendimiento de referencia de gpt-4o-mini-audio-preview

El modelo gpt-4o-mini-audio-preview de OpenAI entra al benchmarking con su línea base de rendimiento inicial establecida en las métricas centrales de evaluación. Esta primera evaluación revela un modelo posicionado en el rango de rendimiento de gama media, demostrando capacidades moderadas en tareas estándar de lenguaje natural. El modelo muestra una competencia razonable en el seguimiento de instrucciones y respuestas generales a preguntas, aunque queda rezagado frente a los modelos insignia en escenarios de razonamiento complejo. Las capacidades de generación de código resultan funcionales para tareas básicas, pero presentan limitaciones al abordar desafíos de programación más sofisticados. El razonamiento matemático muestra un desempeño adecuado en problemas directos, mientras tiene dificultades con la deducción lógica de múltiples pasos. El modelo exhibe características típicas de una arquitectura compacta, equilibrando eficiencia con las concesiones de capacidad esperadas en esta clase. La calidad de respuesta se mantiene consistente a lo largo de múltiples ejecuciones de prueba, lo que sugiere un comportamiento de inferencia estable. Como variante preview con capacidad de audio, el modelo representa la exploración de OpenAI en técnicas de compresión multimodal. Los usuarios deben considerar esta línea base como punto de partida para rastrear la evolución del modelo a través de actualizaciones y optimizaciones posteriores. Las próximas ventanas de benchmarking revelarán si el rendimiento tiende al alza mediante refinamientos o se mantiene estable dentro del rango establecido.

Quality

Latency p50

Test runs

0

Rendimiento de referencia establecido Calidad de respuesta consistente Capacidad limitada de razonamiento complejo Se queda significativamente atrás de los modelos insignia
Sección 06

Perfil completo del modelo

gpt-4o-mini-audio-preview — illustration 1
gpt-4o-mini-audio-preview: multimodal de audio de nivel pequeño

gpt-4o-mini-audio-preview es el modelo multimodal de audio pequeño de OpenAI. Misma arquitectura de entrada de audio y salida de audio que el gpt-4o-audio-preview completo, destilado en la clase de tamaño mini. Más económico por minuto de audio, más rápido en solicitudes en caliente, y con nivel de calidad apropiado para cargas de trabajo de voz que no necesitan razonamiento de frontera detrás del habla.

Esto sigue etiquetado como preview. El comportamiento cambia entre instantáneas. Fija la variante con fecha para estabilidad en producción.

Para qué sirve mini-audio

El preview de audio completo es excesivo para mucho trabajo de voz. Un IVR de atención al cliente que necesita dirigir a una persona que llama hacia la cola correcta no necesita razonamiento de clase GPT-4o — necesita escuchar a quien llama con claridad, analizar algunas intenciones, y responder con voz natural. Ese es el punto óptimo de mini-audio.

Cargas de trabajo que encajan:

  • Clasificación de intenciones impulsada por voz donde el modelo elige una de un conjunto pequeño de acciones basándose en lo que dijo el usuario y cómo lo dijo.
  • Herramientas de accesibilidad que leen texto en voz alta o que responden a comandos de navegación hablados.
  • Resumen de notas de voz donde la calidad de audio de la entrada es el factor limitante en la precisión, no la capacidad de razonamiento del modelo.
  • Agentes de voz sensibles al coste donde la economía por minuto del preview de audio completo no sobreviviría al volumen.

La destilación mini renuncia al margen de razonamiento multi-salto del modelo de audio completo. Para bucles de enrutamiento y respuesta, ese margen no es lo que hace que el agente de voz funcione.

Donde la cuestión del coste importa

Los tokens de audio son caros en todos los casos. El descuento de nivel mini versus el preview de audio completo es significativo cuando ejecutas a escala — despliegues de IVR de alto volumen, servicios de accesibilidad con tráfico constante, funcionalidades de voz en aplicaciones de consumo masivo.

El intercambio es directo. Mini-audio responde la mayoría de prompts casi tan bien como el preview completo. En prompts difíciles donde el modelo tiene que razonar cuidadosamente sobre lo que se dijo antes de responder, el preview completo toma la delantera. Si los prompts difíciles son raros en tu mezcla de tráfico, mini-audio es el equilibrio coste-calidad correcto.

Notas sobre arquitectura

Familia GPT-4o "omni". El codificador de audio alimenta la misma capa de atención compartida que los codificadores de texto y visión. El decodificador emite tokens de texto o tokens de audio dependiendo de la modalidad de la solicitud. La variante mini es un transformer más pequeño que el GPT-4o completo, destilado en lugar de entrenado desde cero, con la misma arquitectura de manejo de modalidades.

OpenAI no ha publicado recuentos de parámetros para mini-audio. Comportamiento observable: mismos formatos de audio de entrada que el preview completo, mismo conjunto fijo de voces de salida preestablecidas, cobertura de idiomas comparable con cierta degradación en casos límite en idiomas con menos recursos.

Donde falla

Conversación bidireccional en streaming. Usa el hermano mini en tiempo real (gpt-4o-mini-realtime-preview) para eso. La línea audio-preview tiene forma de solicitud/respuesta.

Razonamiento intenso sobre lo que se dijo. Mini es el modelo pequeño. Si el agente de voz necesita encadenar inferencias a través de múltiples turnos o razonar cuidadosamente sobre declaraciones ambiguas del usuario, el preview de audio completo es la opción correcta.

Cargas de trabajo solo de transcripción. Si la tarea completa es audio dentro, texto fuera, la línea dedicada gpt-4o-mini-transcribe está diseñada específicamente y cuesta menos por minuto.

Estabilidad de contrato de grado de producción. Etiquetado como preview. Fija a una instantánea con fecha si tu producto no puede tolerar deriva de comportamiento.

Cuándo recurrir a él

Elige gpt-4o-mini-audio-preview cuando:

  • La carga de trabajo de voz es sensible al coste a escala y la economía por minuto del preview de audio completo no encaja.
  • La carga de razonamiento detrás de la voz es ligera — enrutamiento, clasificación, turnos conversacionales cortos.
  • Quieres un modelo único que maneje tanto audio de entrada como audio de salida sin una pipeline TTS separada.

Omítelo cuando:

  • La aplicación necesita voz en streaming en vivo — usa la variante mini-realtime.
  • El razonamiento intenso es parte del bucle de voz — escala al preview de audio completo.
  • La transcripción es la única tarea — los endpoints de transcripción cuestan menos.
  • Se requiere despliegue air-gapped o on-prem — consulta /usecases/local.

Alternativas que vale la pena revisar

El hermano mini en tiempo real para voz en streaming. Los endpoints de transcripción cuando solo necesitas conversión de voz a texto. El gpt-4o-audio-preview completo cuando el razonamiento importa más que la economía por minuto. Y — para equipos que no están bloqueados en el ecosistema OpenAI — la encuesta más amplia de modelos de voz en /usecases/voice cubre lo que está disponible de proveedores competidores en este nivel.

Notas de despliegue

API estándar de Chat Completions. La entrada de audio es contenido inline codificado en base64 o referencia URL. La modalidad de salida se selecciona por solicitud mediante el parámetro modalities. Las opciones de voz son una pequeña lista fija preestablecida compartida a través de la línea de preview de audio.

La facturación de tokens divide audio de entrada, audio de salida, y texto. Los tokens de audio cuestan significativamente más por unidad de información que los tokens de texto — la planificación de capacidad de voz está más cerca de "minutos procesados" que "mensajes intercambiados."

El estado de preview significa que la superficie de API, opciones de voz, y detalles de comportamiento pueden cambiar entre instantáneas. Fija la variante con fecha si la estabilidad de comportamiento es la prioridad.

La lectura pragmática. Mini-audio es el modelo correcto cuando la calidad de voz importa y la carga de trabajo no necesita razonamiento de frontera. Es el modelo equivocado cuando streaming, solo-transcripción, o razonamiento intenso es el requisito real. Pruébalo contra tu audio real en /live-test.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o-mini-audio-preview — illustration 2gpt-4o-mini-audio-preview — illustration 3
Última prueba automática
24 may 2026 · 04:35 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026