Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o-audio-preview

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o-audio-preview es un modelo de lenguaje multimodal desarrollado por OpenAI que amplía las capacidades de la serie GPT-4o para incluir procesamiento nativo de audio. Este modelo representa un lanzamiento experimental que permite entrada y salida de audio directas, posibilitando interacciones por voz más naturales junto con la generación de texto tradicional. Se construye sobre la base de las capacidades de texto y visión de GPT-4o, añadiendo comprensión y síntesis de audio en tiempo real. El modelo está diseñado para aplicaciones que requieren interacción por voz, incluyendo asistentes conversacionales de IA, herramientas de accesibilidad y sistemas de respuesta de voz interactiva. Puede procesar lenguaje hablado directamente sin requerir conversión separada de voz a texto, reduciendo potencialmente la latencia y preservando información acústica como el tono y el énfasis. La designación de preview de audio indica que esta es una versión de acceso anticipado destinada a la experimentación y retroalimentación de desarrolladores más que a un despliegue de producción completo. Dentro de la línea de modelos de OpenAI, GPT-4o-audio-preview se sitúa junto a otras variantes de GPT-4o como una implementación especializada enfocada en modalidades de audio. Aunque mantiene las capacidades centrales de generación de texto esperadas de la familia GPT-4o, su característica distintiva es el pipeline integrado de procesamiento de audio. El estado de "preview" sugiere que las características y el rendimiento pueden evolucionar según los patrones de uso y la retroalimentación de usuarios. Como otros modelos de la serie GPT-4o, está diseñado para equilibrar capacidad con consideraciones prácticas de despliegue, aunque parámetros técnicos específicos como el tamaño exacto de la ventana de contexto no han sido divulgados públicamente por OpenAI.

GPT-4o Audio Preview extiende las capacidades omnimodales de GPT-4o añadiendo procesamiento de audio nativo para interacciones de voz naturales.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o-audio-preview
$2.50 por 1M de tokens de entrada
$10.00 por 1M de tokens de salida
≈ $0.0035 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$2.50
por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Procesamiento de audio nativoEntrada y salida de voz integradaMenor latencia que pipeline TTS+STTPreserva tono y entonación vocalMejora accesibilidad para usuariosConversación voz sin conversión intermedia

Debilidades

Versión preview, no producción generalCaracterísticas en evoluciónContexto no documentado públicamenteCapacidades de audio aún en refinamiento
Sección 03

Preguntas frecuentes

Menor latencia, mejor comprensión del contexto vocal y respuestas más naturales al no pasar por dos conversiones intermedias.

La integración de audio sin pipeline de STT/TTS separado reduce latencia y preserva matices de tono que se pierden en la transcripción.

Resumen de benchmark Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

gpt-4o-audio-preview establece una base con un sólido rendimiento multimodal.

El modelo gpt-4o-audio-preview de OpenAI entra al benchmarking con un desempeño sólido en tareas de texto y código. Alcanza 86,6% en MMLU, lo que demuestra capacidades robustas de conocimiento general, y obtiene 88,5% en GPQA Diamond, indicando razonamiento avanzado en preguntas científicas de nivel posgrado. El modelo muestra un rendimiento particularmente sólido en matemáticas con 74,6% en MATH-500 y 90,7% en GSM8K, posicionándose de forma competitiva para tareas de resolución de problemas cuantitativos. En programación, entrega 78,4% en HumanEval y 88,0% en MultiPL-E, mostrando capacidades competentes de ingeniería de software. El benchmark multilingüe MGSM muestra un desempeño moderado de 85,6%, lo que sugiere margen de mejora en razonamiento matemático fuera del inglés. Las capacidades de visión son sólidas con 69,1% en MMMU, indicando una comprensión multimodal efectiva. El modelo establece una línea base integral en diversos criterios de evaluación, con fortalezas particulares en tareas matemáticas y de programación. Los usuarios pueden esperar un rendimiento confiable en cargas técnicas y analíticas, aunque las capacidades específicas de audio del modelo requieren una evaluación especializada adicional más allá de estos benchmarks estándar.

Quality

Latency p50

Test runs

0

Razonamiento sólido en GPQA Diamond Puntuaciones sólidas en matemáticas y programación Rendimiento eficaz en visión multimodal Capacidades moderadas en matemáticas multilingües
Sección 06

Perfil completo del modelo

gpt-4o-audio-preview — illustration 1
gpt-4o-audio-preview: GPT-4o con audio de entrada y audio de salida

gpt-4o-audio-preview es la instantánea de vista previa de la familia GPT-4o de OpenAI que toma audio como entrada y puede devolver audio como salida, junto con el texto habitual. Sin relevo de Whisper-luego-GPT. Un modelo, un paso hacia adelante, voz en ambos extremos.

No es el endpoint en tiempo real. Es la variante de solicitud/respuesta. Se envía un clip de audio completo y un prompt, y se recibe texto, audio o ambos. Útil cuando se quiere calidad de voz de un solo modelo sin la complejidad de streaming de la API en tiempo real.

Qué aporta realmente el camino nativo de audio

El stack de voz tradicional son tres cajas: voz a texto, luego un LLM, luego texto a voz. Cada caja tiene latencia, cada caja descarta información y la prosodia muere en algún lugar entre Whisper y el motor TTS. gpt-4o-audio-preview colapsa eso en un único modelo que ve la forma de onda directamente.

Lo que sobrevive de extremo a extremo:

  • Tono y énfasis. El modelo escucha que suena frustrado, apresurado o sarcástico. Un pipeline de transcripción elimina eso antes de que el modelo de lenguaje tenga la oportunidad de razonar sobre ello.
  • Disfluencias del hablante. Pausas, reinicios, muletillas: el modelo puede optar por reflejarlas, suavizarlas o comentarlas según el prompt del sistema.
  • Contexto de fondo. Música, ruido ambiental, la tos en mitad de la frase. Nada de esto es necesariamente útil, pero el modelo tiene la opción de tenerlo en cuenta.

El lado de salida es simétrico. Cuando se solicita una respuesta de audio, el modelo genera voz directamente desde su representación interna en lugar de pasar texto a un motor TTS separado. La voz tiene un ritmo más natural que un handoff TTS posterior porque el modelo controla la prosodia como parte de la generación.

Notas de arquitectura

GPT-4o es la generación "omni" de GPT-4 que gestiona de forma nativa texto, visión y audio a través de codificadores específicos de modalidad que alimentan un núcleo transformer compartido. El codificador de audio convierte las formas de onda en embeddings continuos que ocupan el mismo espacio de atención que los tokens de texto. El decodificador puede emitir tokens de texto o tokens de audio según la solicitud.

OpenAI no ha publicado recuentos de parámetros, tamaño del corpus de entrenamiento ni especificaciones detalladas de muestreo de audio para esta vista previa. Lo observable desde el comportamiento de la API: el modelo acepta entradas WAV y MP3, gestiona inglés y un amplio conjunto de idiomas europeos y asiáticos, y produce salida en un pequeño conjunto de voces predefinidas.

El identificador de vista previa es honesto. La documentación va por detrás. El comportamiento cambia entre instantáneas. Las variantes con fecha (2024-12-17, 2025-06-03) existen precisamente porque OpenAI sigue lanzando correcciones incrementales que afectan a la prosodia, la latencia y la postura de rechazo de formas que pueden romper los despliegues anclados a "la vista previa de audio".

Dónde se sitúa hoy

Dos ventajas claras.

Primera, agentes de voz que necesitan que el modelo reaccione genuinamente a cómo sonó el usuario, no solo a lo que dijo. El triaje de atención al cliente donde una persona que llama estresada debería obtener una ruta de respuesta diferente a la de una calmada. Herramientas de coaching donde el modelo necesita comentar sobre la entrega. Interfaces de accesibilidad donde escuchar mal al usuario importa más que escuchar mal las palabras.

Segunda, salida de voz donde el habla sintetizada necesita transmitir significado, no solo palabras. Una aplicación de salud que lee instrucciones de medicación con la gravedad apropiada. Un narrador de cuentos infantiles que da voz a los personajes de forma distintiva. Cualquier cosa donde un TTS plano se sentiría incorrecta.

El modelo también gestiona bien las tareas de modo mixto: audio como entrada, JSON estructurado como salida; texto como entrada, audio como salida; audio más imagen como entradas, audio como salida. Estas combinaciones son torpes con un pipeline de tres cajas y naturales aquí.

Dónde falla

Conversación bidireccional en tiempo real. Use gpt-4o-realtime-preview para eso: es el hermano de streaming diseñado para la toma de turno en vivo. El endpoint audio-preview es solicitud/respuesta, lo que significa que el usuario termina de hablar, el modelo procesa, el modelo responde. Esa es la forma equivocada para una interacción de estilo llamada telefónica.

Transcripción de alto volumen. Las variantes específicas de transcripción (gpt-4o-transcribe, gpt-4o-mini-transcribe) están optimizadas para esa única tarea y cuestan menos por minuto de audio. Si todo lo que se necesita es texto a partir de audio, los endpoints de transcripción ganan.

Contratos estables. Esta es una vista previa. La forma de la API, las opciones de voz y las especificaciones de audio han cambiado entre instantáneas. Si se necesita estabilidad a largo plazo de la API, ancle a una instantánea con fecha y acepte que eventualmente tendrá que migrar.

Despliegue auto-alojado o en air-gap. No disponible. Los datos de audio salen de su red y llegan a la infraestructura de OpenAI. Para las cargas de trabajo de voz reguladas que no pueden tolerar eso, la encuesta en /usecases/local es el punto de partida correcto.

Cuándo elegirlo frente a las alternativas

Use gpt-4o-audio-preview cuando:

  • Necesite un manejo de audio bidireccional genuino en un solo modelo y el tiempo de solicitud/respuesta sea aceptable.
  • La calidad de la salida de voz importe suficientemente como para que la síntesis nativa del modelo supere a un paso TTS posterior.
  • La aplicación se beneficia de que el modelo lea el tono y la emoción como parte del razonamiento.

Omítalo cuando:

  • Necesite voz en streaming en vivo: use la vista previa en tiempo real.
  • Todo lo que necesite sea transcripción: use los endpoints de transcripción.
  • La estabilidad de producción importe más que el acceso a las primeras capacidades de audio.
  • El despliegue tiene que ser on-premise o en una región a la que la API de OpenAI no sirva.

Compárelo con los otros caminos de audio en /usecases/voice, y con las alternativas del mismo día de otros proveedores en /benchmarks/leaderboard.

Notas de despliegue

API de Chat Completions estándar de OpenAI. El audio se pasa en línea como contenido codificado en base64 o como una URL. La modalidad de salida se solicita a través del parámetro modalities (["text", "audio"] o solo ["audio"]). La selección de voz es a través de un parámetro voice con un pequeño conjunto fijo de opciones.

La facturación de tokens está dividida: los tokens de entrada de audio, los tokens de salida de audio y los tokens de texto se miden por separado. El comportamiento de coste no es equivalente al uso de solo texto: los tokens de audio consumen más unidades de facturación por unidad de información que los tokens de texto. Planifique la capacidad en consecuencia.

Los logs siguen las reglas de retención estándar de OpenAI. La retención cero requiere un contrato enterprise.

La lectura pragmática: esta vista previa es el modelo correcto cuando la fidelidad de audio de extremo a extremo es el objetivo, y el modelo equivocado cuando la transcripción, el streaming en tiempo real o la estabilidad de producción son el objetivo. Ejecute sus prompts reales en él en /live-test antes de comprometerse.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview — illustration 2gpt-4o-audio-preview — illustration 3
Última prueba automática
24 may 2026 · 04:40 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026