Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o-audio-preview-2024-12-17

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o-audio-preview-2024-12-17 es un modelo de lenguaje multimodal desarrollado por OpenAI que amplía las capacidades de la serie GPT-4o para incluir el procesamiento nativo de audio. Este modelo puede aceptar y generar entradas y salidas tanto de texto como de audio, habilitando aplicaciones que requieren interacción por voz, comprensión de audio o síntesis de voz. Como versión preliminar de diciembre de 2024, representa el desarrollo continuo de OpenAI de modelos capaces de procesar múltiples modalidades dentro de una arquitectura unificada, en lugar de mediante sistemas separados y encadenados. El modelo está diseñado para aplicaciones que requieren interacción por voz en tiempo real, análisis de contenido de audio o escenarios en los que el contexto sonoro aporta información relevante más allá del texto. Su arquitectura técnica se basa en los fundamentos de GPT-4o, que integra el procesamiento de visión, texto y audio en un único modelo en lugar de combinar modelos especializados separados. El tamaño específico de la ventana de contexto no ha sido documentado públicamente por OpenAI en el momento de esta versión preliminar. Dentro de la línea de modelos de OpenAI, GPT-4o-audio-preview se ubica junto a otras variantes de GPT-4o como una oferta experimental que permite a los desarrolladores acceder anticipadamente a las capacidades de audio antes de su integración en los modelos principales de producción. Al tratarse de un modelo en versión preliminar, puede presentar características de rendimiento, limitaciones o disponibilidad distintas a las de las versiones estables de producción de OpenAI. El modelo admite tareas estándar de generación de texto y suma el soporte de la modalidad de audio, lo que lo hace adecuado para desarrolladores que exploren aplicaciones habilitadas por voz o casos de uso centrados en audio.

GPT-4o Audio Preview de diciembre 2024 es el snapshot inicial de las capacidades de audio nativo de OpenAI, habilitando flujos de voz integrados.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o-audio-preview-2024-12-17
$2.50 por 1M de tokens de entrada
$10.00 por 1M de tokens de salida
≈ $0.0035 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$2.50
por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Primera versión estable de audio GPT-4oSnapshot fijo de diciembre 2024Conversación de voz integradaSalida de audio nativaSin dependencias de TTS externoReferencia para pruebas de audio

Debilidades

Preview inicial con limitaciones conocidasMejorado en versiones posterioresContexto no documentadoCapacidades de audio en maduración
Sección 03

Preguntas frecuentes

Permite reproducibilidad para equipos que probaron sus integraciones con esta versión específica de audio.

Una versión histórica que marcó el inicio del audio nativo en OpenAI, útil para estudiar la evolución de estas capacidades.

Resumen de benchmark Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

Base multimodal sólida con altas capacidades de escritura creativa

El modelo GPT-4o audio preview establece una base competitiva en los benchmarks estándar. Alcanza un 87.2% en MMLU, ubicándolo entre los modelos de lenguaje de primer nivel, y muestra un desempeño particularmente sólido en escritura creativa con una calificación del 86.5% en tareas de este tipo. El modelo presenta un razonamiento matemático consistente con un 83.9% en MATH-500 y mantiene una alta precisión en el seguimiento de instrucciones, con un 86.8%. Las capacidades de generación de código son robustas, con una tasa de aprobación del 79.0% en HumanEval, mientras que el soporte multilingüe resulta competente con un 78.3% en MMMLU. El modelo entrega estos resultados con una ventana de contexto de 128,000 tokens y procesa a 58.7 tokens por segundo, ofreciendo un rendimiento razonable para la mayoría de las aplicaciones. Como variante audio-preview, este modelo representa la integración por parte de OpenAI de capacidades multimodales en la arquitectura GPT-4o. Los usuarios pueden esperar un rendimiento confiable en diversas tareas, con particular fortaleza en aplicaciones creativas y tareas de conocimiento general. El desempeño equilibrado del modelo en los benchmarks sugiere que funciona bien como asistente de propósito general, aunque los casos de uso especializados podrían beneficiarse de comparaciones con alternativas específicas del dominio.

Quality

Latency p50

Test runs

0

Sólido rendimiento en MMLU del 87,2 % Excelentes capacidades de escritura creativa Ventana de contexto de 128K tokens Resultados sólidos en generación de código
Sección 06

Perfil completo del modelo

gpt-4o-audio-preview-2024-12-17 — illustration 1
gpt-4o-audio-preview-2024-12-17: la instantánea de diciembre

gpt-4o-audio-preview-2024-12-17 es la instantánea fechada de diciembre de 2024 de la línea de vista previa multimodal de audio de OpenAI. Misma familia de modelos que gpt-4o-audio-preview. Misma arquitectura de entrada de audio, salida de audio. Punto de congelación diferente.

La razón para fijar una instantánea fechada es la estabilidad contractual. El alias gpt-4o-audio-preview avanza conforme OpenAI implementa cambios; esta instantánea no lo hace. Si has validado prompts de voz, evaluado prosodia y lanzado un producto basándote en un comportamiento específico, la etiqueta fechada es lo que mantiene ese producto comportándose exactamente como lo hacía el día que lo lanzaste.

Qué representa esta instantánea

Diciembre de 2024 es el punto temprano-estable de la línea de vista previa de audio GPT-4o. Para ese lanzamiento OpenAI había:

  • Fijado la forma de la API para entrada de audio mediante contenido inline en base64.
  • Establecido el pequeño conjunto fijo de voces de salida preconfiguradas.
  • Resuelto las regresiones de prosodia más disruptivas de las primeras versiones de vista previa.

Lo que todavía no tiene, en relación con instantáneas posteriores de 2025:

  • El manejo mejorado del silencio que incluye la instantánea de junio de 2025.
  • Los refinamientos en la postura de rechazo que llegaron en revisiones subsecuentes.
  • Las mejoras de latencia que vinieron con cambios de infraestructura backend durante el segundo trimestre de 2025.

Si ejecutaste tu evaluación a finales de 2024 o principios de 2025 y el modelo la superó, probablemente esta sea la instantánea que la superó. Esa sola razón es suficiente para seguir usándola mientras OpenAI la soporte.

La razón para fijar en lugar de actualizar automáticamente

La línea de vista previa de audio tiene un historial documentado de cambios de comportamiento entre instantáneas. La cadencia de voz cambia. Los umbrales de detección de pausas cambian. El lenguaje de rechazo cambia. Ninguno de estos son errores — son la consecuencia natural de una superficie de vista previa en desarrollo activo. También son exactamente el tipo de cambios que rompen un agente de voz en producción la mañana después de que se implementan.

Fijar en 2024-12-17 intercambia dos cosas:

  • Renuncias al acceso automático a mejoras. Las instantáneas posteriores tienen mejor prosodia en casos difíciles.
  • Recuperas previsibilidad de comportamiento. El modelo que manejó tus escenarios programados ayer los manejará de la misma manera mañana.

Para equipos ejecutando un producto de voz a través de QA, fijar es la opción predeterminada correcta. Para equipos en modo activo de investigación, el alias actualizable tiene más sentido.

Cuándo migrar fuera de ella

El camino honesto para salir de esta instantánea es avanzar hacia gpt-4o-audio-preview-2025-06-03 o cualquiera que OpenAI promueva a estable después de la fase de vista previa. La decisión de migración debe estar basada en evidencia:

  • Vuelve a ejecutar tu suite completa de evaluación de voz contra la instantánea más reciente.
  • Compara en prosodia, latencia, comportamiento de rechazo y manejo de turnos en casos límite.
  • Migra cuando la instantánea más reciente gane en tu evaluación, no según el registro de cambios.

Cualquier otra cosa es actualizar por fe, y el comportamiento de audio es el lugar equivocado para actualizar por fe.

Dónde falla

Mismas restricciones que el resto de la línea audio-preview.

No es un endpoint en tiempo real. Los hermanos realtime-preview existen para voz bidireccional en streaming; esta instantánea es petición/respuesta.

No es un especialista en transcripción. La línea gpt-4o-transcribe es más económica por minuto de audio si todo lo que necesitas es texto de salida.

No está aislado de red. Solo API de OpenAI. Para cargas de trabajo de voz que no pueden salir de una red controlada, el análisis en /usecases/local es la referencia correcta.

Cuándo recurrir a esta instantánea exacta

Elige gpt-4o-audio-preview-2024-12-17 cuando:

  • Lanzaste un producto de voz basándote en el comportamiento de finales de 2024 de la vista previa de audio y necesitas mantenerlo estable.
  • Estás migrando un despliegue existente que fue validado contra esta instantánea y quieres una transición limpia antes de evaluar revisiones más nuevas.
  • Necesitas un punto de referencia fijo para pruebas de regresión de instantáneas más nuevas en tu propio harness de evaluación.

Omítelo cuando:

  • Estás empezando de cero — evalúa la instantánea más reciente disponible y fija esa.
  • Necesitas las mejoras de prosodia, manejo de silencio o latencia de la revisión de junio de 2025.
  • El lanzamiento estable eventual de la línea de modelos de audio está disponible — ahí es donde deben aterrizar los proyectos nuevos.

Notas de despliegue

API estándar de Chat Completions. El nombre del modelo es lo único que cambia entre fijaciones de instantáneas. El formato de entrada de audio, la selección de modalidad de salida y las opciones de voz son idénticas entre instantáneas.

La facturación de tokens se divide entre entrada de audio, salida de audio y flujos de texto. Los tokens de audio son más caros por unidad de información que los tokens de texto — planifica la capacidad en consecuencia.

La política de desaprobación de OpenAI proporciona aviso amplio antes de retirar instantáneas fechadas, pero la línea de vista previa es por definición menos estable que los modelos de producción. Vigila el registro de cambios y ten preparada una ruta de migración probada.

El resumen. Esta es la congelación de diciembre de 2024 de la vista previa de audio. Fíjala cuando tengas un producto de voz funcional que fue validado contra ella. Muévete de ella cuando una instantánea más reciente gane demostrablemente en tu propia evaluación, no en las notas de lanzamiento de OpenAI. Ejecuta comparaciones lado a lado en /live-test antes de cualquier migración.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview-2024-12-17 — illustration 2
Última prueba automática
24 may 2026 · 04:46 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026