Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o-audio-preview-2025-06-03

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o-audio-preview-2025-06-03 es un modelo de lenguaje multimodal desarrollado por OpenAI que representa una evolución dentro de la familia GPT-4 con capacidades mejoradas de procesamiento de audio. Este modelo va más allá de la generación de texto estándar para admitir entrada y salida de audio de forma nativa, lo que le permite procesar lenguaje hablado, sonidos ambientales y generar respuestas de voz naturales. La designación "preview" indica que se trata de una versión en desarrollo destinada a pruebas y evaluación antes de una versión estable, mientras que el sufijo de fecha sugiere el momento de su snapshot dentro del pipeline de lanzamientos de OpenAI. El modelo está diseñado para aplicaciones que requieren una integración fluida entre las modalidades de texto y audio, incluyendo asistentes de voz, sistemas de conversación en tiempo real, transcripción de audio con comprensión contextual y herramientas de accesibilidad. Su arquitectura se basa en los fundamentos de GPT-4 e incorpora componentes especializados para la codificación y decodificación de audio, lo que le permite mantener el contexto conversacional tanto en interacciones escritas como habladas. El modelo admite tareas estándar de generación de texto y añade la capacidad de comprender matices vocales, tono y elementos de audio no verbales. Dentro del catálogo de modelos de OpenAI, esta variante se sitúa junto a otras iteraciones de GPT-4o como una versión preview especializada centrada en la funcionalidad de audio. Refleja el desarrollo continuo por parte de OpenAI de modelos omnimodales: sistemas capaces de procesar múltiples tipos de entrada de manera nativa en lugar de mediante pasos de preprocesamiento separados. El estado de preview implica que las capacidades y características de rendimiento pueden evolucionar a medida que OpenAI refina el modelo en función de la retroalimentación de uso y entrenamientos adicionales.

GPT-4o Audio Preview de junio 2025 aporta mejoras refinadas en síntesis de voz y comprensión de audio sobre versiones anteriores de la serie.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o-audio-preview-2025-06-03
$2.50 por 1M de tokens de entrada
$10.00 por 1M de tokens de salida
≈ $0.0035 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$2.50
por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Audio mejorado sobre versiones 2024Conversación voz más naturalLatencia reducida en síntesisSalida de voz de mayor calidadSnapshot fijo para reproducibilidadSoporte multilingüe en audio

Debilidades

Preview: no para producción críticaFuncionalidades pueden cambiarContexto no documentado públicamenteReemplazado por versiones más recientes
Sección 03

Preguntas frecuentes

Refinamientos en calidad de síntesis de voz, menor latencia y mejor comprensión de matices del habla respecto a versiones anteriores.

Cada iteración del audio preview de OpenAI incorpora mejoras en naturalidad de voz y menor latencia para aplicaciones conversacionales.

Resumen de benchmark Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

Primer benchmark establece el rendimiento de referencia en las capacidades principales

Este benchmark inaugural establece las métricas de rendimiento base para GPT-4o Audio Preview. El modelo demuestra capacidades sólidas en razonamiento matemático, alcanzando 83.6% en MATH-500 y 90.8% en GSM8K, lo que indica un desempeño consistente tanto en problemas desafiantes de nivel competencia como en matemáticas de educación básica. Las habilidades de programación muestran competencia con 80.8% en HumanEval y 85.4% en MBPP, sugiriendo una generación de código confiable para tareas comunes. El rendimiento multilingüe resulta robusto con 75.9% en MMMLU, mientras que las capacidades de conocimiento general alcanzan 88.7% en MMLU. El modelo maneja tareas multimodales con 66.9% en MMMU y logra 52.3% en GPQA Diamond, un benchmark de razonamiento científico particularmente exigente. El seguimiento de instrucciones obtiene 73.0% en IFEval, y la escritura creativa registra 71.0% en CreativeWriting. Al tratarse de la primera ventana de evaluación, estas métricas funcionan como punto de referencia para rastrear cambios futuros en el rendimiento. Los usuarios pueden esperar un desempeño competente en tareas diversas, incluyendo matemáticas, programación, recuperación de conocimiento y aplicaciones creativas, con particular fortaleza en razonamiento matemático y dominios de conocimiento general.

Quality

Latency p50

Test runs

0

Base de referencia sólida en razonamiento matemático Desempeño sólido en programación establecido Capacidades multilingües robustas Primera base de referencia establecida
Sección 06

Perfil completo del modelo

gpt-4o-audio-preview-2025-06-03 — illustration 1
gpt-4o-audio-preview-2025-06-03: la actualización de audio de mediados de 2025

gpt-4o-audio-preview-2025-06-03 es la instantánea de junio de 2025 de la vista previa multimodal de audio de OpenAI. Seis meses después de la congelación de diciembre de 2024, la ruta de audio había madurado — prosodia más suave, mejor manejo del silencio, y el tipo de refinamientos pequeños que solo se evidencian si comparas instantáneas lado a lado.

Esto sigue marcado como vista previa. Esa etiqueta es un contrato: la forma de la API puede cambiar, el comportamiento puede cambiar, y la línea en su conjunto todavía está en camino hacia una versión estable. La etiqueta fechada es lo que fijas para mantener este comportamiento exacto en su lugar mientras OpenAI sigue trabajando.

Qué cambió desde la instantánea de diciembre

OpenAI no publica un registro de cambios detallado de la pista de audio, pero la diferencia de comportamiento es observable mediante ejecuciones lado a lado contra los mismos prompts programados. La instantánea de junio de 2025 incluye:

  • Detección más precisa del final del silencio. El modelo ya no interrumpe al usuario tan ansiosamente cuando el usuario hace una pausa a mitad de frase.
  • Transiciones de prosodia más suaves en salidas de audio de varias frases. La instantánea de diciembre ocasionalmente producía transiciones planas entre frases; esta lleva la entonación a través de los saltos de párrafo.
  • "Deriva de voz" reducida en salidas de audio largas donde la voz sintetizada gradualmente cambiaba de timbre a lo largo de una generación extensa.
  • Lenguaje de rechazo que se lee como más conversacional y menos basado en plantillas.

Lo que no cambió de ninguna manera obvia: cobertura de idiomas de entrada, el pequeño conjunto fijo de voces de salida, la superficie base de la API, y la estructura de facturación por token.

Cuándo vale la pena realizar la actualización

La respuesta honesta es "cuando tu evaluación lo diga". Las actualizaciones de modelos de audio son el lugar equivocado para dar saltos de fe basados en registros de cambios. La forma procesable:

  • Mantén la instantánea de diciembre en producción mientras evalúas.
  • Ejecuta la suite completa de escenarios de voz contra 2025-06-03 con los mismos prompts.
  • Observa regresiones en casos extremos que la instantánea anterior manejaba — incluso promedios mejorados pueden ocultar escenarios específicos que empeoraron.
  • Migra cuando la instantánea más nueva gane en las métricas que importan para tu producto, no en las que OpenAI enfatizó en las notas de lanzamiento.

Para productos de voz que se apoyan en la prosodia — herramientas de coaching, narradores de accesibilidad, cualquier cosa donde el modelo esté actuando en lugar de simplemente hablando — la instantánea de junio de 2025 es generalmente el mejor predeterminado.

Dónde se sitúa esta instantánea hoy

A mediados de 2026, esta instantánea es la congelación más reciente que la mayoría de los equipos citan cuando dicen "el modelo de audio GPT-4o" sin más calificación. También es la instantánea que ha estado en producción el tiempo suficiente para que sus peculiaridades de comportamiento estén bien documentadas en los foros de la comunidad.

Para nuevos proyectos de voz que comienzan en 2026, la elección está entre esta instantánea, cualquier cosa más nueva que OpenAI haya lanzado desde entonces, y la eventual versión estable de la línea de audio. El caso para fijar aquí es el mismo que el caso para fijar cualquier instantánea fechada: intercambias acceso a mejoras por estabilidad de comportamiento.

Dónde falla

Las restricciones heredadas del resto de la línea de vista previa de audio todavía aplican.

No es un endpoint de streaming. La vista previa en tiempo real es la opción correcta para conversación bidireccional en vivo; esto es solicitud/respuesta.

No es un especialista en transcripción. Si texto de salida desde audio de entrada es toda la tarea, los endpoints dedicados de transcripción cuestan menos por minuto.

No es desplegable fuera de la API de OpenAI. No hay opción on-premises, no hay ruta air-gap. El estudio de /usecases/local cubre lo que está disponible cuando esas restricciones aplican.

Cuándo fijar esta instantánea

Fija gpt-4o-audio-preview-2025-06-03 cuando:

  • Evaluaste la línea de audio a mediados o finales de 2025 y esta es la instantánea que pasó.
  • La calidad de la prosodia importa lo suficiente como para que las mejoras sobre la instantánea de diciembre justifiquen el costo de migración.
  • Necesitas un objetivo de comportamiento estable mientras esperas a que la línea de audio abandone el estado de vista previa.

Omítela cuando:

  • Una instantánea más nueva está disponible y ha ganado tu evaluación.
  • El modelo de audio estable eventual ha sido promovido fuera de vista previa.
  • Solo necesitas transcripción o solo necesitas streaming en tiempo real — los endpoints especializados son la mejor opción.

Notas de despliegue

Misma API de Chat Completions que el resto de la familia GPT-4o. El nombre del modelo es la unidad de migración. El formato de entrada de audio, la selección de modalidad de salida, y los parámetros de voz permanecen sin cambios desde la instantánea de diciembre.

La facturación de tokens divide audio de entrada, audio de salida, y texto. Los tokens de audio conllevan un costo por unidad de información significativamente más alto que los tokens de texto. La planificación de capacidad para productos de voz está más cerca de "minutos de audio procesados" que de "mensajes intercambiados."

La lectura pragmática. Este es el hermano de mejor comportamiento de la instantánea de diciembre. Fíjalo cuando tu producto de voz fue validado contra él, migra a él desde la fijación de diciembre cuando tu evaluación muestre que las ganancias de prosodia valen la pena, y vigila el registro de cambios para lo que sea que OpenAI promueva a estable a continuación. Ejecuta una comparación lado a lado en /live-test antes de decidir.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview-2025-06-03 — illustration 2gpt-4o-audio-preview-2025-06-03 — illustration 3
Última prueba automática
24 may 2026 · 04:46 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026