Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-audio-mini-2025-12-15

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-Audio-Mini-2025-12-15 es un modelo de lenguaje desarrollado por OpenAI, lanzado en diciembre de 2025. Según su denominación, este modelo parece formar parte de la familia de modelos con capacidades de audio de OpenAI, lo que sugiere que puede procesar o generar entradas de audio junto con texto, aunque las especificaciones técnicas concretas sobre su ventana de contexto no han sido divulgadas. La designación "mini" suele indicar una versión más pequeña y eficiente, optimizada para una inferencia más rápida y menores requisitos computacionales en comparación con las variantes mayores de la misma familia. Este modelo está diseñado para aplicaciones que requieren interacción multimodal con modalidades de texto y audio. Admite capacidades estándar de generación de texto a la vez que ofrece posibles funciones de procesamiento de audio, lo que lo hace adecuado para tareas como transcripción, interacciones por voz o análisis de contenido de audio. La arquitectura compacta del modelo sugiere que está pensado para casos de uso en los que se prioriza la velocidad de respuesta y la eficiencia de recursos sobre la capacidad máxima. Dentro de la gama de modelos de OpenAI, GPT-Audio-Mini-2025-12-15 ocupa una posición como opción ligera con capacidad de audio. Se sitúa junto a otros modelos especializados que equilibran rendimiento y eficiencia, ofreciendo a los desarrolladores una alternativa a los modelos más grandes y exigentes en términos computacionales cuando no se requieren capacidades a escala completa. La fecha de lanzamiento de diciembre de 2025 lo sitúa entre las propuestas más recientes de OpenAI, incorporando técnicas de entrenamiento contemporáneas y mejoras arquitectónicas desarrolladas a lo largo de 2025. Este modelo está dirigido a usuarios que necesitan un procesamiento fiable de audio y texto sin la sobrecarga de los modelos insignia.

GPT Audio Mini de diciembre 2025 es el snapshot maduro del modelo de audio eficiente de OpenAI con las mejoras acumuladas del año.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-audio-mini-2025-12-15
$0.6000 por 1M de tokens de entrada
$2.40 por 1M de tokens de salida
≈ $0.0008 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.6000
por 1M de tokens de salida$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— stable

$2.40

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Audio mini con mejoras de fin de añoSnapshot estable diciembre 2025Eficiencia y costo controladoSíntesis de voz refinada sobre versiones anterioresBaja latencia mantenidaCompatible con integraciones audio existentes

Debilidades

Contexto no documentadoRazonamiento limitado por tamaño miniCalidad inferior al audio estándarEspecialización limita uso general
Sección 03

Capacidades

toolssource: litellmaudio inputaudio outputparallel toolsmax output tokens: 16384
Sección 04

Preguntas frecuentes

Refinamientos en fluidez de síntesis y reducción de artefactos de audio acumulados durante el ciclo de desarrollo de 2025.

La versión diciembre 2025 incorpora refinamientos en naturalidad de voz manteniendo la eficiencia del modelo mini.

Resumen de benchmark Tokonomix
Sección 05

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

2026-06-14

Audio model adds tool calling and parallel execution capabilities

The gpt-audio-mini-2025-12-15 model has gained significant new functionality with the addition of tool calling capabilities, including parallel tool execution support. These features extend the model's utility beyond pure audio processing, allowing it to interact with external functions and APIs while maintaining its audio input and output capabilities. The model now supports both audio_input and audio_output modalities alongside its existing text capabilities, making it a more versatile option for multimodal applications. The parallel_tools capability enables more efficient processing when multiple tool calls are needed simultaneously. These additions position the model as a functional audio-capable variant within OpenAI's lineup, though specific performance metrics for these new capabilities are not yet available. Users should note that while the model has gained these important features, comprehensive benchmark data demonstrating accuracy, latency, or comparative performance against other models has not been provided. The feature set suggests this is intended as a lightweight audio model with tooling support, suitable for applications requiring both conversational audio interactions and programmatic function execution.

Quality

Latency p50

Test runs

0

Tool calling support added Parallel tools execution enabled Audio input/output capabilities added
Sección 07

Perfil completo del modelo

gpt-audio-mini-2025-12-15 — illustration 1
gpt-audio-mini-2025-12-15: La actualización de diciembre de OpenAI para el nivel compacto de audio nativo

La instantánea de diciembre de gpt-audio-mini llega dos meses después del lanzamiento de octubre y se presenta más como un ajuste incremental discreto que como un anuncio estelar. Se trata de la misma arquitectura: un único modelo de audio end-to-end que gestiona transcripción, razonamiento y síntesis de voz sin dividir el trabajo entre tres servicios. Lo que cambia entre los alias con fecha son los pesos subyacentes, el comportamiento del clasificador de seguridad y un puñado de características de voz que OpenAI ajusta entre versiones sin documentarlo siempre.

Lo que realmente mueve la actualización de diciembre

Las mejoras principales en la instantánea de diciembre se centran en la naturalidad de la síntesis para voces no inglesas y en el manejo del habla superpuesta al inicio de un turno. La versión de octubre tenía tendencia a iniciar una respuesta mientras el usuario aún estaba terminando su frase en entornos ruidosos. Diciembre ajusta esto. El modelo ahora espera unos cientos de milisegundos adicionales cuando detecta energía de habla continua, lo que elimina una de las quejas más comunes de los operadores de voicebots.

La síntesis multilingüe mejora de forma audible en español, portugués brasileño y mandarín. El neerlandés y el polaco siguen siendo más ásperos que sus primos de lenguas romances, pero la brecha se estrecha. Si estás ejecutando despliegues europeos donde un bot atiende múltiples mercados lingüísticos, esta es la versión donde el equilibrio entre consistencia y calidad por idioma comienza a aplanarse.

La latencia permanece esencialmente sin cambios. El tiempo hasta el primer audio se sitúa en la misma ventana que la compilación de octubre, lo que sugiere que OpenAI optimizó el modelo para calidad con cómputo fijo en lugar de empujar más el límite de velocidad.

Dónde encaja

Este nivel es el caballo de batalla para interfaces de voz de alto volumen. Agentes de atención al cliente que necesitan contestar el teléfono veinticuatro horas al día, herramientas de accesibilidad que leen contenido estructurado en voz alta mientras un usuario navega, asistentes en el automóvil donde ese medio segundo de latencia marca la diferencia entre sentirse receptivo y sentirse lento. En cualquier lugar donde haya un humano en la línea y el patrón de conversación esté razonablemente acotado, esto funciona.

También encaja bien en pipelines de transcripción donde necesitas un resumen breve o una extracción estructurada al final de la llamada. Como el modelo mantiene el contexto a lo largo de la conversación de forma nativa, no necesitas ensamblar un resumidor separado. Un modelo, un patrón de llamada, una línea de facturación.

La clonación de voz sigue fuera de la mesa. Las voces disponibles son el conjunto curado de OpenAI, punto. Es una restricción deliberada y es la correcta para cualquier cosa de cara al cliente donde el riesgo de suplantación es una preocupación real.

Dónde falla

Las llamadas largas siguen siendo el talón de Aquiles. Pasados unos treinta minutos de conversación continua, el modelo comienza a perder fidelidad en detalles del inicio de la llamada. Puedes disimular esto con un turno de resumen periódico que inyectas, pero es fricción que no enfrentarías con una arquitectura apilada que usa un modelo de razonamiento de contexto largo separado.

La terminología específica de dominio es irregular. Los términos legales en inglés están bien. La terminología médica en neerlandés sale frecuentemente distorsionada, con el modelo sustituyendo palabras fonéticamente similares pero semánticamente incorrectas. Si tu despliegue depende de acertar el vocabulario de dominio cada vez, necesitas o bien una capa de fine-tuning por encima de este modelo o una arquitectura diferente por completo.

El uso de herramientas a través de la interfaz de audio es viable para funciones simples pero se desmorona en cualquier cosa con estado ramificado. Si tu bot necesita llamar a diez herramientas diferentes dependiendo del estado de la conversación y recordar qué llamó hace cinco minutos, este no es el nivel adecuado.

Elegirlo y qué más considerar

Para nuevos despliegues de voz donde quieras la arquitectura más simple posible y puedas vivir dentro de las restricciones, fija en gpt-audio-mini-2025-12-15 y continúa. El alias con fecha importa. Si apuntas al nombre flotante gpt-audio-mini, te despiertas una mañana con una textura de voz diferente y un conjunto de pruebas de regresión que marca cuarenta cosas. Fijar es la disciplina que mantiene estables los productos de voz.

Dentro de la familia OpenAI, gpt-realtime es la actualización cuando necesitas un uso más rico de herramientas y contexto más largo. gpt-realtime-mini es un primo cercano si quieres la forma de la API en tiempo real en lugar de la forma audio-mini. La instantánea anterior gpt-audio-mini-2025-10-06 sigue disponible si tienes un corpus de pruebas de regresión calibrado al comportamiento de octubre y no estás listo para revalidar.

Para stacks nativos de Google, gemini-2.5-flash-preview-tts cubre síntesis pero no el bucle conversacional. Aún necesitarías una capa separada de STT más razonamiento para igualar lo que gpt-audio-mini te da de fábrica. La residencia de datos de la UE no queda satisfecha por el endpoint predeterminado de OpenAI, así que si eso es una restricción regulatoria, una capa de gateway o un proveedor diferente por completo se convierte en la respuesta.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-audio-mini-2025-12-15 — illustration 2gpt-audio-mini-2025-12-15 — illustration 3
Última prueba automática
14 jun 2026 · 04:13 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026