¿Es adecuado para sistemas de respuesta de voz interactiva?

Sí, su velocidad y calidad suficiente lo hacen apto para IVR y sistemas de atención de voz automatizados.

¿Puede distinguir entre diferentes idiomas en la entrada?

Como parte de la familia GPT multilingüe, soporta múltiples idiomas tanto en entrada como en síntesis de voz.

¿Es mejor usar este snapshot o audio-mini sin fecha?

Para producción estable este snapshot garantiza reproducibilidad; el sin fecha recibe actualizaciones automáticas.

Tier B — Producción

Se ejecuta en:USCreado en:United States

OpenAI

gpt-audio-mini-2025-12-15

Tier B — Producción

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-Audio-Mini-2025-12-15 es un modelo de lenguaje desarrollado por OpenAI, lanzado en diciembre de 2025. Según su denominación, este modelo parece formar parte de la familia de modelos con capacidades de audio de OpenAI, lo que sugiere que puede procesar o generar entradas de audio junto con texto, aunque las especificaciones técnicas concretas sobre su ventana de contexto no han sido divulgadas. La designación "mini" suele indicar una versión más pequeña y eficiente, optimizada para una inferencia más rápida y menores requisitos computacionales en comparación con las variantes mayores de la misma familia. Este modelo está diseñado para aplicaciones que requieren interacción multimodal con modalidades de texto y audio. Admite capacidades estándar de generación de texto a la vez que ofrece posibles funciones de procesamiento de audio, lo que lo hace adecuado para tareas como transcripción, interacciones por voz o análisis de contenido de audio. La arquitectura compacta del modelo sugiere que está pensado para casos de uso en los que se prioriza la velocidad de respuesta y la eficiencia de recursos sobre la capacidad máxima. Dentro de la gama de modelos de OpenAI, GPT-Audio-Mini-2025-12-15 ocupa una posición como opción ligera con capacidad de audio. Se sitúa junto a otros modelos especializados que equilibran rendimiento y eficiencia, ofreciendo a los desarrolladores una alternativa a los modelos más grandes y exigentes en términos computacionales cuando no se requieren capacidades a escala completa. La fecha de lanzamiento de diciembre de 2025 lo sitúa entre las propuestas más recientes de OpenAI, incorporando técnicas de entrenamiento contemporáneas y mejoras arquitectónicas desarrolladas a lo largo de 2025. Este modelo está dirigido a usuarios que necesitan un procesamiento fiable de audio y texto sin la sobrecarga de los modelos insignia.

GPT Audio Mini de diciembre 2025 es el snapshot maduro del modelo de audio eficiente de OpenAI con las mejoras acumuladas del año.
— Resumen de benchmark Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-audio-mini-2025-12-15

$0.6000 por 1M de tokens de entrada

$2.40 por 1M de tokens de salida

≈ $0.0008 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.6000

por 1M de tokens de salida$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— stable

$2.40

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Audio mini con mejoras de fin de añoSnapshot estable diciembre 2025Eficiencia y costo controladoSíntesis de voz refinada sobre versiones anterioresBaja latencia mantenidaCompatible con integraciones audio existentes

Debilidades

Contexto no documentadoRazonamiento limitado por tamaño miniCalidad inferior al audio estándarEspecialización limita uso general

Sección 03

Capacidades

toolssource: litellmaudio inputaudio outputparallel toolsmax output tokens: 16384

Sección 04

Preguntas frecuentes

Refinamientos en fluidez de síntesis y reducción de artefactos de audio acumulados durante el ciclo de desarrollo de 2025.

La versión diciembre 2025 incorpora refinamientos en naturalidad de voz manteniendo la eficiencia del modelo mini.
— Resumen de benchmark Tokonomix

Sección 05

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

● 2026-07-26

Audio model gains multimodal tool execution with parallel processing

The gpt-audio-mini-2025-12-15 model represents a significant capability expansion for OpenAI's audio-focused offering. This benchmark window introduces four major new capabilities: standard tool calling, audio input processing, audio output generation, and parallel tool execution. These additions transform the model from a text-only interface into a truly multimodal system capable of processing and generating speech while simultaneously executing multiple function calls. The addition of tool support enables the model to interact with external systems and APIs, while parallel tool execution allows for more efficient multi-step operations. Audio input and output capabilities position this model as a conversational AI solution that can handle voice-based interactions end-to-end. No benchmark performance metrics are available in either the current or previous windows, making it impossible to assess quality, accuracy, or speed characteristics. Users should note that while the capability set has expanded substantially, the lack of quantitative performance data means real-world testing will be necessary to evaluate whether this model meets specific use case requirements. The model appears positioned for voice assistant applications, interactive voice response systems, and other scenarios requiring speech processing combined with tool integration.

Quality

—

Latency p50

—

Test runs

✓ Added tool calling support✓ Audio input and output enabled✓ Parallel tool execution available✗ No performance metrics available

Sección 07

Perfil completo del modelo

gpt-audio-mini-2025-12-15: La actualización de diciembre de OpenAI para el nivel compacto de audio nativo

La instantánea de diciembre de gpt-audio-mini llega dos meses después del lanzamiento de octubre y se presenta más como un ajuste incremental discreto que como un anuncio estelar. Se trata de la misma arquitectura: un único modelo de audio end-to-end que gestiona transcripción, razonamiento y síntesis de voz sin dividir el trabajo entre tres servicios. Lo que cambia entre los alias con fecha son los pesos subyacentes, el comportamiento del clasificador de seguridad y un puñado de características de voz que OpenAI ajusta entre versiones sin documentarlo siempre.

Lo que realmente mueve la actualización de diciembre

Las mejoras principales en la instantánea de diciembre se centran en la naturalidad de la síntesis para voces no inglesas y en el manejo del habla superpuesta al inicio de un turno. La versión de octubre tenía tendencia a iniciar una respuesta mientras el usuario aún estaba terminando su frase en entornos ruidosos. Diciembre ajusta esto. El modelo ahora espera unos cientos de milisegundos adicionales cuando detecta energía de habla continua, lo que elimina una de las quejas más comunes de los operadores de voicebots.

La síntesis multilingüe mejora de forma audible en español, portugués brasileño y mandarín. El neerlandés y el polaco siguen siendo más ásperos que sus primos de lenguas romances, pero la brecha se estrecha. Si estás ejecutando despliegues europeos donde un bot atiende múltiples mercados lingüísticos, esta es la versión donde el equilibrio entre consistencia y calidad por idioma comienza a aplanarse.

La latencia permanece esencialmente sin cambios. El tiempo hasta el primer audio se sitúa en la misma ventana que la compilación de octubre, lo que sugiere que OpenAI optimizó el modelo para calidad con cómputo fijo en lugar de empujar más el límite de velocidad.

Dónde encaja

Este nivel es el caballo de batalla para interfaces de voz de alto volumen. Agentes de atención al cliente que necesitan contestar el teléfono veinticuatro horas al día, herramientas de accesibilidad que leen contenido estructurado en voz alta mientras un usuario navega, asistentes en el automóvil donde ese medio segundo de latencia marca la diferencia entre sentirse receptivo y sentirse lento. En cualquier lugar donde haya un humano en la línea y el patrón de conversación esté razonablemente acotado, esto funciona.

También encaja bien en pipelines de transcripción donde necesitas un resumen breve o una extracción estructurada al final de la llamada. Como el modelo mantiene el contexto a lo largo de la conversación de forma nativa, no necesitas ensamblar un resumidor separado. Un modelo, un patrón de llamada, una línea de facturación.

La clonación de voz sigue fuera de la mesa. Las voces disponibles son el conjunto curado de OpenAI, punto. Es una restricción deliberada y es la correcta para cualquier cosa de cara al cliente donde el riesgo de suplantación es una preocupación real.

Dónde falla

Las llamadas largas siguen siendo el talón de Aquiles. Pasados unos treinta minutos de conversación continua, el modelo comienza a perder fidelidad en detalles del inicio de la llamada. Puedes disimular esto con un turno de resumen periódico que inyectas, pero es fricción que no enfrentarías con una arquitectura apilada que usa un modelo de razonamiento de contexto largo separado.

La terminología específica de dominio es irregular. Los términos legales en inglés están bien. La terminología médica en neerlandés sale frecuentemente distorsionada, con el modelo sustituyendo palabras fonéticamente similares pero semánticamente incorrectas. Si tu despliegue depende de acertar el vocabulario de dominio cada vez, necesitas o bien una capa de fine-tuning por encima de este modelo o una arquitectura diferente por completo.

El uso de herramientas a través de la interfaz de audio es viable para funciones simples pero se desmorona en cualquier cosa con estado ramificado. Si tu bot necesita llamar a diez herramientas diferentes dependiendo del estado de la conversación y recordar qué llamó hace cinco minutos, este no es el nivel adecuado.

Elegirlo y qué más considerar

Para nuevos despliegues de voz donde quieras la arquitectura más simple posible y puedas vivir dentro de las restricciones, fija en gpt-audio-mini-2025-12-15 y continúa. El alias con fecha importa. Si apuntas al nombre flotante gpt-audio-mini, te despiertas una mañana con una textura de voz diferente y un conjunto de pruebas de regresión que marca cuarenta cosas. Fijar es la disciplina que mantiene estables los productos de voz.

Dentro de la familia OpenAI, gpt-realtime es la actualización cuando necesitas un uso más rico de herramientas y contexto más largo. gpt-realtime-mini es un primo cercano si quieres la forma de la API en tiempo real en lugar de la forma audio-mini. La instantánea anterior gpt-audio-mini-2025-10-06 sigue disponible si tienes un corpus de pruebas de regresión calibrado al comportamiento de octubre y no estás listo para revalidar.

Para stacks nativos de Google, gemini-2.5-flash-preview-tts cubre síntesis pero no el bucle conversacional. Aún necesitarías una capa separada de STT más razonamiento para igualar lo que gpt-audio-mini te da de fábrica. La residencia de datos de la UE no queda satisfecha por el endpoint predeterminado de OpenAI, así que si eso es una restricción regulatoria, una capa de gateway o un proveedor diferente por completo se convierte en la respuesta.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

21 jun 2026 · 04:48 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026