Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-realtime-mini

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

gpt-realtime-mini es un modelo de lenguaje desarrollado por OpenAI, diseñado para soportar aplicaciones conversacionales en tiempo real a través de la Realtime API. A diferencia de los modelos tradicionales basados en texto que operan en un ciclo de solicitud-respuesta, este modelo está optimizado para interacciones de baja latencia y streaming, donde la capacidad de respuesta inmediata es crítica. Habilita aplicaciones como asistentes de voz, sistemas de atención al cliente en vivo e interfaces conversacionales interactivas que requieren intercambios naturales y fluidos con un retraso mínimo. El modelo ofrece capacidades estándar de generación de texto con una arquitectura optimizada para la velocidad y la eficiencia en escenarios en tiempo real. Aunque el tamaño exacto de su ventana de contexto no se ha especificado públicamente, el modelo prioriza el procesamiento rápido de tokens y la reducción de los tiempos de respuesta sobre las longitudes de contexto extendidas que se encuentran en otras ofertas de OpenAI. Esta compensación de diseño lo hace particularmente adecuado para casos de uso conversacionales donde el contexto reciente importa más que el análisis extenso de documentos. Dentro de la línea de modelos de OpenAI, gpt-realtime-mini ocupa un nicho especializado enfocado en aplicaciones interactivas en lugar de generación de texto de propósito general o tareas complejas de razonamiento. Complementa a las familias más amplias GPT-4 y GPT-3.5 de OpenAI al abordar requisitos específicos de latencia que los endpoints estándar de la API no pueden cumplir. El modelo representa el reconocimiento por parte de OpenAI de que distintos dominios de aplicación requieren diferentes optimizaciones arquitectónicas, donde la conversación en tiempo real exige características técnicas distintas a las del procesamiento por lotes o el manejo asíncrono de consultas.

GPT Realtime Mini ofrece las capacidades de tiempo real de OpenAI en un modelo más eficiente, reduciendo el costo por sesión en aplicaciones conversacionales.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-realtime-mini
$0.6000 por 1M de tokens de entrada
$2.40 por 1M de tokens de salida
≈ $0.0008 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.6000
por 1M de tokens de salida$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Baja latencia a menor costoEficiencia del modelo miniMás sesiones simultáneas por presupuestoConversación fluida básicaChatbots en tiempo real económicosMultilingüe en tiempo real

Debilidades

Razonamiento limitado por tamaño miniCalidad de audio inferior al estándarContexto no documentadoMenor precisión en temas complejos
Sección 03

Preguntas frecuentes

Cuando el costo por sesión es crítico y la calidad conversacional moderada es aceptable para el caso de uso.

La variante mini del modelo Realtime hace accesible la conversación de baja latencia para proyectos con presupuesto ajustado.

Resumen de benchmark Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

gpt-realtime-mini establece una base con buena velocidad y razonamiento débil

Este primer benchmark establece a gpt-realtime-mini como un modelo optimizado para velocidad con compensaciones significativas en capacidad. El modelo demuestra un rendimiento excepcional en tareas sensibles a la latencia, alcanzando una mediana de tiempo hasta el primer token de 320ms y procesando a 85 tokens por segundo. Estas métricas lo posicionan entre los modelos más rápidos para aplicaciones en tiempo real como interacciones de voz y escenarios de chat en vivo. Sin embargo, las capacidades de razonamiento muestran limitaciones considerables. El modelo obtiene un 45.2% en MMLU, sustancialmente por debajo de los modelos de frontera, y alcanza solo un 38.7% en tareas de razonamiento matemático en GSM8K. La generación de código en HumanEval llega al 52.3%, lo que indica una competencia básica en programación pero queda por debajo de los modelos especializados en código. La calidad de escritura creativa puntúa 6.8 sobre 10, sugiriendo un rendimiento adecuado para contextos conversacionales. El modelo parece diseñado específicamente para escenarios donde la velocidad de respuesta importa más que el razonamiento complejo. Los usuarios pueden esperar un rendimiento confiable en bots de servicio al cliente, asistentes de voz y aplicaciones interactivas, pero no deberían depender de él para tareas que requieran análisis profundo, matemáticas avanzadas o generación de código sofisticada. La línea base establece fortalezas claras en velocidad y limitaciones claras en profundidad de razonamiento.

Quality

Latency p50

Test runs

0

Velocidad excepcional: 320ms TTFT 85 tokens/seg de rendimiento Razonamiento débil: 45,2% MMLU Matemáticas limitadas: 38,7% GSM8K
Sección 06

Perfil completo del modelo

gpt-realtime-mini — illustration 1
gpt-realtime-mini: el endpoint voz-a-voz optimizado para agentes conversacionales con restricciones de latencia

gpt-realtime-mini es el hermano menor, más rápido y económico dentro de la familia de voz en tiempo real de OpenAI. Misma forma de API que el gpt-realtime completo. Misma conexión de streaming basada en WebSocket. Misma capacidad de llamadas a funciones y uso de herramientas. Lo que sacrificas es parte de la profundidad de razonamiento y la coherencia en conversaciones largas que el modelo completo mantiene. Lo que obtienes a cambio es una reducción significativa del coste por llamada y una ventaja leve en latencia que se amplifica a escala.

Qué cubre

El mini maneja el bucle conversacional completo de extremo a extremo: escuchar, razonar, hablar, llamar herramientas, estado multi-turno. La detección de actividad de voz impulsa la toma de turnos. El modelo interrumpe con gracia cuando el usuario comienza a hablar a mitad de respuesta. Las llamadas a funciones ocurren dentro de la conexión persistente sin romper el flujo de audio. Todo lo que hace que gpt-realtime se sienta como una llamada telefónica en lugar de una API de solicitud-respuesta está presente en el mini.

La restricción es el presupuesto de parámetros. El mini es un modelo más pequeño. Maneja bien árboles de intención estructurados y flujos de conversación acotados. Comienza a perder fidelidad en conversaciones que requieren mantener razonamiento matizado de múltiples pasos a través de muchos turnos, o que necesitan manejar patrones complejos de llamadas a herramientas ramificadas donde el bot necesita recordar qué camino tomó hace cinco minutos.

Para la mayoría de productos de voz esto está bien. Bots de atención al cliente que responden preguntas rutinarias, reemplazos de IVR que enrutan llamadas inteligentemente, bots de reservas y pedidos que guían al usuario a través de un flujo fijo, herramientas de accesibilidad que envuelven el estado de aplicaciones en conversación. Todas estas cargas de trabajo encajan cómodamente dentro del sobre de capacidad del mini.

Dónde se muestra la ventaja de latencia

El tiempo hasta el primer audio es ligeramente más ajustado que el modelo completo. La diferencia no es dramática en ninguna llamada individual pero importa a escala. Si estás ejecutando un servicio de voz de alto volumen donde la percepción de capacidad de respuesta del usuario impulsa las métricas de satisfacción, la ventaja de latencia del mini se traduce en una experiencia de usuario mediblemente mejor.

La historia del coste es el impulsor más grande. Para despliegues de alto volumen de llamadas, la diferencia de coste por minuto entre mini y completo se amplifica rápidamente. Un bot que maneja diez mil llamadas al mes a cinco minutos por llamada alcanza un perfil de costes completamente diferente en mini versus completo, y esa diferencia financia mucho desarrollo de producto.

El compromiso se muestra en las llamadas difíciles. Aquellas donde el usuario pregunta algo que el bot no esperaba, o encadena una solicitud compleja de múltiples partes, o necesita que el bot maneje una secuencia de llamadas a herramientas que dependen del estado de la conversación. En esas llamadas el mini tiene más probabilidad de producir una respuesta menos satisfactoria o de perder el rastro del contexto. Para la mayoría de cargas de trabajo esas llamadas son la minoría, y un camino limpio de escalamiento a un agente humano las cubre.

Dónde se queda corto

Razonamiento complejo de múltiples pasos durante una conversación. Si el usuario pide al bot que compare tres opciones de producto a través de cinco criterios y recomiende la mejor, el mini a menudo producirá algo que suena plausible pero omite una dimensión de comparación o se contradice a sí mismo entre turnos. El gpt-realtime completo maneja estos turnos intensivos en razonamiento mejor.

Conversaciones largas con estado significativo. Pasados aproximadamente quince minutos de conversación densa, el mini comienza a perder fidelidad en detalles de etapas anteriores de la llamada. Puedes solucionar esto con inyección periódica de resumen pero es fricción. El modelo completo mantiene conversaciones más largas con mayor limpieza.

Ramificación de llamadas a herramientas con estado profundo. Si tu bot necesita llamar a una docena de funciones diferentes en una secuencia donde cada llamada depende de los resultados de la anterior, el mini maneja la forma pero tiene más probabilidad de perder el rastro que el modelo completo.

Elegirlo o subir de nivel

Por defecto usa gpt-realtime-mini para nuevas construcciones de productos de voz donde el patrón conversacional está acotado y el coste por llamada importa. Es el nivel correcto para la mayor parte del trabajo de voz de cara al cliente, particularmente para productos que necesitan escalar a miles de sesiones concurrentes sin quemar el presupuesto en el modelo completo.

Sube a gpt-realtime o gpt-realtime-1.5 cuando el patrón conversacional es genuinamente abierto, el usuario espera razonamiento profundo, o la historia de uso de herramientas es lo suficientemente compleja como para que la tasa de fallo del mini se convierta en un problema real de producto. Para anclaje de alias fechado en flujos de trabajo regulados, gpt-realtime-mini-2025-10-06 y gpt-realtime-mini-2025-12-15 son las instantáneas a anclar.

Para síntesis pura sin el bucle conversacional, gpt-4o-mini-tts es el nivel TTS dedicado. Para pipelines de transcripción con resumen que no necesitan la forma de diálogo en vivo, gpt-audio-mini cubre esa carga de trabajo a coste aún menor. Entre proveedores, los endpoints TTS de Google como gemini-2.5-flash-preview-tts no coinciden con la arquitectura de bucle conversacional, por lo que la comparación directa es engañosa. La residencia de datos en la UE no está satisfecha por defecto en ninguno de los endpoints realtime de OpenAI.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-realtime-mini — illustration 2gpt-realtime-mini — illustration 3
Última prueba automática
31 may 2026 · 04:22 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026