
gpt-4o-realtime-preview es el modelo de voz streaming de nivel completo de OpenAI. Audio bidireccional sobre una conexión WebSocket. Gestión de turnos, manejo de interrupciones, latencia inferior al segundo desde el final del habla del usuario hasta el inicio de la respuesta. El modelo que te permite construir agentes de voz que se sienten como llamadas telefónicas en lugar de relevos de transcribir-luego-pensar-luego-hablar.
Esta es la variante de capacidad completa. El hermano mini-realtime es la opción de nivel de coste para cargas de trabajo donde el margen de razonamiento no es el factor limitante.
Lo que realmente requiere la voz streaming
Construir un agente de voz que no se sienta roto necesita más que un motor TTS rápido pegado a un motor STT rápido. La vista previa en tiempo real viene con las cosas que el trabajo de voz en modo difícil necesita:
- El modelo comienza a procesar antes de que el usuario haya terminado de hablar. Para cuando el usuario deja de hablar, la respuesta ya se está formando.
- El usuario puede interrumpir al modelo a mitad de respuesta y el modelo lo gestiona con elegancia — se detiene, escucha, procesa la nueva entrada, responde.
- Los silencios y sonidos de retroalimentación conversacional ("ajá", pausas breves) se leen como señales conversacionales en lugar de límites de turno.
- La latencia de extremo a extremo desde que el usuario deja de hablar hasta que el modelo empieza a hablar está muy por debajo del umbral donde una llamada telefónica se siente retrasada.
La vista previa en tiempo real es la respuesta arquitectónica a ese conjunto de requisitos. La variante de nivel completo tiene la capacidad de razonamiento para manejar agentes de voz que necesitan pensar cuidadosamente sobre lo que se dijo, no solo reaccionar a ello.
Donde el nivel completo justifica su coste
Cargas de trabajo donde mini-realtime es la opción incorrecta y la capacidad de razonamiento de nivel completo es el diferenciador.
Agentes de voz complejos de atención al cliente que necesitan manejar interacciones de múltiples pasos — recopilar información, consultar el estado de la cuenta, razonar sobre casos límite, responder con el nivel adecuado de detalle. Mini-realtime puede enrutar y clasificar; el nivel completo puede realmente llevar la conversación.
Trabajo de conocimiento impulsado por voz donde el usuario está pidiendo al modelo que piense en voz alta — conversaciones de diagnóstico, guías de solución de problemas, escenarios de coaching. El nivel completo puede mantener contexto a lo largo de turnos más largos y razonar sobre declaraciones ambiguas del usuario.
Agentes de voz multilingües donde el modelo necesita cambiar de idioma a mitad de conversación y mantener la calidad de razonamiento a través del cambio. Mini-realtime maneja la cobertura de idiomas; el nivel completo maneja la calidad del razonamiento translingüístico.
Interfaces de voz de alta responsabilidad donde la calidad de salida importa más que el coste por minuto — productos de accesibilidad en dominios críticos, asistentes de consulta profesional, escenarios donde una respuesta incorrecta es mucho más cara que la tarifa por minuto de un modelo más capaz.
Notas arquitectónicas
Arquitectura de la familia GPT-4o "omni", dimensionamiento de nivel completo, canalizado a través de un transporte WebSocket en lugar de la API Chat Completions de petición/respuesta.
La capa de streaming añade complejidad operacional:
- Una conexión persistente por conversación activa.
- Semántica de eventos impulsada por el servidor con eventos explícitos de inicio-de-turno, fin-de-turno, modelo-pensando, audio-fluyendo.
- Una historia de integración del cliente más compleja que REST estándar.
- Gestión de sesión con estado tanto en cliente como en servidor.
OpenAI no ha publicado recuentos de parámetros de nivel completo. Comportamiento observable: mismos formatos de audio de entrada que mini-realtime, mismas opciones de voz preestablecidas fijas, techo de razonamiento efectivo más amplio que la variante mini.
Donde falla
Cargas de trabajo que en realidad no necesitan streaming. Usa la línea audio-preview — es más simple de integrar y más barata por minuto. Elige realtime por el requisito de streaming, no por la marca de la familia de modelos.
Despliegues sensibles al coste a alto volumen. La variante mini-realtime existe precisamente para casos donde la economía por minuto de nivel completo no sobrevive al volumen.
Transcripción pura. Los endpoints de transcripción cuestan menos por minuto para texto-salida-desde-audio-entrada.
Despliegue auto-hospedado. Se requiere conexión WebSocket a la infraestructura de OpenAI. Consulta /usecases/local para opciones on-premise.
Estabilidad contractual de grado de producción. Etiquetado como preview. Fija la instantánea fechada para predictibilidad de comportamiento mientras la línea todavía está en flujo.
Entornos de cliente móvil complejos. El protocolo WebSocket y el modelo de eventos con estado añaden coste de ingeniería que los equipos móviles en particular necesitan presupuestar.
Cuándo recurrir a él
Elige gpt-4o-realtime-preview cuando:
- Estés construyendo un agente de voz en vivo y la carga de razonamiento detrás de la voz sea lo suficientemente pesada como para que mini-realtime fuera el cuello de botella.
- El producto pueda absorber la complejidad operacional de la integración WebSocket.
- La calidad de voz y la calidad de razonamiento juntas justifiquen la economía por minuto.
Omítelo cuando:
- La aplicación en realidad no necesite streaming — usa la línea audio-preview.
- El coste sea la restricción operativa — usa mini-realtime.
- El despliegue deba ser on-premise.
- La carga de trabajo sea solo transcripción — usa los endpoints de transcripción.
Alternativas que vale la pena comparar
Mini-realtime cuando el coste importa más que la capacidad de razonamiento. La línea audio-preview cuando no se requiere streaming. Los endpoints de transcripción y TTS cuando una dirección del bucle de audio es toda la tarea. El estudio más amplio de modelos de voz en /usecases/voice cubre proveedores de tiempo real competidores.
Notas de despliegue
API WebSocket, materialmente diferente del resto del catálogo de OpenAI. Espera inversión de ingeniería en la máquina de estados del lado del cliente, particularmente para clientes móviles e integrados.
Facturación por minuto para audio entrante y audio saliente, más facturación por token para el equivalente de texto que fluye a través del modelo. La sobrecarga de streaming está incorporada en la tarifa por minuto. La planificación de capacidad está más cerca de "llamadas activas concurrentes" que de "peticiones por segundo".
La lectura pragmática. La vista previa en tiempo real es el modelo correcto cuando la voz en vivo importa y la capacidad de razonamiento importa. Es el modelo incorrecto cuando el streaming no se requiere realmente, o cuando el dimensionamiento apropiado para el nivel de coste significa elegir mini-realtime en su lugar. Pruébalo contra tus escenarios de voz reales en /live-test.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

