Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o-realtime-preview

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o-realtime-preview es una variante del modelo GPT-4o de OpenAI diseñada específicamente para admitir capacidades de interacción en tiempo real. A diferencia de los modelos estándar basados en texto, esta versión preliminar está optimizada para aplicaciones que requieren respuestas de baja latencia, como agentes conversacionales, sistemas de atención al cliente en vivo y aplicaciones interactivas de voz. Procesa y genera texto con un retraso mínimo, lo que lo hace adecuado para escenarios donde la retroalimentación inmediata es esencial para la experiencia del usuario. El modelo conserva los fundamentos arquitectónicos centrales de GPT-4o, incluidas las capacidades de comprensión multimodal, aunque su enfoque principal de despliegue es la generación de texto con características de rendimiento en tiempo real. Como versión preliminar, representa la exploración de OpenAI de modelos adaptados para aplicaciones sincrónicas y sensibles al tiempo, en lugar de procesamiento por lotes o asíncrono. El tamaño de la ventana de contexto no se ha especificado públicamente, algo habitual en variantes preliminares o especializadas durante su período de evaluación. Dentro de la línea de modelos de OpenAI, GPT-4o-realtime-preview ocupa un nicho especializado junto a los modelos estándar GPT-4o y GPT-4 Turbo. Mientras que esos modelos priorizan una capacidad amplia y eficiencia en diversos casos de uso, esta variante en tiempo real enfatiza la velocidad de respuesta y la fluidez de la interacción. Se posiciona como una oferta experimental para desarrolladores que construyen aplicaciones donde el flujo conversacional y la capacidad de respuesta temporal son requisitos críticos, complementando, en lugar de reemplazar, los modelos de lenguaje de propósito general de OpenAI.

GPT-4o Realtime Preview es la variante de baja latencia de GPT-4o, diseñada para aplicaciones conversacionales donde la respuesta inmediata define la experiencia de usuario.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o-realtime-preview
$5.00 por 1M de tokens de entrada
$20.00 por 1M de tokens de salida
≈ $0.0070 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$5.00
por 1M de tokens de salida$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Latencia optimizada para tiempo realSoporte de audio y texto integradoConversación fluida sin pausas perceptiblesIdeal para asistentes de vozMultilingüe en tiempo realSoporte para producción de alto volumen

Debilidades

Preview: funcionalidades en evoluciónMayor costo por sesión que procesamiento batchContexto no documentado públicamenteRazonamiento profundo: mejor en modo estándar
Sección 03

Preguntas frecuentes

Realtime usa streaming optimizado con latencia mínima; el modo estándar procesa la respuesta completa antes de enviar.

La latencia mínima de la API Realtime transforma las interacciones de usuario, eliminando la sensación de espera en conversaciones de IA.

Resumen de benchmark Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

Línea base establecida para el modelo audiovisual GPT-4o Realtime Preview

Esta evaluación inaugural de gpt-4o-realtime-preview establece métricas de rendimiento base en benchmarks multimodales. El modelo demuestra sólidas capacidades de razonamiento visual, alcanzando 63.5% en MMMU y 85.4% en MathVista, lo que indica un desempeño consistente en tareas que requieren comprensión visual y matemática combinada. El razonamiento basado en texto muestra resultados competitivos con 88.3% en GPQA Diamond y 85.5% en MMLU, reflejando aplicación de conocimiento a nivel de posgrado. Las capacidades matemáticas alcanzan 74.6% en MATH-500, posicionando al modelo como apto para tareas de resolución de problemas avanzados. La arquitectura admite procesamiento de audio en tiempo real junto con modalidades de visión y texto, diseñada para aplicaciones interactivas que requieren respuestas de baja latencia. El rendimiento en programación alcanza 82.6% en HumanEval, adecuado para asistencia práctica en codificación. Al tratarse de una versión preview, los usuarios deben considerar este modelo como un punto de referencia para rastrear futuras mejoras en la familia de modelos realtime. La integración multimodal aparece equilibrada entre dominios, sin que ninguna capacidad individual supere o quede notablemente por debajo de las demás. Esta línea base permitirá comparaciones significativas a medida que el modelo evolucione mediante actualizaciones y optimizaciones posteriores.

Quality

Latency p50

Test runs

0

Línea base sólida de razonamiento visual Conocimiento competitivo de nivel de posgrado Sólida resolución de problemas matemáticos Arquitectura multimodal en tiempo real
Sección 06

Perfil completo del modelo

gpt-4o-realtime-preview — illustration 1
gpt-4o-realtime-preview: voz streaming de nivel completo de OpenAI

gpt-4o-realtime-preview es el modelo de voz streaming de nivel completo de OpenAI. Audio bidireccional sobre una conexión WebSocket. Gestión de turnos, manejo de interrupciones, latencia inferior al segundo desde el final del habla del usuario hasta el inicio de la respuesta. El modelo que te permite construir agentes de voz que se sienten como llamadas telefónicas en lugar de relevos de transcribir-luego-pensar-luego-hablar.

Esta es la variante de capacidad completa. El hermano mini-realtime es la opción de nivel de coste para cargas de trabajo donde el margen de razonamiento no es el factor limitante.

Lo que realmente requiere la voz streaming

Construir un agente de voz que no se sienta roto necesita más que un motor TTS rápido pegado a un motor STT rápido. La vista previa en tiempo real viene con las cosas que el trabajo de voz en modo difícil necesita:

  • El modelo comienza a procesar antes de que el usuario haya terminado de hablar. Para cuando el usuario deja de hablar, la respuesta ya se está formando.
  • El usuario puede interrumpir al modelo a mitad de respuesta y el modelo lo gestiona con elegancia — se detiene, escucha, procesa la nueva entrada, responde.
  • Los silencios y sonidos de retroalimentación conversacional ("ajá", pausas breves) se leen como señales conversacionales en lugar de límites de turno.
  • La latencia de extremo a extremo desde que el usuario deja de hablar hasta que el modelo empieza a hablar está muy por debajo del umbral donde una llamada telefónica se siente retrasada.

La vista previa en tiempo real es la respuesta arquitectónica a ese conjunto de requisitos. La variante de nivel completo tiene la capacidad de razonamiento para manejar agentes de voz que necesitan pensar cuidadosamente sobre lo que se dijo, no solo reaccionar a ello.

Donde el nivel completo justifica su coste

Cargas de trabajo donde mini-realtime es la opción incorrecta y la capacidad de razonamiento de nivel completo es el diferenciador.

Agentes de voz complejos de atención al cliente que necesitan manejar interacciones de múltiples pasos — recopilar información, consultar el estado de la cuenta, razonar sobre casos límite, responder con el nivel adecuado de detalle. Mini-realtime puede enrutar y clasificar; el nivel completo puede realmente llevar la conversación.

Trabajo de conocimiento impulsado por voz donde el usuario está pidiendo al modelo que piense en voz alta — conversaciones de diagnóstico, guías de solución de problemas, escenarios de coaching. El nivel completo puede mantener contexto a lo largo de turnos más largos y razonar sobre declaraciones ambiguas del usuario.

Agentes de voz multilingües donde el modelo necesita cambiar de idioma a mitad de conversación y mantener la calidad de razonamiento a través del cambio. Mini-realtime maneja la cobertura de idiomas; el nivel completo maneja la calidad del razonamiento translingüístico.

Interfaces de voz de alta responsabilidad donde la calidad de salida importa más que el coste por minuto — productos de accesibilidad en dominios críticos, asistentes de consulta profesional, escenarios donde una respuesta incorrecta es mucho más cara que la tarifa por minuto de un modelo más capaz.

Notas arquitectónicas

Arquitectura de la familia GPT-4o "omni", dimensionamiento de nivel completo, canalizado a través de un transporte WebSocket en lugar de la API Chat Completions de petición/respuesta.

La capa de streaming añade complejidad operacional:

  • Una conexión persistente por conversación activa.
  • Semántica de eventos impulsada por el servidor con eventos explícitos de inicio-de-turno, fin-de-turno, modelo-pensando, audio-fluyendo.
  • Una historia de integración del cliente más compleja que REST estándar.
  • Gestión de sesión con estado tanto en cliente como en servidor.

OpenAI no ha publicado recuentos de parámetros de nivel completo. Comportamiento observable: mismos formatos de audio de entrada que mini-realtime, mismas opciones de voz preestablecidas fijas, techo de razonamiento efectivo más amplio que la variante mini.

Donde falla

Cargas de trabajo que en realidad no necesitan streaming. Usa la línea audio-preview — es más simple de integrar y más barata por minuto. Elige realtime por el requisito de streaming, no por la marca de la familia de modelos.

Despliegues sensibles al coste a alto volumen. La variante mini-realtime existe precisamente para casos donde la economía por minuto de nivel completo no sobrevive al volumen.

Transcripción pura. Los endpoints de transcripción cuestan menos por minuto para texto-salida-desde-audio-entrada.

Despliegue auto-hospedado. Se requiere conexión WebSocket a la infraestructura de OpenAI. Consulta /usecases/local para opciones on-premise.

Estabilidad contractual de grado de producción. Etiquetado como preview. Fija la instantánea fechada para predictibilidad de comportamiento mientras la línea todavía está en flujo.

Entornos de cliente móvil complejos. El protocolo WebSocket y el modelo de eventos con estado añaden coste de ingeniería que los equipos móviles en particular necesitan presupuestar.

Cuándo recurrir a él

Elige gpt-4o-realtime-preview cuando:

  • Estés construyendo un agente de voz en vivo y la carga de razonamiento detrás de la voz sea lo suficientemente pesada como para que mini-realtime fuera el cuello de botella.
  • El producto pueda absorber la complejidad operacional de la integración WebSocket.
  • La calidad de voz y la calidad de razonamiento juntas justifiquen la economía por minuto.

Omítelo cuando:

  • La aplicación en realidad no necesite streaming — usa la línea audio-preview.
  • El coste sea la restricción operativa — usa mini-realtime.
  • El despliegue deba ser on-premise.
  • La carga de trabajo sea solo transcripción — usa los endpoints de transcripción.

Alternativas que vale la pena comparar

Mini-realtime cuando el coste importa más que la capacidad de razonamiento. La línea audio-preview cuando no se requiere streaming. Los endpoints de transcripción y TTS cuando una dirección del bucle de audio es toda la tarea. El estudio más amplio de modelos de voz en /usecases/voice cubre proveedores de tiempo real competidores.

Notas de despliegue

API WebSocket, materialmente diferente del resto del catálogo de OpenAI. Espera inversión de ingeniería en la máquina de estados del lado del cliente, particularmente para clientes móviles e integrados.

Facturación por minuto para audio entrante y audio saliente, más facturación por token para el equivalente de texto que fluye a través del modelo. La sobrecarga de streaming está incorporada en la tarifa por minuto. La planificación de capacidad está más cerca de "llamadas activas concurrentes" que de "peticiones por segundo".

La lectura pragmática. La vista previa en tiempo real es el modelo correcto cuando la voz en vivo importa y la capacidad de razonamiento importa. Es el modelo incorrecto cuando el streaming no se requiere realmente, o cuando el dimensionamiento apropiado para el nivel de coste significa elegir mini-realtime en su lugar. Pruébalo contra tus escenarios de voz reales en /live-test.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o-realtime-preview — illustration 2gpt-4o-realtime-preview — illustration 3
Última prueba automática
24 may 2026 · 04:43 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026