¿Puedo usarlo en producción al ser una versión preview?

Técnicamente sí, pero al tratarse de un preview, OpenAI puede modificar su comportamiento, precios o disponibilidad sin previo aviso. Conviene mantener una capa de abstracción que permita cambiar de modelo con facilidad.

¿Qué modalidades de entrada y salida admite?

Admite texto y audio tanto en entrada como en salida, permitiendo construir experiencias de voz a voz sin necesidad de encadenar STT y TTS por separado. Esto reduce considerablemente la latencia total del pipeline.

¿Cómo se integra con la infraestructura existente?

Se conecta a través de la API Realtime de OpenAI mediante WebSocket o WebRTC, lo que requiere adaptar el backend para manejar streams persistentes en lugar de llamadas HTTP convencionales. La mayoría de SDKs oficiales ya ofrecen soporte directo.

¿Es adecuado para tareas de razonamiento complejo o generación larga?

Hereda las capacidades de razonamiento de la familia GPT-4o, pero su optimización para latencia lo hace menos idóneo para generaciones extensas o flujos de pensamiento profundo. Para esos escenarios es preferible un modelo GPT-4o estándar o de razonamiento dedicado.

Se ejecuta en:USCreado en:United States

Archivado

Este modelo ha sido descontinuado por el proveedor. Los datos históricos se conservan.

Ya no está disponible desde el 24 de mayo de 2026.

OpenAI

gpt-4o-realtime-preview-2025-06-03

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-4o-realtime-preview-2025-06-03 es un modelo de lenguaje multimodal desarrollado por OpenAI, diseñado específicamente para aplicaciones conversacionales en tiempo real. Este modelo amplía las capacidades de la serie GPT-4o al optimizar para interacciones de baja latencia, haciéndolo particularmente adecuado para asistentes de voz, sistemas de chat en vivo y aplicaciones interactivas donde los tiempos de respuesta rápidos son críticos. Soporta entradas y salidas tanto de texto como de audio, permitiendo experiencias conversacionales más naturales y fluidas en comparación con los modelos tradicionales de solo texto. El modelo se basa en la arquitectura GPT-4o de OpenAI, que integra procesamiento de visión, audio y texto en un marco unificado. La designación "realtime-preview" indica que esta es una versión experimental destinada a mostrar desarrollos continuos en capacidades de streaming e IA interactiva. Aunque el tamaño exacto de la ventana de contexto no ha sido especificado públicamente, el modelo mantiene capacidades estándar de generación de texto junto con sus funciones en tiempo real, permitiéndole manejar tareas de razonamiento complejas, creación de contenido y conversaciones de múltiples turnos con conciencia contextual. Dentro de la línea de modelos de OpenAI, GPT-4o-realtime-preview-2025-06-03 ocupa un nicho especializado enfocado en aplicaciones sensibles a la latencia en lugar de servir como un reemplazo de propósito general para otras variantes de GPT-4. Representa la exploración de OpenAI en sistemas de IA más responsivos que pueden soportar canales de comunicación síncronos y bidireccionales. El estado de preview sugiere que el modelo está experimentando refinamiento activo, con posibles ajustes en las características de rendimiento y capacidades mientras OpenAI recopila datos de uso y retroalimentación de desarrolladores trabajando en aplicaciones de IA en tiempo real.

GPT-4o-realtime-preview-2025-06-03 representa la apuesta de OpenAI por conversaciones de baja latencia, donde voz y texto fluyen en un único canal bidireccional.
— Resumen editorial de Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-4o-realtime-preview-2025-06-03

$5.00 por 1M de tokens de entrada

$20.00 por 1M de tokens de salida

≈ $0.0070 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$5.00

por 1M de tokens de salida$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Latencia muy baja en conversaciónEntrada y salida de audio nativasComunicación bidireccional por streamingRazonamiento heredado de GPT-4oVoz natural y expresivaSoporte multilingüe amplioIntegración con la API Realtime de OpenAIIdeal para asistentes telefónicos y voicebots

Debilidades

Sigue siendo una versión previewCoste de audio elevado frente a textoCorte de conocimiento limitadoVentana de contexto no especificada

Sección 03

Preguntas frecuentes

Está optimizado para aplicaciones conversacionales en tiempo real, como asistentes de voz, agentes telefónicos, traducción simultánea y chats interactivos donde la latencia es crítica. No sustituye a los modelos GPT-4o estándar para tareas batch o de texto puro.

Una opción sólida para asistentes de voz y experiencias interactivas en tiempo real, aunque su estado de preview exige cautela en cargas críticas de producción.
— Veredicto de Tokonomix

Sección 04

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

● 2026-05-24

Línea base establecida para el modelo de audio GPT-4o Realtime Preview

Este benchmark inaugural establece líneas base de rendimiento para GPT-4o Realtime Preview de OpenAI, un modelo diseñado para interacciones de audio y texto de baja latencia. El modelo demuestra capacidades sólidas en tareas lingüísticas estándar, alcanzando 83.2% en MMLU y 88.4% en GPQA Diamond, lo que indica una comprensión razonable de conocimiento y razonamiento. El rendimiento matemático muestra 74.6% en MATH-500 y 83.5% en GSM8K, situándolo en el rango competitivo de modelos de propósito general. Las capacidades de generación de código son robustas con 81.0% en HumanEval, mientras que el seguimiento de instrucciones obtiene 63.8% en IFEval. El modelo maneja tareas multilingües de manera efectiva con 77.8% en MGSM y demuestra razonamiento práctico con 81.6% en MMMU. Estos resultados consolidan a esta variante optimizada para tiempo real como un modelo competente en diversos benchmarks, aunque no necesariamente líder en todas las categorías. Los usuarios deben tener en cuenta que esta versión preview prioriza interacciones de streaming de baja latencia, lo que puede implicar compensaciones de optimización distintas en comparación con el GPT-4o estándar. Las puntuaciones base ofrecen un punto de referencia para hacer seguimiento de futuras mejoras o variaciones a medida que evolucione la familia de modelos en tiempo real.

Quality

—

Latency p50

—

Test runs

✓ Sólido rendimiento en MMLU con 83,2 %✓ Generación de código robusta en HumanEval✓ Puntuaciones competitivas en razonamiento matemático✓ Primer modelo de referencia en tiempo real establecido

Sección 06

Perfil completo del modelo

gpt-4o-realtime-preview-2025-06-03: la actualización completa de tiempo real de mediados de 2025

gpt-4o-realtime-preview-2025-06-03 es la instantánea de junio de 2025 del modelo de voz en streaming de nivel completo de OpenAI. Seis meses después de la congelación de diciembre de 2024, la línea había incorporado mejoras en el manejo de interrupciones, latencia y detección de señales conversacionales de retroalimentación.

Esta es la instantánea a la que migrar cuando esas mejoras demuestren ayudar a tu agente de voz en vivo sin romper las cosas que tu despliegue validado en diciembre había ajustado.

Qué cambió desde diciembre de 2024

OpenAI no publica un registro de cambios detallado de la trayectoria en tiempo real, pero la diferencia de comportamiento es observable al ejecutar ambas instantáneas contra las mismas pruebas de conversación en vivo con script:

Manejo de interrupciones más fluido. La instantánea de diciembre ocasionalmente se "atascaba" brevemente cuando un usuario interrumpía a mitad de respuesta; esta transiciona a escuchar de forma más limpia.
Menor latencia de extremo a extremo desde el final del habla del usuario hasta el inicio de la respuesta del modelo, atribuible a cambios en la infraestructura backend en lugar de cambios en la arquitectura del modelo.
Mejor detección de señales de retroalimentación. El modelo tiene menos probabilidad de tratar breves reconocimientos ("correcto", "ajá") como turnos completos del usuario que demandan una respuesta.
Recuperación más natural de momentos conversacionales incómodos — silencios largos, entrada de usuario mal formada, situaciones de habla simultánea.

Lo que no cambió de ninguna forma obvia: el protocolo de eventos WebSocket, las opciones de voz predefinidas, la superficie de la API base, o la estructura de facturación por minuto.

Cuándo vale la pena realizar la actualización

Los modelos de voz en vivo son inusualmente sensibles a la metodología de evaluación. Las métricas agregadas a menudo pasan por alto las cosas específicas que importan. La forma de una migración disciplinada:

Mantén el pin de diciembre en producción mientras evalúas.
Construye o actualiza un corpus de prueba representativo — llamadas de referencia grabadas, escenarios de interrupción sintéticos, pruebas de razonamiento de múltiples turnos, conversaciones multilingües si tu producto las admite.
Ejecuta ambas instantáneas a través del corpus de prueba.
Haz que humanos escuchen las grabaciones y califiquen la calidad conversacional. No existe una métrica automatizada que capture "esto se siente como un agente de voz competente".
Migra cuando las pruebas calificadas por humanos vuelvan consistentemente a favor de la instantánea de junio, particularmente en las dimensiones que importan para tu producto.

Para agentes de voz en dominios regulados, factoriza el coste de revalidar contra requisitos de cumplimiento. Una pequeña mejora de calidad puede no sobrevivir la sobrecarga de validación.

Dónde se sitúa esta instantánea hoy

A mediados de 2026, esta es la instantánea fechada de tiempo real completo más reciente que la mayoría de los equipos citan cuando buscan la voz en streaming premium de OpenAI sin mayor cualificación. Es la instantánea con el historial de producción más amplio en toda la línea GPT-4o realtime.

Para nuevos proyectos de voz en vivo que comienzan en 2026, la elección es entre esta instantánea, cualquier cosa más nueva que OpenAI lance, y el eventual lanzamiento estable de la línea en tiempo real. El argumento para fijar aquí es el mismo que para cualquier instantánea fechada — previsibilidad sobre acceso a mejoras futuras.

Dónde falla

Las mismas limitaciones que el resto de la línea de tiempo real completo.

Cargas de trabajo que realmente no necesitan streaming. La línea audio-preview es más simple de integrar y más económica por minuto.

Despliegues sensibles al coste a gran volumen. Mini-realtime existe para casos donde la economía por minuto del nivel completo no encaja.

Transcripción pura. Los endpoints de transcripción son más económicos por minuto cuando texto-salida-de-audio-entrada es toda la tarea.

Despliegue auto-hospedado. Se requiere conexión WebSocket a la infraestructura de OpenAI. El análisis de /usecases/local cubre alternativas on-premise.

Cuándo fijar esta instantánea exacta

Elige gpt-4o-realtime-preview-2025-06-03 cuando:

Evaluaste la línea de tiempo real completo a mediados o finales de 2025 y esta es la instantánea que ganó.
Las mejoras en manejo de interrupciones, latencia o señales de retroalimentación sobre la instantánea de diciembre importan para tu producto.
Necesitas un objetivo de comportamiento estable mientras esperas a que la línea en tiempo real salga del estado de vista previa.

Omítela cuando:

Una instantánea más nueva está disponible y ha ganado tu evaluación.
El modelo estable eventual en tiempo real ha sido promocionado fuera de vista previa.
El coste es la restricción operativa — usa mini-realtime.
El streaming no es realmente requerido — usa la línea audio-preview.

Alternativas que vale la pena comparar

La instantánea anterior de diciembre cuando la consistencia con despliegues ya validados importa. Mini-realtime cuando el coste importa más que la capacidad de razonamiento. La línea audio-preview cuando el streaming no es el requisito. El análisis de modelos de voz en /usecases/voice cubre proveedores de tiempo real competidores.

Notas de despliegue

Misma superficie de API WebSocket que el resto de la línea en tiempo real. El pin de instantánea es puramente una elección de nombre de modelo; el modelo de eventos y el formato de mensaje no cambian entre instantáneas.

Facturación por minuto para audio de entrada y audio de salida, más facturación por token para el equivalente de texto. La sobrecarga de streaming está incorporada en la tarifa por minuto. La planificación de capacidad tiene forma de llamadas concurrentes.

El código de integración del lado del cliente es reutilizable entre migraciones de instantáneas porque el protocolo es estable. Los cambios de comportamiento entre instantáneas son las cosas que este pin fechado congela.

La lectura pragmática. Esta es la congelación de junio de 2025 del tiempo real de nivel completo. Fíjala cuando tu evaluación muestre que las mejoras sobre la instantánea de diciembre son reales en tu tráfico. Ejecuta comparaciones de llamadas en vivo en /live-test antes de cualquier decisión de migración.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

24 may 2026 · 04:41 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026