Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o-realtime-preview-2024-12-17

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o Realtime Preview (2024-12-17) es un modelo de IA multimodal desarrollado por OpenAI, diseñado para soportar aplicaciones conversacionales en tiempo real con capacidades de procesamiento de texto y audio de baja latencia. Esta versión preliminar forma parte de la familia GPT-4o de OpenAI, que prioriza el rendimiento optimizado para casos de uso interactivos donde la respuesta inmediata es crítica. El modelo gestiona tareas estándar de generación de texto y está arquitectado para minimizar retrasos en el procesamiento y entrega de respuestas, lo que lo hace particularmente adecuado para aplicaciones como asistentes de voz, soporte al cliente en vivo y agentes conversacionales interactivos. El modelo incorpora las últimas mejoras arquitectónicas de OpenAI para gestionar entradas y salidas simultáneas de texto y audio, aunque el tamaño específico de la ventana de contexto no ha sido divulgado públicamente. Mantiene las capacidades generales de comprensión y generación de lenguaje características de la serie GPT-4, incluyendo razonamiento, escritura creativa, generación de código y tareas de análisis. La designación "realtime preview" indica que se trata de un lanzamiento experimental destinado a pruebas y retroalimentación de desarrolladores, en lugar de una versión final de producción. Dentro de la línea de modelos de OpenAI, GPT-4o Realtime Preview se ubica junto a otras variantes de GPT-4o como una opción especializada para aplicaciones sensibles a la latencia. Complementa los modelos GPT-4o estándar al priorizar la velocidad de interacción sobre la longitud máxima de contexto o el rendimiento, representando la continua expansión de OpenAI hacia aplicaciones de IA en tiempo real. Al tratarse de una versión preliminar, los desarrolladores deben anticipar posibles actualizaciones y ajustes basados en patrones de uso y observaciones de rendimiento.

GPT-4o Realtime Preview de diciembre 2024 ofrece procesamiento de texto y audio en tiempo real con la arquitectura omnimodal de GPT-4o.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o-realtime-preview-2024-12-17
$5.00 por 1M de tokens de entrada
$20.00 por 1M de tokens de salida
≈ $0.0070 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$5.00
por 1M de tokens de salida$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Baja latencia en tiempo realAudio y texto integradosConversación fluida sin cortesSnapshot estable de diciembre 2024Asistentes de voz y soporte en vivoSoporte multilingüe en tiempo real

Debilidades

Preview: capacidades en maduraciónContexto no documentadoComportamiento puede variar entre versionesCosto mayor que modelos de procesamiento batch
Sección 03

Preguntas frecuentes

Asistentes de voz en vivo, soporte al cliente en tiempo real e interfaces conversacionales donde la respuesta inmediata es esencial.

El primer snapshot de la API Realtime de OpenAI con capacidades audio, estableciendo la referencia para interacciones conversacionales de baja latencia.

Resumen de benchmark Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

Línea base establecida para el modelo audio-first GPT-4o Realtime Preview

Esto marca el primer benchmark para GPT-4o Realtime Preview, el modelo de audio nativo de OpenAI diseñado para interacciones de voz de baja latencia. El modelo demuestra un rendimiento sólido en benchmarks estándar, alcanzando 86.3% en MMLU y 88.0% en GPQA, ubicándose en el nivel superior de los modelos de lenguaje contemporáneos. El razonamiento matemático muestra capacidad con 76.6% en GSM8K y 51.1% en MATH, indicando un desempeño sólido pero no excepcional en tareas cuantitativas complejas. El modelo exhibe fuertes habilidades de programación con 83.2% en HumanEval y mantiene un rendimiento multilingüe competitivo con 85.8% en MGSM. Las capacidades de visión son robustas con 69.1% en MMMU, aunque esto representa el extremo inferior en comparación con los modelos multimodales de frontera. El modelo muestra un razonamiento equilibrado con 82.0% en DROP y 78.5% en GPQA Diamond. Como modelo orientado al audio y optimizado para interacción en tiempo real, estos benchmarks proporcionan una línea base para rastrear cómo evoluciona el modelo en futuras iteraciones. Los usuarios deben tener en cuenta que esta es una versión preview, lo que sugiere desarrollo continuo y posibles mejoras en versiones posteriores.

Quality

Latency p50

Test runs

0

Sólido rendimiento en MMLU con un 86,3 % Capacidades de codificación robustas en HumanEval Puntuaciones competitivas en razonamiento multilingüe Resultados moderados en el benchmark MATH
Sección 06

Perfil completo del modelo

gpt-4o-realtime-preview-2024-12-17 — illustration 1
gpt-4o-realtime-preview-2024-12-17: la versión fija de tiempo real de diciembre

gpt-4o-realtime-preview-2024-12-17 es la instantánea fechada de diciembre de 2024 del modelo de voz en streaming de nivel completo de OpenAI. Es la congelación del alias móvil gpt-4o-realtime-preview tal como se encontraba ese mes, bloqueada para implementaciones de voz en producción que fijan un comportamiento específico.

Para agentes de voz en vivo de nivel completo, la instantánea fija es lo que mantiene predecibles el flujo de llamadas, el manejo de interrupciones y el estilo de razonamiento mientras OpenAI continúa iterando sobre la línea de vista previa.

Lo que representa esta instantánea

Para diciembre de 2024, la vista previa completa de tiempo real tenía:

  • El protocolo de eventos WebSocket establecido que las instantáneas posteriores heredan.
  • Bloqueado el pequeño conjunto fijo de voces de salida preestablecidas compartidas con el resto de la familia de audio.
  • Resueltas las regresiones más disruptivas de detección de turnos de las versiones preliminares iniciales.

Lo que no tiene, en comparación con instantáneas posteriores de 2025:

  • El manejo mejorado de interrupciones que llegó a mediados de 2025 y permitió al modelo recuperarse de forma más elegante de las interrupciones del usuario.
  • Las mejoras de latencia derivadas de cambios en la infraestructura backend durante el segundo trimestre de 2025.
  • La detección refinada de canal posterior que suavizó el flujo conversacional.

Los agentes de voz en vivo validados a finales de 2024 o principios de 2025 muy probablemente fueron aprobados contra esta instantánea.

Por qué fijar versiones importa más para tiempo real de nivel completo que para mini-tiempo real

El modelo de nivel completo es el que lleva la conversación en implementaciones donde la calidad del razonamiento impulsa la experiencia del usuario. Los cambios de comportamiento en este nivel afectan:

  • Cómo el modelo formula respuestas a preguntas ambiguas.
  • Con qué agresividad el modelo hace preguntas aclaratorias versus inferir la intención.
  • Cómo el modelo maneja solicitudes de casos extremos que se sitúan cerca de los límites de rechazo.
  • Cómo el modelo integra información a través de múltiples turnos del usuario dentro de una sola llamada.

Todos estos aspectos son visibles para los usuarios finales, y los cambios en cualquiera de ellos se sienten como un agente de voz diferente incluso cuando la voz superficial no ha cambiado. Fijar a 2024-12-17 significa que el comportamiento conversacional que tu control de calidad validó sigue siendo el comportamiento conversacional en producción.

La cuestión de la migración

Los agentes de voz en vivo son el peor tipo de cosa para actualizar por fe. La forma de una migración disciplinada:

  • Mantén la versión fija de diciembre en producción mientras evalúas.
  • Vuelve a ejecutar un conjunto representativo de escenarios de conversación en vivo contra la instantánea más reciente candidata — llamadas de referencia grabadas, pruebas sintéticas de interrupción, escenarios de razonamiento multiturnos en los idiomas que tu producto soporta.
  • Observa regresiones en casos extremos que la instantánea anterior manejaba. Las mejoras agregadas a menudo ocultan escenarios específicos que empeoraron.
  • Migra cuando la instantánea más reciente gane en las métricas que importan para tu producto, con evaluación humana como desempate en la calidad conversacional subjetiva.

La política de depreciación de OpenAI proporciona aviso anticipado antes de retirar instantáneas fechadas, pero la política es el mínimo. Trata la versión fija fechada como un contrato transitorio — migra hacia adelante cuando tu evaluación lo indique.

Dónde falla

Las mismas limitaciones que el resto de la línea de tiempo real completo.

Cargas de trabajo que en realidad no necesitan streaming. La línea audio-preview es la elección correcta para voz de solicitud/respuesta.

Implementaciones sensibles al coste con alto volumen. Mini-tiempo real existe para casos donde la economía por minuto de nivel completo no encaja.

Transcripción pura. Los endpoints de transcripción son más baratos por minuto cuando texto-salida-desde-audio-entrada es toda la tarea.

Implementación auto-alojada. Se requiere conexión WebSocket a la infraestructura de OpenAI. Consulta /usecases/local para opciones on-premise.

Estabilidad contractual de nivel producción más allá del horizonte de la instantánea. La etiqueta preview significa que la categoría todavía está en flujo. La versión fija fechada proporciona estabilidad a nivel de instantánea, no estabilidad a nivel de categoría.

Cuándo fijar esta instantánea exacta

Elige gpt-4o-realtime-preview-2024-12-17 cuando:

  • Lanzaste un producto de voz en vivo con el comportamiento de tiempo real completo de finales de 2024 y necesitas mantenerlo estable.
  • Un requisito de cumplimiento fija la versión del modelo a nivel de instantánea.
  • Estás en mitad de la evaluación de instantáneas más recientes y necesitas una línea base de producción estable mientras se ejecuta la evaluación.

Omítela cuando:

  • Estás comenzando desde cero — evalúa la instantánea más reciente y fija esa.
  • Las mejoras de manejo de interrupciones, latencia o canal posterior en instantáneas posteriores han ganado en tu evaluación.
  • La línea de tiempo real se gradúa de vista previa a estable — ese es el objetivo correcto para nuevos proyectos.

Alternativas que vale la pena comparar

La instantánea más reciente gpt-4o-realtime-preview-2025-06-03 cuando las mejoras de junio de 2025 ganan demostrablemente. Mini-tiempo real cuando el coste importa más que la capacidad de razonamiento. La línea audio-preview para voz sin streaming. El estudio más amplio de modelos de voz en /usecases/voice cubre proveedores de tiempo real competidores.

Notas de implementación

Protocolo WebSocket sin cambios entre instantáneas de tiempo real hasta ahora. La versión fija de instantánea es puramente una elección de nombre de modelo; el modelo de eventos y el formato de mensaje son idénticos al alias móvil tal como estaba en la fecha de lanzamiento.

Facturación por minuto para audio de entrada y audio de salida, más facturación por token para el texto equivalente que fluye a través del modelo. La planificación de capacidad tiene forma de llamadas concurrentes.

La gestión de estado del lado del cliente es el coste de integración pagado por streaming. Nada de esa integración cambia entre instantáneas — el protocolo es estable. Los detalles de comportamiento que sí cambian entre instantáneas son exactamente lo que esta versión fija fechada congela para ti.

La lectura pragmática. Esta es la congelación de diciembre de 2024 del tiempo real de nivel completo. Fíjala cuando tu producto de voz en vivo fue validado contra ella y el coste de re-validación contra una instantánea más reciente supera el beneficio. Ejecuta comparaciones de llamadas en vivo en /live-test antes de cualquier migración.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o-realtime-preview-2024-12-17 — illustration 2
Última prueba automática
24 may 2026 · 04:47 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026