¿Cuándo usar mini realtime vs realtime estándar?

Para aplicaciones de alto volumen donde cada sesión necesita ser económica y la calidad de respuesta puede ser moderada.

¿Se puede usar para soporte al cliente automatizado?

Sí, es ideal para sistemas de respuesta inmediata donde la velocidad y el costo son factores determinantes.

¿La baja latencia afecta la coherencia de respuestas?

OpenAI optimiza para mantener coherencia conversacional incluso en el modo de baja latencia.

Tier C — Especialista

Se ejecuta en:USCreado en:United States

Archivado

Este modelo ha sido descontinuado por el proveedor. Los datos históricos se conservan.

Ya no está disponible desde el 24 de mayo de 2026.

OpenAI

gpt-4o-mini-realtime-preview-2024-12-17

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-4o-mini-realtime-preview-2024-12-17 es una variante del modelo GPT-4o-mini de OpenAI, configurada específicamente para soportar capacidades de interacción en tiempo real. Este modelo está diseñado para aplicaciones que requieren experiencias conversacionales de baja latencia, como asistentes de voz, sistemas de atención al cliente en vivo y agentes de IA interactivos. La designación "realtime-preview" indica que se trata de una versión de desarrollo destinada a demostrar y probar funciones de procesamiento en tiempo real antes de su despliegue más amplio. Como parte de la familia GPT-4o, este modelo hereda la arquitectura multimodal que caracteriza a la serie "o" de OpenAI, aunque los detalles específicos sobre su ventana de contexto no se han divulgado. La designación "mini" indica que es una variante más pequeña y eficiente en comparación con el modelo GPT-4o completo, optimizada para tiempos de respuesta más rápidos y una menor carga computacional, manteniendo a la vez un rendimiento sólido en tareas estándar de generación de texto. Esto lo hace especialmente adecuado para casos de uso donde se priorizan la velocidad y la eficiencia junto con la calidad de salida. Dentro de la línea de modelos de OpenAI, GPT-4o-mini-realtime-preview ocupa un nicho especializado. Se sitúa por debajo del buque insignia GPT-4o en términos de escala y capacidad, pero ofrece ventajas claras para aplicaciones en tiempo real donde las características de latencia del modelo completo pueden resultar subóptimas. El estado de preview sugiere que este modelo representa una rama experimental de los esfuerzos de desarrollo de OpenAI, permitiendo a los desarrolladores explorar patrones de interacción de IA en tiempo real mientras la tecnología sigue madurando hacia versiones listas para producción.

GPT-4o Mini Realtime Preview combina baja latencia con el tamaño mini, orientado a aplicaciones conversacionales en tiempo real de bajo costo.
— Resumen de benchmark Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-4o-mini-realtime-preview-2024-12-17

$0.6000 por 1M de tokens de entrada

$2.40 por 1M de tokens de salida

≈ $0.0008 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.6000

por 1M de tokens de salida$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Latencia mínima para tiempo realMenor costo que realtime estándarAdecuado para chatbots de alta demandaConversación fluida con respuesta inmediataEscala económica en producciónAPI de OpenAI Realtime

Debilidades

Preview: no para producción críticaMenor capacidad de razonamiento que estándarFuncionalidades pueden cambiarContexto no documentado

Sección 03

Preguntas frecuentes

Una API especial de OpenAI para flujos de conversación de baja latencia con streaming de tokens optimizado para interactividad.

La opción más eficiente para construir interfaces conversacionales en tiempo real donde el costo por sesión debe minimizarse.
— Resumen de benchmark Tokonomix

Sección 04

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

● 2026-05-24

Línea base establecida para el modelo de vista previa en tiempo real con un rendimiento sólido

Este veredicto establece el perfil de rendimiento base para GPT-4o Mini Realtime Preview. El modelo demuestra capacidades sólidas en múltiples categorías de benchmarks, con resultados particularmente notables en razonamiento matemático y tareas de conocimiento general. El rendimiento en SimpleQA alcanza 15.5%, indicando una precisión factual sólida, mientras que el modelo logra 81.9% en MMLU, mostrando un conocimiento integral en diversas materias académicas. Las capacidades matemáticas son robustas, con 72.8% en MGSM y 84.3% en GSM8K, lo que sugiere habilidades aritméticas y de resolución de problemas confiables. El seguimiento de instrucciones, medido en 64.2% en IFEval, muestra una adherencia competente pero no excepcional a directivas complejas. Los resultados del benchmark MUSR revelan un rendimiento mixto en razonamiento, con Murder Mysteries en 47.8% y Object Placements en 59.3%, mientras que Team Allocation se queda atrás con 25.2%. Estas métricas base establecen el rango de rendimiento para esta variante de vista previa en tiempo real, proporcionando un punto de referencia para evaluaciones futuras. Los usuarios pueden esperar un rendimiento confiable en tareas lingüísticas estándar, con particular fortaleza en operaciones matemáticas, aunque los escenarios de razonamiento complejo de múltiples pasos pueden presentar desafíos.

Quality

—

Latency p50

—

Test runs

✓ Razonamiento matemático sólido establecido✓ Base sólida de conocimiento en MMLU✗ El razonamiento sobre Asignación de Equipos necesita mejorar✓ Buena precisión factual en SimpleQA

Sección 06

Perfil completo del modelo

gpt-4o-mini-realtime-preview-2024-12-17: la versión fija mini-realtime de diciembre

gpt-4o-mini-realtime-preview-2024-12-17 es la instantánea fechada de diciembre de 2024 del modelo pequeño de voz en streaming de OpenAI. La misma arquitectura realtime basada en WebSocket que el alias dinámico, congelada en ese punto de lanzamiento para que los despliegues de voz en producción puedan fijarse a un comportamiento conocido.

La versión fechada fija es lo que evita que un agente de voz en vivo se comporte de manera silenciosamente distinta la mañana después de que OpenAI publique una actualización de la línea preview.

Por qué fijar la versión importa más para voz realtime que para texto

Los agentes de voz en streaming tienen una superficie de comportamiento más amplia que los modelos de texto. Más allá de las respuestas que genera el modelo, también dependes de:

Exactamente cuándo el modelo considera completo un turno del usuario y comienza a responder.
Cuán agresivamente maneja el modelo las interrupciones cuando el usuario comienza a hablar sobre él.
El perfil de latencia desde el fin-del-habla-del-usuario hasta el inicio-de-la-respuesta-del-modelo.
Cómo el modelo maneja sonidos de retrocanal y breves silencios.

Todos estos aspectos pueden cambiar entre instantáneas preview, y los cambios en estas dimensiones se sienten como un producto diferente para el usuario final incluso cuando el razonamiento subyacente permanece sin cambios. Fijar a 2024-12-17 significa que la experiencia de llamada en vivo que pasó control de calidad sigue siendo la experiencia de llamada en vivo que se despliega.

Qué representa esta instantánea

Para el lanzamiento de diciembre de 2024, el mini-realtime preview tenía:

Establecido el protocolo de eventos WebSocket que las instantáneas más nuevas heredan.
Fijado el conjunto pequeño y fijo de voces de salida predefinidas compartidas con el resto de la línea de audio.
Resuelto las regresiones más disruptivas de detección de turno de las primeras versiones preview.

Lo que no tiene, en relación con instantáneas posteriores de 2025:

El manejo mejorado de interrupciones que llegó a mediados de 2025.
Las mejoras de latencia de los cambios en la infraestructura backend.
La detección refinada de retrocanal que suavizó el flujo conversacional.

Los agentes de voz validados a finales de 2024 o principios de 2025 muy probablemente pasaron contra esta instantánea.

La cuestión de la migración

Los modelos de voz realtime son el peor tipo de cosa para actualizar a ciegas. La forma de una migración disciplinada:

Mantén la versión fija de diciembre en producción mientras evalúas.
Vuelve a ejecutar un conjunto representativo de escenarios de conversación en vivo contra la instantánea candidata más nueva: llamadas grabadas, pruebas de interrupción sintéticas, toma de turnos en múltiples idiomas.
Observa regresiones en casos extremos que la instantánea más antigua manejaba. Las mejoras promedio pueden enmascarar escenarios específicos que empeoraron.
Migra cuando la instantánea más nueva gane demostrablemente en las métricas que importan para tu producto.

La política de deprecación de OpenAI da aviso anticipado, pero la política es el mínimo. Trata la versión fechada fija como transicional: migra hacia adelante cuando tu evaluación lo indique.

Dónde falla

Las mismas limitaciones que el resto de la línea mini-realtime.

Razonamiento pesado en medio de la conversación. Mini es el modelo pequeño. El realtime preview completo es la escalada correcta cuando el razonamiento se convierte en el cuello de botella.

Cargas de trabajo que en realidad no necesitan streaming. La línea audio-preview es más simple de integrar y más barata por minuto para voz de solicitud/respuesta.

Despliegue auto-hospedado. La API realtime requiere una conexión WebSocket a la infraestructura de OpenAI. El estudio de /usecases/local cubre qué está disponible cuando esa restricción vincula.

Estabilidad contractual de nivel producción más allá del horizonte de la instantánea. La etiqueta preview significa que la línea en su conjunto todavía está en flujo. La versión fechada fija te da estabilidad a nivel de instantánea, no estabilidad a nivel de categoría.

Cuándo fijar esta instantánea exacta

Elige gpt-4o-mini-realtime-preview-2024-12-17 cuando:

Desplegaste un producto de voz en vivo basado en el comportamiento mini-realtime de finales de 2024 y necesitas mantenerlo estable.
Un requisito de cumplimiento normativo fija la versión del modelo a nivel de instantánea.
Estás a mitad de la evaluación de instantáneas más nuevas y necesitas una línea base de producción estable mientras se ejecuta la evaluación.

Omítelo cuando:

Estás comenzando de cero: evalúa la instantánea más reciente y fija esa.
Las mejoras en instantáneas posteriores han ganado en tu evaluación.
La línea realtime finalmente se gradúa de preview a estable: ese es el objetivo correcto para proyectos nuevos.

Notas de despliegue

El protocolo WebSocket no ha cambiado entre instantáneas mini-realtime hasta ahora. La versión fija de la instantánea es puramente una elección de nombre de modelo; el modelo de eventos y el formato de mensaje son idénticos al alias dinámico tal como estaba en la fecha de lanzamiento.

Facturación por minuto para audio de entrada y audio de salida, más facturación por token de texto para el equivalente de texto que fluye a través del modelo. La sobrecarga realtime está integrada en la tarifa por minuto. La planificación de capacidad se acerca más a "llamadas activas concurrentes" que a "solicitudes por segundo."

La gestión de estado del lado del cliente es el costo de integración que pagas por el streaming. Los clientes móviles especialmente necesitan un manejo cuidadoso de reconexiones WebSocket, almacenamiento en búfer de audio y transiciones de estado de turno. Nada de eso cambia entre instantáneas: el protocolo es estable. Los detalles de comportamiento que sí cambian entre instantáneas son exactamente las cosas que esta versión fechada fija congela para ti.

La lectura pragmática. Esta es la congelación de diciembre de 2024 de mini-realtime. Fíjala cuando tu producto de voz en vivo fue validado contra ella. Migra cuando tu propia evaluación demuestre que la siguiente instantánea es el movimiento correcto. Ejecuta comparaciones de llamadas en vivo en /live-test antes de comprometerte.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

24 may 2026 · 04:47 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026