Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o-mini-realtime-preview

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o-mini-realtime-preview es un modelo de IA conversacional desarrollado por OpenAI, diseñado para soportar aplicaciones interactivas en tiempo real. Este modelo está optimizado para respuestas de streaming de baja latencia, lo que lo hace particularmente adecuado para asistentes de voz, sistemas de chat en vivo y otras aplicaciones donde la retroalimentación inmediata es esencial. Representa el esfuerzo de OpenAI por proporcionar a los desarrolladores herramientas para construir experiencias conversacionales responsivas sin las demoras típicamente asociadas con los modelos estándar de generación de texto. El modelo mantiene capacidades estándar de generación de texto mientras prioriza la velocidad de respuesta y el flujo conversacional. Como variante "mini" en la línea de modelos de OpenAI, está diseñado para equilibrar rendimiento con eficiencia computacional, ofreciendo una opción más consciente de los recursos en comparación con modelos más grandes en la familia GPT-4. La designación "realtime-preview" indica que esta es una versión experimental o de acceso anticipado, probablemente sujeta a refinamientos mientras OpenAI recopila retroalimentación de desarrolladores implementándolo en entornos de producción. Dentro del ecosistema de productos de OpenAI, GPT-4o-mini-realtime-preview se sitúa junto a otras variantes de GPT-4o, dirigiéndose específicamente a casos de uso donde la latencia conversacional es un factor crítico. Aunque el tamaño exacto de la ventana de contexto no está especificado, el modelo está construido sobre la familia de arquitectura GPT-4, incorporando mejoras en el seguimiento de instrucciones y comprensión contextual que caracterizan los modelos de cuarta generación de OpenAI. Este modelo sirve a desarrolladores que necesitan capacidades conversacionales en tiempo real sin requerir la capacidad completa de los modelos más grandes de OpenAI.

GPT-4o-mini-realtime-preview representa la apuesta de OpenAI por conversaciones de baja latencia, priorizando velocidad sobre capacidades avanzadas en un formato experimental optimizado para interacciones en tiempo real.

Análisis editorial Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o-mini-realtime-preview
$0.6000 por 1M de tokens de entrada
$2.40 por 1M de tokens de salida
≈ $0.0008 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.6000
por 1M de tokens de salida$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Respuestas de latencia ultra-bajaOptimizado para diálogos streamingDiseñado para asistentes de vozFlujo conversacional natural mantenidoEficiencia computacional mejoradaArquitectura GPT-4 subyacenteIdeal para chat en vivoEquilibrio rendimiento-recursos

Debilidades

Versión preview experimental inestableVentana de contexto no especificadaCapacidades reducidas vs GPT-4o completoTier C limita casos avanzados
Sección 03

Preguntas frecuentes

La variante realtime-preview está específicamente optimizada para streaming de baja latencia en aplicaciones conversacionales, priorizando velocidad de respuesta sobre la generación de texto tradicional por lotes. Es ideal cuando la interacción instantánea es más importante que la complejidad de razonamiento.

Para aplicaciones donde cada milisegundo cuenta en la experiencia conversacional, esta variante mini ofrece un punto de entrada accesible al ecosistema GPT-4o, aunque su estado preview recomienda cautela antes de despliegues críticos en producción.

Evaluación Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

Línea base establecida para vista previa en tiempo real con sólido rendimiento en programación

Esta es la primera evaluación de referencia para gpt-4o-mini-realtime-preview, estableciendo métricas de rendimiento base en múltiples dominios. El modelo demuestra capacidades particularmente sólidas en tareas de programación, alcanzando 81.7% en HumanEval y 76.8% en MBPP, lo que lo posiciona de forma competitiva entre los modelos realtime. El razonamiento matemático muestra un desempeño sólido con 72.6% en GSM8K, aunque los problemas más exigentes de nivel posgrado en GPQA reflejan margen de mejora con 31.8%. Las capacidades de seguimiento de instrucciones son robustas con 72.5% en IFEval, indicando un cumplimiento confiable de las restricciones del usuario. El soporte multilingüe se muestra competente con 62.8% en MMMLU, cubriendo comprensión de diversos idiomas. El modelo presenta un rendimiento equilibrado en tareas multimodales MMMU con 50.4%. Como variante realtime preview, estos resultados sientan las bases para dar seguimiento a futuras mejoras y optimizaciones. Los usuarios pueden esperar asistencia confiable en programación y resolución de problemas matemáticos para tareas estándar, con un mejor desempeño del modelo en desafíos de programación bien definidos. Su naturaleza realtime sugiere que está optimizado para aplicaciones interactivas que requieren respuestas de baja latencia, manteniendo una precisión competitiva en los benchmarks.

Quality

Latency p50

Test runs

0

Sólidas puntuaciones en pruebas de referencia de programación Capacidades sólidas de seguimiento de instrucciones Buen rendimiento en razonamiento matemático El razonamiento de nivel de posgrado necesita mejorar
Sección 06

Perfil completo del modelo

gpt-4o-mini-realtime-preview — illustration 1
gpt-4o-mini-realtime-preview: voz en streaming de gama pequeña

gpt-4o-mini-realtime-preview es el modelo pequeño de voz en streaming de OpenAI. Audio bidireccional a través de una conexión WebSocket. Gestión de turnos, manejo de interrupciones y respuesta de baja latencia: las características que hacen que un agente de voz se sienta como una llamada telefónica en lugar de un relevo de transcribir-pensar-hablar.

Este es el hermano en tiempo real del mini-audio preview. Mismo perfil de capacidad de gama pequeña, diferente transporte. Si necesitas voz conversacional en vivo y el presupuesto no alcanza para el realtime preview completo, este es el modelo.

Por qué la voz en streaming es su propio modelo

El audio de solicitud/respuesta (los endpoints audio-preview) espera a que el usuario termine de hablar, procesa el clip completo y devuelve una respuesta completa. Eso funciona para notas de voz, narradores de accesibilidad y asistentes paso a paso donde una pausa de medio segundo entre usuario y modelo es aceptable.

No funciona para llamadas telefónicas. La conversación real requiere:

  • El modelo comienza a pensar antes de que el usuario termine de hablar.
  • El usuario puede interrumpir al modelo a mitad de respuesta y el modelo lo maneja con elegancia.
  • El silencio y los sonidos de retroalimentación ("ajá", pausas breves) se leen como señales, no como límites de turno.
  • La latencia total desde que el usuario deja de hablar hasta que el modelo comienza a responder está por debajo del umbral donde la conversación se siente rota.

La línea realtime preview es la respuesta de OpenAI a ese conjunto de restricciones. Mini-realtime es la variante de gama pequeña para despliegues sensibles al coste.

Dónde tiene sentido mini-realtime

Agentes de voz a gran volumen donde la economía por minuto del realtime preview completo no encaja. Reemplazos de IVR. Puntos de entrada de servicio al cliente centrados en voz. Herramientas de accesibilidad que necesitan interacción conversacional en lugar de narración.

La destilación mini sacrifica margen de razonamiento. Para agentes de voz que enrutan, clasifican, recopilan información y responden —el pan de cada día del trabajo de voz empresarial— el margen no es el factor limitante. Los factores limitantes son la latencia, la calidad de la gestión de turnos y la prosodia. Mini-realtime es competitivo en los tres a un coste que realmente permite desplegar a escala.

Notas de arquitectura

Arquitectura de la familia GPT-4o "omni", destilada en la clase de tamaño mini, conectada a través de un transporte WebSocket en streaming en lugar de la API de Chat Completions de solicitud/respuesta.

La capa de streaming añade:

  • Una conexión persistente por conversación activa en lugar de por solicitud.
  • Semántica de eventos dirigida por el servidor: la API te indica cuándo comenzó un turno, cuándo el modelo empezó a pensar, cuándo comenzó a fluir el audio de vuelta, cuándo el usuario interrumpió.
  • Una historia de integración del cliente más compleja que REST estándar.

OpenAI no ha publicado los recuentos de parámetros de mini. Comportamiento observable: los mismos formatos de audio de entrada que el hermano de solicitud/respuesta, las mismas opciones de voz predefinidas fijas, cobertura de idiomas comparable con degradación en casos extremos para idiomas de menores recursos.

Dónde falla

Razonamiento pesado en medio de la conversación. Mini es el modelo pequeño. Si el agente de voz necesita encadenar razonamiento de múltiples pasos entre turnos de usuario, escala al realtime preview completo.

Cargas de trabajo que en realidad no necesitan streaming. Si tu producto de voz puede tolerar la latencia de solicitud/respuesta, la línea audio-preview es más simple de integrar y más económica por minuto. El nivel realtime debe elegirse por el requisito de streaming, no por la familia del modelo.

Estabilidad contractual de grado de producción. Etiquetado como preview. Fija la variante snapshot con fecha para predictibilidad de comportamiento.

Despliegue autoalojado o aislado. La API realtime requiere una conexión WebSocket en vivo a la infraestructura de OpenAI. Para cargas de trabajo de voz que no pueden salir de una red controlada, la encuesta /usecases/local es la referencia correcta.

Entornos de cliente complejos. El protocolo WebSocket y el modelo de eventos añaden complejidad operacional que REST no tiene. Los clientes móviles en particular necesitan una gestión de estado cuidadosa.

Cuándo recurrir a él

Elige gpt-4o-mini-realtime-preview cuando:

  • Estás construyendo un agente de voz en vivo y el perfil de costes del realtime preview completo no funciona con tu volumen esperado.
  • La carga de razonamiento detrás de la voz es ligera: enrutamiento, clasificación, recopilación de información, soporte conversacional.
  • Puedes absorber la complejidad operacional de una integración basada en WebSocket.

Omítelo cuando:

  • La aplicación en realidad no necesita voz en streaming: usa los hermanos audio-preview en su lugar.
  • La carga de razonamiento es lo suficientemente pesada como para que la calidad de salida de mini se convierta en el cuello de botella: escala al realtime preview completo.
  • El despliegue tiene que ser en las instalaciones propias.
  • Solo necesitas transcripción o solo necesitas texto a voz: los endpoints especializados cuestan menos y se integran más simplemente.

Alternativas que vale la pena revisar

El gpt-4o-realtime-preview completo cuando el razonamiento importa más que el coste. La línea audio-preview cuando en realidad no necesitas streaming. Los endpoints de transcripción y TTS cuando una dirección del bucle de audio es toda la tarea. La encuesta más amplia de modelos de voz en /usecases/voice cubre proveedores competidores en este nivel.

Notas de despliegue

API WebSocket en lugar de REST. El modelo de integración es materialmente diferente del resto del catálogo de OpenAI: espera invertir tiempo de ingeniería en la máquina de estados del lado del cliente.

Precios a nivel de sesión: por minuto de audio más por token para el equivalente de texto que fluye a través del modelo. La sobrecarga de streaming es real y aparece en la economía por minuto. La planificación de capacidad se acerca más a "llamadas activas concurrentes" que a "solicitudes por segundo".

La lectura pragmática. Mini-realtime es el modelo correcto cuando la voz en vivo importa y el coste importa. Es el modelo equivocado cuando el streaming no es realmente necesario, o cuando el agente de voz necesita un razonamiento que solo el realtime preview completo ofrece. Pruébalo contra tu tráfico de voz real en /live-test.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o-mini-realtime-preview — illustration 2gpt-4o-mini-realtime-preview — illustration 3
Última prueba automática
24 may 2026 · 04:39 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026