Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-realtime-2025-08-28

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-Realtime-2025-08-28 es un modelo de lenguaje multimodal desarrollado por OpenAI, lanzado como parte de la evolución continua de la arquitectura GPT de la compañía. Este modelo representa el enfoque de OpenAI hacia la IA conversacional en tiempo real, diseñado específicamente para aplicaciones que requieren interacciones de baja latencia, como asistentes de voz, soporte al cliente en vivo y sistemas de diálogo interactivo. A diferencia de los modelos tradicionales de completado de texto, está optimizado para respuestas en streaming y para mantener el contexto conversacional con un retraso mínimo entre la entrada del usuario y la salida del modelo. El modelo admite capacidades estándar de generación de texto y procesa entradas tanto de texto como de audio, permitiendo interacciones naturales basadas en voz. Las especificaciones técnicas indican que se construye sobre la arquitectura transformer que sustenta la serie GPT de OpenAI, aunque el tamaño exacto de la ventana de contexto no ha sido divulgado públicamente por el proveedor. El modelo incorpora mejoras en la latencia de respuesta y la coherencia conversacional en comparación con iteraciones anteriores, lo que lo hace particularmente adecuado para escenarios donde la retroalimentación inmediata es esencial. Dentro de la línea de modelos de OpenAI, GPT-Realtime-2025-08-28 ocupa una posición especializada centrada en casos de uso síncronos e interactivos, en lugar de procesamiento por lotes o tareas asíncronas. Complementa la familia GPT-4 más amplia de OpenAI al abordar requisitos específicos para aplicaciones en tiempo real donde los modelos tradicionales basados en API pueden introducir retrasos inaceptables. El modelo es accesible a través de la infraestructura de API de OpenAI y está destinado a desarrolladores que construyen interfaces conversacionales y aplicaciones habilitadas por voz.

GPT Realtime de agosto 2025 es el snapshot maduro del modelo de tiempo real de OpenAI, con soporte multimodal para voz y texto en streaming.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-realtime-2025-08-28
$4.00 por 1M de tokens de entrada
$16.00 por 1M de tokens de salida
≈ $0.0056 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$4.00
por 1M de tokens de salida$16.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$4.00

input / 1M

— no change

$16.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Latencia optimizada maduraAudio y texto en tiempo realSnapshot estable agosto 2025Conversación fluida sin interrupcionesSoporte multilingüe en streamingIdeal para asistentes de voz profesionales

Debilidades

Costo por sesión elevado vs batchRazonamiento profundo limitado por tiempo realContexto no documentadoConfiguración de WebSocket más compleja
Sección 03

Preguntas frecuentes

Las mejoras acumuladas de 2025 en el modelo Realtime, incluyendo refinamientos en latencia y calidad de síntesis de audio.

El snapshot de agosto 2025 consolida mejoras en latencia y naturalidad conversacional para uso estable en producción.

Resumen de benchmark Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

El primer benchmark establece el rendimiento de referencia en las capacidades principales

El modelo gpt-realtime-2025-08-28 establece su línea base inicial de rendimiento con resultados medidos en benchmarks estándar. En razonamiento matemático, el modelo alcanza 83.6% en GSM8K y 54.6% en MATH, lo que indica una sólida resolución de problemas elementales con rendimiento moderado en matemáticas avanzadas. Las capacidades de programación muestran 81.7% en HumanEval y 86.0% en MBPP, demostrando sólidas habilidades fundamentales de programación. El modelo obtiene 88.4% en MMLU, reflejando un amplio conocimiento en dominios académicos. El seguimiento de instrucciones llega a 72.9% en IFEval, sugiriendo una adherencia razonable a directivas complejas con margen de mejora. El rendimiento en GPQA se sitúa en 49.0%, indicando capacidades moderadas de razonamiento a nivel experto. La escritura creativa puntúa 22.5 en Arena-Hard, mientras que MGSM en matemáticas multilingües alcanza 76.9%. Al tratarse de un modelo orientado a tiempo real, estos benchmarks establecen la base para monitorizar mejoras futuras. Los usuarios deben entender que esto representa el punto de partida para esta variante del modelo, con características de rendimiento que favorecen las aplicaciones conversacionales e interactivas por encima de la pura optimización de benchmarks. Los resultados indican un modelo de propósito general competente, con particular fortaleza en programación y tareas fundamentales de razonamiento.

Quality

Latency p50

Test runs

0

Sólido rendimiento en programación establecido Razonamiento matemático elemental sólido Capacidad moderada en matemáticas avanzadas El razonamiento experto necesita mejorar
Sección 06

Perfil completo del modelo

gpt-realtime-2025-08-28 — illustration 1
gpt-realtime-2025-08-28: la instantánea de agosto del modelo de voz nativo original de OpenAI

El alias fechado de agosto de 2025 de gpt-realtime es la instantánea que fija el comportamiento del lanzamiento original del modelo de voz insignia de OpenAI. Es la versión que debes anclar si tu pipeline de producción fue calibrado contra el gpt-realtime de la era de lanzamiento y aún no estás listo para revalidar contra los pesos posteriores de la versión 1.5 o para seguir el alias flotante gpt-realtime conforme avanza.

Qué congela la instantánea

Esta instantánea captura gpt-realtime tal como se lanzó originalmente: la arquitectura de transformador unificado audio-texto, conexiones de streaming persistente basadas en WebSocket, llamadas a funciones y salidas estructuradas disponibles en el flujo, detección de actividad de voz para el cambio de turnos. El sobre de capacidad es exactamente lo que la página original de gpt-realtime describe, congelado en los pesos de agosto de 2025.

Latencia, carácter de voz, comportamiento de cambio de turnos, manejo de interrupciones, cobertura multilingüe. Todo esto está bloqueado en el comportamiento de la era de lanzamiento. El compromiso es que no te beneficias de las mejoras que OpenAI lanzó en instantáneas posteriores, más visiblemente el cambio de turnos más ajustado y la mejor síntesis de neerlandés y polaco que llegó en gpt-realtime-1.5.

Para flujos de trabajo donde el comportamiento original es contra lo que tus prompts, tu marco de evaluación y tus pruebas de extremo a extremo fueron calibrados, anclar a esta instantánea es la decisión correcta. El alias fechado es el contrato que te protege de regresiones silenciosas cuando OpenAI actualiza el nombre flotante gpt-realtime.

Cuándo tiene sentido anclar a agosto

Despliegues de producción que entraron en vivo antes de finales de 2025 y tienen un perfil de comportamiento estable contra esta instantánea. Flujos de trabajo regulados donde la reproducibilidad para fines de auditoría requiere exactamente el mismo comportamiento del modelo durante un período prolongado. Suites de QA de productos de voz donde el corpus de pruebas de regresión está calibrado a la distribución de salida de agosto y generaría falsas alarmas si el modelo subyacente cambiara.

Para nuevas construcciones y trabajo exploratorio, este no es el punto de partida correcto. Los nuevos despliegues deberían estandarizarse en gpt-realtime-1.5 o seguir el nombre flotante gpt-realtime. La instantánea de agosto es un anclaje de estabilidad para producción existente, no una elección orientada al futuro.

La ruta de migración desde esta instantánea a la 1.5 es de bajo riesgo. Las bibliotecas de prompts y los flujos de conversación se transfieren limpiamente porque la superficie de la API no cambió. Lo que sí cambió son detalles de comportamiento sutiles: temporización del cambio de turnos, manejo de interrupciones, calidad de síntesis multilingüe. Si tu marco de pruebas cubre esas dimensiones verás las mejoras; si no lo hace, puede que no notes la diferencia, en cuyo caso la migración es esencialmente gratuita.

Dónde queda rezagada comparada con la 1.5

La brecha más visible está en el cambio de turnos en entornos ruidosos. La instantánea de agosto a veces inicia una respuesta unos cientos de milisegundos antes de que el usuario haya terminado completamente, particularmente cuando el sonido ambiente desencadena una detección falsa de fin de habla. Los pesos de la 1.5 manejan este caso mucho más limpiamente.

La calidad de síntesis de neerlandés y polaco está significativamente por detrás del lanzamiento de la 1.5. Si tu despliegue sirve cargas de trabajo multilingües europeas donde estos idiomas importan, la diferencia de calidad de síntesis audible es lo suficientemente grande como para que valga la pena migrar.

El manejo de interrupciones ocasionalmente hace que el modelo continúe hablando por un instante después de que el usuario ha interrumpido, creando solapamiento que los usuarios notan. El lanzamiento de la 1.5 maneja esto más elegantemente.

Ninguno de estos modos de fallo hace que la instantánea de agosto sea inutilizable. Son refinamientos de calidad en lugar de límites fundamentales. Si tu despliegue es maduro y estable en esta instantánea, la pregunta es si los refinamientos valen el trabajo de revalidación, no si el comportamiento de agosto es aceptable.

Notas prácticas y alternativas

Si estás operando contra esta instantánea en producción y necesitas planificar una eventual migración, el camino es establecer una pista de evaluación paralela contra gpt-realtime-1.5, ejecutar tu corpus de pruebas completo, documentar los deltas de comportamiento y cambiar cuando el informe de deltas muestre un riesgo aceptable. El puntero flotante gpt-realtime seguirá avanzando, así que eventualmente anclar a agosto significará ejecutar en un modelo cada vez más viejo en relación con el resto de la pila de OpenAI.

Para trabajo de voz de nivel presupuestario donde no necesitas la profundidad completa de razonamiento y sofisticación de uso de herramientas, gpt-realtime-mini y sus variantes fechadas son las alternativas. Para cargas de trabajo puras de audio-mini que no necesitan el bucle conversacional, gpt-audio-mini cubre ese trabajo más acotado.

La residencia de datos de la UE no está satisfecha por defecto en esta instantánea más de lo que está en las más nuevas. Las puertas de enlace regionales con acuerdos de procesamiento de datos siguen siendo la solución práctica para despliegues europeos regulados. Esa restricción no depende de la instantánea.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-realtime-2025-08-28 — illustration 2
Última prueba automática
31 may 2026 · 04:26 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026