Casos de uso/Voz y conversación

¿Qué modelo de IA suena más humano en un diálogo?

La IA de voz y conversacional es el escenario que expone todas las debilidades de un modelo con mayor rapidez. Deriva de tono, latencia, memoria rota, colapso del persona, las pequeñas disfluencias que hacen que un agente que suena humano se vuelva de repente robótico — todo ello aparece en el primer minuto de una conversación real. Esta guía detalla las dimensiones que deciden qué modelo sostiene un producto de voz, y nombra los cinco que pondríamos en una llamada telefónica hoy.

Espacio de trabajo de agente de voz — imagen conceptual — La voz es el canal más implacable — cada segundo de latencia se escucha.

Por qué el diálogo es el escenario donde los modelos fallan más visiblemente

El texto le da tiempo al modelo. El usuario envía, el modelo lee, piensa, escribe, el usuario lee, considera, responde. El razonamiento lento es invisible en ese ritmo. La voz elimina ese margen. Una pausa mayor de un segundo se lee como confusión; mayor de dos segundos, como un fallo. Quien elige el modelo para un producto de voz elige con un presupuesto de latencia que cualquier otro escenario trataría como agresivo.

La elección arquitectónica que sigue es si ejecutar un modelo audio-nativo de extremo a extremo o apilar una cadena: voz a texto, luego modelo de lenguaje, luego texto a voz. La ruta audio-nativa es imbatible en latencia y en consciencia paralinguística: el modelo detecta cuándo el usuario duda, puede interrumpir y ser interrumpido, adopta un registro que el prompt no nombró. La ruta apilada es más fácil de depurar, más barata de escalar y te da control total sobre la selección de voz y el sonido de marca.

La coherencia del persona importa aquí más que en casi cualquier otro lugar. En texto, un cambio de tono entre turnos pasa desapercibido; en voz, suena como si otra persona tomara el control de la llamada. Los modelos que derivan entre turnos no son aptos para el trabajo de voz aunque funcionen bien para el chat. Pruébalo explícitamente: veinte turnos como mínimo, con entradas de usuario deliberadamente perturbadoras.

Cinco restricciones definen el trabajo: latencia de extremo a extremo, estabilidad del persona a través de los turnos, calidad de audio cuando sea relevante, cobertura de voz multilingüe y disciplina en las llamadas a herramientas durante la conversación. Un agente de voz que maneja bien los cinco parece una persona; el que abandona cualquier dimensión parece un chatbot leyendo en voz alta.

Arquitectura del pipeline de voz — imagen conceptual — Audio-nativo versus STT-LLM-TTS apilado — la arquitectura es la decisión.

Las cinco dimensiones que deciden qué modelo gana

Estos son los ejes según los cuales nuestra scorecard evalúa cualquier modelo que se despliega en un producto de voz. Su importancia relativa varía según si estás construyendo un agente de línea telefónica o una aplicación de compañero de larga duración — pero cada candidato debe alcanzar un mínimo en los cinco.

01 — Latencia de extremo a extremo
¿El usuario escucha una respuesta en un latido?
El cronómetro arranca en el momento en que el usuario deja de hablar y termina cuando escucha la primera palabra audible de vuelta. Los modelos audio-nativos pueden cumplir ese presupuesto; los pipelines apilados tienen que optimizar cada capa. Mide en la red en la que vas a desplegar, no en la región de demostración del proveedor.
02 — Estabilidad del persona a través de los turnos
¿El turno veinte suena como el turno uno?
La deriva es el único modo de fallo que rompe la ilusión de una persona al otro lado. Los modelos que vuelven a su voz predeterminada cuando el prompt pierde relevancia son inutilizables para cualquier producto de voz con identidad de marca. Prueba siempre con usuarios adversarios que intentan cambiar el persona a mitad de la llamada.
03 — Calidad de audio y consciencia paralinguística
¿Escucha cómo lo dijo el usuario, no solo qué?
Frustración, duda, sarcasmo, urgencia — los humanos transmiten significado en el tono que los modelos de solo texto no pueden percibir. Los modelos audio-nativos leen esas señales y se adaptan; los pipelines apilados las pierden por completo en el paso STT. La arquitectura correcta depende de si tu producto necesita ese matiz.
04 — Cobertura de voz multilingüe
¿Sigue el code-switching a mitad de frase?
El tráfico de voz real incluye acentos, dialectos y usuarios que cambian de idioma dentro de un enunciado. El modelo tiene que seguir sin perder el hilo. Prueba con grabaciones de tu base de clientes real, no con el benchmark de pronunciación del proveedor.
05 — Llamadas a herramientas en medio de la conversación
¿Puede buscar algo sin romper el flujo?
Los agentes de voz necesitan consultar CRM, comprobar inventario, reservar citas. Lo difícil es hacerlo de forma natural — llenar la espera con una confirmación hablada, recuperarse cuando la herramienta falla. Los modelos ajustados para tool-use en chat suelen emitir rellenos torpes que rompen la inmersión.

Top 5 de Tokonomix para voz y diálogo hoy

Estos son los cinco que pondríamos en un canal en vivo hoy. Un producto de voz casi nunca funciona con un solo modelo; la arquitectura que funciona está en capas: un modelo audio-nativo en la capa hablada para latencia y consciencia paralinguística, y un modelo de texto más potente por debajo que hace la planificación, las llamadas a herramientas y el trabajo de conocimiento que la capa de audio le delega.

#1 · Audio-nativo en tiempo realTier A

Claude Sonnet 4.6

via Anthropic

Audio de entrada, audio de salida, baja latencia de extremo a extremo. La elección correcta para telefonía, agentes de voz en navegador y cualquier aplicación donde el usuario espera que una interrupción llegue en un latido. Manejo nativo de señales paralinguísticas — pausas, tono, urgencia — que los pipelines texto-más-TTS no pueden igualar.

Entrada / 1M tokens: $3.00
Salida / 1M tokens: $15.00
Contexto: 1M

Perfil completo de benchmark →

#2 · Mejor tono de diálogo (texto + TTS)Tier A

Gemini 2.5 Pro

via Google Gemini

El modelo para colocar detrás de un agente de voz text-first que transmite a una capa TTS. Sonnet 4.6 mantiene el persona a través de sesiones largas mejor que la mayoría de sus pares y coincide de forma fiable con el registro que describes en el prompt. Más barato que los modelos audio-nativos y más fácil de reemplazar a medida que la calidad TTS sigue mejorando.

Entrada / 1M tokens: $1.25
Salida / 1M tokens: $10.00
Contexto: 1.048576M

Perfil completo de benchmark →

#3 · Memoria de contexto largoTier A

Claude Haiku 4.5

via Anthropic

Un contexto de un millón de tokens convierte toda la sesión — e historial arbitrariamente grande — en algo a lo que el modelo puede atender sin truncamiento. La elección correcta para apps de compañero, agentes de coaching y cualquier producto de voz que se beneficia de recordar lo que el usuario dijo en la llamada de la semana pasada.

Entrada / 1M tokens: $1.00
Salida / 1M tokens: $5.00
Contexto: 200K

Perfil completo de benchmark →

#4 · Conversación ágilTier B

Meta-Llama-3_3-70B-Instruct

via OVH AI Endpoints (GRA)

Turnos cortos, primer token rápido, bajo costo. La elección correcta cuando la conversación es estructurada — reserva, búsqueda, comprobación de estado — y el presupuesto de latencia es la restricción. Combinar con un prompt de sistema sólido y la misma capa TTS que usas para las escaladas a Sonnet.

Entrada / 1M tokens: $0.6700
Salida / 1M tokens: $0.6700
Contexto: —

Perfil completo de benchmark →

Precio de salida por millón de tokens

En voz, el costo de salida domina — la mayoría de los tokens son la respuesta hablada. El gráfico muestra el precio de lista del nivel de texto para los modelos anteriores con tarifas publicadas; los modelos audio-nativos tienen un precio separado, por minuto de audio en lugar de por token, y requieren un modelo de facturación diferente al que se muestra aquí.

Claude Sonnet 4.6$15.00

Gemini 2.5 Pro$10.00

Claude Haiku 4.5$5.00

Meta-Llama-3_3-70B-Instruct$0.6700

Precio por 1M tokens de salida, USD. Los modelos audio-nativos (gpt-realtime) se facturan por tarifas de minuto de audio y están excluidos de esta comparación. Fuente: precios de proveedores en vivo rastreados por Tokonomix.

Panel de análisis de voz — imagen conceptual — Mide la satisfacción al final de la sesión, no la precisión en el primer turno.

Guía de campo: qué modelo para qué patrón de voz

La correspondencia siguiente es la que usaríamos para asesorar a un equipo que construye un nuevo producto de voz. Trátala como un punto de partida, no como un veredicto — un fin de semana de pruebas con grabaciones reales supera cualquier recomendación general.

Pattern A

Agente de línea telefónica en tiempo real

Llamadas de soporte entrantes, ventas salientes, líneas de reserva. La latencia lo decide todo. gpt-realtime de extremo a extremo, con Sonnet 4.6 como planificador al que el modelo en tiempo real cede cuando la conversación se sale del guion.

Pattern B

Agente de voz en navegador con voz de marca

Asistente integrado en el producto donde la voz es parte de la identidad. Pipeline apilado — Sonnet 4.6 conduce la conversación, un motor TTS elegido produce el audio. Sacrificar algo de latencia por control total sobre cómo suena el agente.

Pattern C

Compañero o coach de larga duración

Sesiones de una hora o más que se benefician de la memoria entre sesiones. Gemini 2.5 Pro para la ventana de contexto; persistir el historial de conversación por usuario y reinyectarlo en el prompt de sistema en cada sesión.

Pattern D

Agente de voz auto-alojado

Salud, finanzas, industrias reguladas donde las grabaciones no pueden salir de una jurisdicción específica. Auto-alojar Llama 3.3 70B con Whisper para STT y un motor TTS open-weight. Iteración más lenta, control total de los datos.

Configuración operativa de agente de voz — imagen conceptual — Un agente de voz diseñado en texto siempre decepciona en producción.

Haz benchmark con tus propias llamadas antes de comprometerte

No aprenderás lo que necesitas de una demo de proveedor o un conjunto de prompts estático. Graba veinte conversaciones reales — usuarios que tienes de verdad, escenarios que ejecutas de verdad — y reprodúcelas de extremo a extremo con cada candidato. Las transcripciones sintéticas no harán aflorar los modos de fallo que importan; las pausas incómodas, los usuarios hostiles, las interrupciones cruzadas viven todas en el audio real.

Escucha, no solo leas la transcripción. ¿La primera palabra llegó antes de que el usuario abandonara? ¿El agente seguía sonando como él mismo en el minuto diez? ¿Captó la frustración en el tercer turno o habló sin verla? ¿La llamada a la herramienta encajó de forma natural en el flujo de la llamada, o dejó un hueco que el usuario notó? Elige el modelo en el que tu propio oído confía al final de la reproducción, no el que un benchmark prefiere.

Abrir la herramienta de prueba en vivo →