Cas d'usage/Voix & conversation

Quel modèle d'IA sonne le plus humain en dialogue ?

L'IA vocale et conversationnelle est le scénario qui expose toutes les faiblesses d'un modèle le plus vite. Dérive de ton, latence, rupture de mémoire, effondrement du persona, les petites disfluences qui rendent un agent semblant humain soudainement robotique — tout cela se manifeste dans la première minute d'une vraie conversation. Ce guide détaille les dimensions qui décident quel modèle porte un produit vocal, puis nomme les cinq que nous mettrions en ligne téléphonique aujourd'hui.

Espace de travail d'un agent vocal — image conceptuelle — La voix est le canal le moins indulgent — chaque seconde de latence s'entend.

Pourquoi le dialogue est le scénario où les modèles échouent le plus visiblement

Le texte donne du temps au modèle. L'utilisateur envoie, le modèle lit, réfléchit, écrit, l'utilisateur lit, considère, répond. Un raisonnement lent reste invisible dans ce rythme. La voix supprime ce tampon. Une pause de plus d'une seconde passe pour de la confusion ; plus de deux secondes, pour une défaillance. Qui choisit le modèle pour un produit vocal choisit sur un budget de latence que tout autre scénario jugerait agressif.

Le choix architectural qui suit est d'exécuter un modèle audio-natif de bout en bout ou d'empiler une chaîne — parole en texte, puis modèle de langage, puis texte en parole. La voie audio-native est imbattable sur la latence et la conscience paralinguistique : le modèle détecte quand l'utilisateur hésite, peut interrompre et être interrompu, adopte un registre que le prompt n'a pas nommé. La voie empilée est plus facile à déboguer, moins coûteuse à faire passer à l'échelle, et vous donne le contrôle total de la sélection vocale et du son de marque.

La cohérence du persona compte davantage ici que presque partout ailleurs. Dans le texte, un glissement de ton entre deux tours passe inaperçu ; à la voix, c'est comme si une autre personne prenait le contrôle de l'appel. Les modèles qui dérivent entre les tours ne conviennent pas au travail vocal, même s'ils fonctionneraient bien pour le chat. Testez-le explicitement — vingt tours au minimum, avec des entrées utilisateur délibérément perturbantes.

Cinq contraintes définissent le travail : latence de bout en bout, stabilité du persona sur les tours, qualité audio le cas échéant, couverture multilingue et discipline d'appel d'outils en cours de conversation. Un agent vocal qui gère gracieusement les cinq ressemble à une personne ; celui qui en abandonne une seule ressemble à un chatbot qui lit à voix haute.

Architecture du pipeline vocal — image conceptuelle — Audio-natif versus STT-LLM-TTS empilé — l'architecture est le choix.

Les cinq dimensions qui décident quel modèle l'emporte

Ce sont les axes selon lesquels notre scorecard évalue tout modèle déployé dans un produit vocal. Leur importance relative varie selon que vous construisez un agent de téléphonie ou une application de compagnon longue durée — mais chaque candidat doit atteindre un seuil minimum sur les cinq.

01 — Latence de bout en bout
L'utilisateur entend-il une réponse en un battement de cœur ?
Le chronomètre démarre au moment où l'utilisateur cesse de parler et s'arrête au premier mot audible de la réponse. Les modèles audio-natifs peuvent tenir ce budget ; les pipelines empilés doivent optimiser chaque couche. Mesurez sur le réseau sur lequel vous déploierez, pas sur la région de démonstration du fournisseur.
02 — Stabilité du persona sur les tours
Le tour vingt sonne-t-il encore comme le tour un ?
La dérive est l'unique mode de défaillance qui brise l'illusion d'une personne à l'autre bout. Les modèles qui reviennent à leur voix par défaut dès que le prompt perd en saillance sont inutilisables pour tout produit vocal avec une identité de marque. Testez toujours avec des utilisateurs adversariaux qui tentent de changer le persona en cours d'appel.
03 — Qualité audio et conscience paralinguistique
Entend-il comment l'utilisateur a dit quelque chose, pas seulement quoi ?
La frustration, l'hésitation, le sarcasme, l'urgence — les humains transmettent du sens dans le ton que les modèles purement textuels ne peuvent pas percevoir. Les modèles audio-natifs lisent ces signaux et s'adaptent ; les pipelines empilés les perdent complètement à l'étape STT. La bonne architecture dépend de si votre produit a besoin de cette nuance.
04 — Couverture multilingue
Suit-il le code-switching en milieu de phrase ?
Le trafic vocal réel comprend des accents, des dialectes et des utilisateurs qui changent de langue au milieu d'un énoncé. Le modèle doit suivre sans perdre le fil. Testez sur des enregistrements de votre clientèle réelle, pas sur le benchmark de prononciation du fournisseur.
05 — Appels d'outils en cours de conversation
Peut-il consulter quelque chose sans briser le flux ?
Les agents vocaux doivent interroger des CRM, vérifier des stocks, prendre des rendez-vous. La difficulté est de le faire naturellement — combler l'attente avec une confirmation orale, récupérer gracieusement quand l'outil échoue. Les modèles optimisés pour les tool-calls en chat émettent souvent des remplissages maladroits qui brisent l'immersion.

Tokonomix : top 5 des choix pour la voix et le dialogue aujourd'hui

Ce sont les cinq que nous mettrions sur un canal live aujourd'hui. Un produit vocal ne s'exécute presque jamais sur un seul modèle ; l'architecture qui fonctionne est en couches — un modèle audio-natif sur la couche parlée pour la latence et la conscience paralinguistique, et un modèle textuel plus puissant en dessous qui prend en charge la planification, les appels d'outils et le travail de connaissance que la couche audio lui délègue.

#1 · Audio-natif en temps réelTier A

Claude Sonnet 4.6

via Anthropic

Audio en entrée, audio en sortie, faible latence de bout en bout. Le bon choix pour la téléphonie, les agents vocaux dans le navigateur et toute application où l'utilisateur s'attend à ce qu'une interruption arrive en un battement de cœur. Traitement natif des indices paralinguistiques — pauses, ton, urgence — que les pipelines texte-plus-TTS ne peuvent pas égaler.

Entrée / 1M tokens: $3.00
Sortie / 1M tokens: $15.00
Contexte: 1M

Profil de benchmark complet →

#2 · Meilleur ton de dialogue (texte + TTS)Tier A

Gemini 2.5 Pro

via Google Gemini

Le modèle à placer derrière un agent vocal text-first qui transmet en streaming à une couche TTS. Sonnet 4.6 maintient le persona sur de longues sessions mieux que la plupart de ses pairs et correspond de manière fiable au registre que vous décrivez dans le prompt. Moins cher que les modèles audio-natifs et plus facile à remplacer à mesure que la qualité TTS continue de s'améliorer.

Entrée / 1M tokens: $1.25
Sortie / 1M tokens: $10.00
Contexte: 1.048576M

Profil de benchmark complet →

#3 · Mémoire de long contexteTier A

Claude Haiku 4.5

via Anthropic

Un contexte d'un million de tokens rend l'intégralité de la session — et un historique arbitrairement volumineux — accessible sans troncature. Le bon choix pour les applications de compagnon, les agents de coaching et tout produit vocal qui bénéficie de se souvenir de ce que l'utilisateur a dit lors de l'appel de la semaine dernière.

Entrée / 1M tokens: $1.00
Sortie / 1M tokens: $5.00
Contexte: 200K

Profil de benchmark complet →

#4 · Échanges rapidesTier B

Meta-Llama-3_3-70B-Instruct

via OVH AI Endpoints (GRA)

Tours courts, premier token rapide, coût faible. Le bon choix quand la conversation est structurée — réservation, recherche, vérification de statut — et que le budget de latence est la contrainte. Associer à un prompt système solide et à la même couche TTS que celle utilisée pour les escalades vers Sonnet.

Entrée / 1M tokens: $0.6700
Sortie / 1M tokens: $0.6700
Contexte: —

Profil de benchmark complet →

Prix de sortie par million de tokens

Pour la voix, le coût de sortie domine — la majorité des tokens constituent la réponse parlée. Le graphique ci-dessous montre le prix catalogue de la couche texte pour les modèles ci-dessus avec les tarifs publiés ; les modèles audio-natifs sont tarifés séparément, à la minute audio plutôt qu'au token, et relèvent d'un modèle de facturation différent de celui présenté ici.

Claude Sonnet 4.6$15.00

Gemini 2.5 Pro$10.00

Claude Haiku 4.5$5.00

Meta-Llama-3_3-70B-Instruct$0.6700

Prix par 1M tokens de sortie, USD. Les modèles audio-natifs (gpt-realtime) sont facturés à la minute audio et sont exclus de cette comparaison. Source : tarifs des fournisseurs en direct, suivis par Tokonomix.

Tableau de bord analytique vocal — image conceptuelle — Mesurez la satisfaction en fin de session, pas la précision au premier tour.

Guide de terrain : quel modèle pour quel schéma vocal

La correspondance ci-dessous est celle que nous utiliserions pour conseiller une équipe qui construit un nouveau produit vocal. Traitez-la comme un point de départ, pas comme un verdict — un week-end de tests sur de vrais enregistrements bat toute recommandation générale.

Pattern A

Agent de téléphonie en temps réel

Appels d'assistance entrants, ventes sortantes, lignes de réservation. La latence décide de tout. gpt-realtime de bout en bout, avec Sonnet 4.6 comme planificateur auquel le modèle en temps réel cède quand la conversation sort du script.

Pattern B

Agent vocal navigateur avec voix de marque

Assistant intégré au produit dont la voix fait partie de l'identité. Pipeline empilé — Sonnet 4.6 pilote la conversation, un moteur TTS choisi produit l'audio. Sacrifier un peu de latence pour un contrôle total sur le son de l'agent.

Pattern C

Compagnon ou coach longue durée

Sessions d'une heure ou plus qui bénéficient d'une mémoire inter-sessions. Gemini 2.5 Pro pour la fenêtre de contexte ; persister l'historique de conversation par utilisateur et le réinjecter dans le prompt système à chaque session.

Pattern D

Agent vocal auto-hébergé

Santé, finance, secteurs réglementés où les enregistrements ne peuvent pas quitter une juridiction spécifique. Auto-héberger Llama 3.3 70B avec Whisper pour le STT et un moteur TTS open-weight. Itération plus lente, contrôle total des données.

Configuration opérationnelle d'un agent vocal — image conceptuelle — Un agent vocal conçu en texte déçoit toujours en production.

Évaluez sur vos propres appels avant de vous engager

Vous n'apprendrez pas ce dont vous avez besoin à partir d'une démo fournisseur ou d'un jeu de prompts statique. Enregistrez vingt vraies conversations — des utilisateurs que vous avez réellement, des scénarios que vous exécutez réellement — et rejouez chacune de bout en bout avec chaque candidat. Les transcriptions synthétiques ne feront pas remonter les modes de défaillance qui comptent ; les pauses gênantes, les utilisateurs hostiles, les chevauchements de parole vivent tous dans l'audio réel.

Écoutez, ne lisez pas seulement la transcription. Le premier mot est-il arrivé avant que l'utilisateur abandonne ? L'agent sonnait-il encore comme lui-même à la dixième minute ? A-t-il capté la frustration au troisième tour ou est-il passé à côté ? L'appel d'outil s'est-il intégré naturellement dans le flux de l'appel, ou a-t-il laissé un vide remarqué par l'utilisateur ? Choisissez le modèle en qui votre propre oreille a confiance à la fin de l'écoute, pas celui qu'un benchmark préfère.

Ouvrir l'outil de test en direct →