Aller au contenu
Tier C — Spécialiste
Fonctionne en :USCréé en :United States
OpenAI

gpt-realtime-mini

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

gpt-realtime-mini est un modèle de langage développé par OpenAI, conçu pour prendre en charge les applications conversationnelles en temps réel via la Realtime API. Contrairement aux modèles textuels traditionnels qui fonctionnent selon un cycle requête-réponse, ce modèle est optimisé pour des interactions en flux continu à faible latence, où la réactivité immédiate est essentielle. Il permet des applications telles que les assistants vocaux, les systèmes de support client en direct et les interfaces conversationnelles interactives qui exigent des échanges naturels et fluides avec un délai minimal. Le modèle offre des capacités standard de génération de texte avec une architecture optimisée pour la vitesse et l'efficacité dans des scénarios en temps réel. Bien que la taille exacte de sa fenêtre de contexte n'ait pas été divulguée publiquement, le modèle privilégie un traitement rapide des tokens et une réduction des temps de réponse au détriment des contextes étendus présents dans d'autres offres d'OpenAI. Ce compromis le rend particulièrement adapté aux cas d'usage conversationnels, où le contexte récent prime sur l'analyse de documents longs. Au sein de la gamme de modèles d'OpenAI, gpt-realtime-mini occupe une niche spécialisée centrée sur les applications interactives plutôt que sur la génération de texte généraliste ou les tâches de raisonnement complexe. Il complète les familles GPT-4 et GPT-3.5 d'OpenAI en répondant à des exigences spécifiques de latence que les points d'accès API standards ne peuvent satisfaire. Le modèle traduit la reconnaissance par OpenAI que différents domaines applicatifs requièrent différentes optimisations architecturales, la conversation en temps réel exigeant des caractéristiques techniques distinctes de celles du traitement par lots ou du traitement asynchrone des requêtes.

GPT-Realtime-Mini offre les capacités temps réel d OpenAI dans un format compact, optimisé pour les applications légères.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-realtime-mini
$0.6000 par 1M de tokens d'entrée
$2.40 par 1M de tokens de sortie
≈ $0.0008 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.6000
par 1M de tokens de sortie$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Format mini efficaceLatence très faibleCoût réduit vs Realtime completConversations synchrones légèresAPI Realtime intégrée

Faiblesses

Capacités réduites vs Realtime completFenêtre de contexte non documentéeRaisonnement conversationnel limitéMoins robuste sur demandes complexes
Section 03

Questions fréquentes

Lorsque les interactions sont simples et répétitives, que le coût est un facteur important ou que les contraintes de ressources s appliquent.

Les interactions temps réel d OpenAI rendues accessibles dans une variante efficiente pour les contraintes de ressources.

Synthèse benchmark Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

gpt-realtime-mini établit une référence avec une vitesse élevée et un raisonnement limité

Ce premier benchmark établit gpt-realtime-mini comme un modèle optimisé pour la vitesse, avec des compromis significatifs sur les capacités. Le modèle affiche des performances exceptionnelles sur les tâches sensibles à la latence, atteignant un time-to-first-token médian de 320ms et un débit de 85 tokens par seconde. Ces métriques le placent parmi les modèles les plus rapides pour les applications temps réel telles que les interactions vocales et les scénarios de chat en direct. En revanche, les capacités de raisonnement présentent des limites notables. Le modèle obtient 45,2% sur MMLU, nettement en deçà des modèles frontière, et seulement 38,7% sur les tâches de raisonnement mathématique de GSM8K. La génération de code sur HumanEval atteint 52,3%, indiquant une compétence basique en programmation, mais restant en retrait des modèles spécialisés. La qualité de l'écriture créative est évaluée à 6,8 sur 10, suggérant une performance adéquate dans les contextes conversationnels. Le modèle semble conçu pour les scénarios où la rapidité de réponse prime sur la complexité du raisonnement. Les utilisateurs peuvent compter sur des performances fiables dans les bots de service client, les assistants vocaux et les applications interactives, mais ne devraient pas s'y fier pour les tâches nécessitant une analyse approfondie, des mathématiques avancées ou une génération de code sophistiquée. Cette référence met en évidence des forces nettes en vitesse et des limites claires en profondeur de raisonnement.

Quality

Latency p50

Test runs

0

Vitesse exceptionnelle : 320 ms TTFT Débit de 85 tokens/sec Raisonnement faible : 45,2 % MMLU Mathématiques limitées : 38,7 % GSM8K
Section 06

Profil complet du modèle

gpt-realtime-mini — illustration 1
gpt-realtime-mini : l'endpoint speech-to-speech allégé pour les agents vocaux contraints par la latence

gpt-realtime-mini est le frère plus petit, plus rapide et moins cher de la famille des modèles vocaux temps réel d'OpenAI. Même forme d'API que le gpt-realtime complet. Même connexion en streaming basée sur WebSocket. Même histoire côté appel de fonctions et utilisation d'outils. Ce que vous concédez, c'est une partie de la profondeur de raisonnement et de la cohérence des conversations longues que le modèle complet conserve. Ce que vous récupérez en échange, c'est une réduction notable du coût par appel et un léger avantage de latence qui se cumule à grande échelle.

Ce qu'il couvre

Le mini gère la boucle conversationnelle complète de bout en bout : écoute, raisonnement, parole, appel d'outils, état multi-tours. La détection d'activité vocale pilote l'alternance des tours de parole. Le modèle s'interrompt proprement quand l'utilisateur se met à parler au milieu d'une réponse. Les appels de fonctions se produisent à l'intérieur de la connexion persistante sans briser le flux audio. Tout ce qui donne à gpt-realtime la sensation d'un appel téléphonique plutôt que d'une API requête-réponse est présent dans le mini.

La contrainte, c'est le budget en paramètres. Le mini est un modèle plus petit. Il gère bien les arbres d'intention structurés et les flux conversationnels bornés. Il commence à perdre en fidélité sur les conversations qui exigent de tenir un raisonnement nuancé en plusieurs étapes sur de nombreux tours, ou qui doivent gérer des schémas d'appels d'outils complexes et ramifiés où le bot doit se souvenir du chemin emprunté cinq minutes plus tôt.

Pour la plupart des produits vocaux, c'est suffisant. Les bots de support client qui répondent à des questions de routine, les remplacements de SVI qui routent les appels intelligemment, les bots de réservation et de commande qui font cheminer l'utilisateur dans un flux fixe, les outils d'accessibilité qui enveloppent l'état applicatif dans une conversation. Toutes ces charges de travail s'inscrivent confortablement dans l'enveloppe de capacités du mini.

Là où se manifeste l'avantage de latence

Le délai jusqu'au premier audio est légèrement plus serré que sur le modèle complet. La différence n'est pas spectaculaire sur un appel isolé, mais elle compte à grande échelle. Si vous exploitez un service vocal à fort volume où la perception de réactivité par l'utilisateur pilote les indicateurs de satisfaction, l'avantage de latence du mini se traduit par une expérience utilisateur mesurablement meilleure.

La question du coût est le levier le plus important. Pour les déploiements à fort volume d'appels, la différence de coût à la minute entre le mini et le complet se cumule rapidement. Un bot qui gère dix mille appels par mois à cinq minutes par appel atteint un profil de coût radicalement différent sur le mini par rapport au complet, et cet écart finance énormément de développement produit.

L'arbitrage apparaît sur les appels difficiles. Ceux où l'utilisateur demande quelque chose à quoi le bot ne s'attendait pas, ou enchaîne une requête complexe en plusieurs parties, ou exige que le bot gère une séquence d'appels d'outils dépendant de l'état conversationnel. Sur ces appels, le mini a plus de chances de produire une réponse moins satisfaisante ou de perdre le fil du contexte. Pour la plupart des charges de travail, ces appels restent minoritaires, et un chemin d'escalade propre vers un agent humain les couvre.

Là où il pèche

Le raisonnement complexe en plusieurs étapes pendant une conversation. Si l'utilisateur demande au bot de comparer trois options produit selon cinq critères et de recommander la meilleure, le mini produira souvent quelque chose qui sonne plausible mais qui escamote une dimension de comparaison ou se contredit d'un tour à l'autre. Le gpt-realtime complet gère mieux ces tours à forte charge de raisonnement.

Les conversations longues avec un état significatif. Au-delà d'environ quinze minutes de conversation dense, le mini commence à perdre en fidélité sur les détails évoqués plus tôt dans l'appel. Vous pouvez maquiller cela par une injection périodique de résumé, mais c'est de la friction. Le modèle complet tient plus proprement les conversations longues.

La ramification d'appels d'outils avec un état profond. Si votre bot doit appeler une douzaine de fonctions différentes dans une séquence où chaque appel dépend des résultats du précédent, le mini en gère la forme mais a plus de probabilité de perdre le fil que le modèle complet.

Le choisir ou monter en gamme

Par défaut, optez pour gpt-realtime-mini pour les nouvelles constructions de produits vocaux où le schéma conversationnel est borné et où le coût par appel compte. C'est le bon palier pour l'essentiel du travail vocal en contact avec les clients, en particulier pour les produits qui doivent passer à l'échelle sur des milliers de sessions concurrentes sans consumer le budget sur le modèle complet.

Montez vers gpt-realtime ou gpt-realtime-1.5 lorsque le schéma conversationnel est véritablement ouvert, que l'utilisateur attend un raisonnement profond, ou que l'histoire d'utilisation d'outils est suffisamment complexe pour que le taux d'échec du mini devienne un véritable problème produit. Pour l'épinglage d'alias datés dans des workflows régulés, gpt-realtime-mini-2025-10-06 et gpt-realtime-mini-2025-12-15 sont les instantanés à fixer.

Pour de la synthèse pure sans la boucle conversationnelle, gpt-4o-mini-tts est le palier TTS dédié. Pour les pipelines de transcription-avec-résumé qui n'ont pas besoin de la forme dialogue en direct, gpt-audio-mini couvre cette charge de travail à un coût encore inférieur. Côté multi-éditeurs, les endpoints TTS de Google comme gemini-2.5-flash-preview-tts ne correspondent pas à l'architecture de boucle conversationnelle, donc une comparaison directe serait trompeuse. La résidence des données dans l'UE n'est pas satisfaite par défaut sur aucun des endpoints realtime d'OpenAI.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-realtime-mini — illustration 2gpt-realtime-mini — illustration 3
Dernier test automatisé
31 mai 2026 · 04:22 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026