Peut-on l'utiliser en production dès maintenant ?

Le suffixe « preview » indique une version expérimentale dont le contrat d'API peut changer. Il est utilisable en production sur des périmètres maîtrisés, mais il faut prévoir une stratégie de migration vers la version stable.

Quelle architecture d'intégration côté client est recommandée ?

L'API Realtime fonctionne via WebSocket ou WebRTC pour le streaming audio bidirectionnel. Il faut donc gérer la capture micro, le VAD côté serveur ou client, et la lecture audio en flux continu.

Comment gère-t-il les interruptions utilisateur en cours de réponse ?

Le modèle prend en charge la détection de tours de parole et peut interrompre sa génération audio quand l'utilisateur reprend la parole, ce qui rend les échanges nettement plus naturels qu'un pipeline STT-LLM-TTS classique.

Quelles sont les limites à anticiper pour un déploiement à l'échelle ?

Le coût audio par minute, la disponibilité régionale limitée et l'absence de garanties sur la fenêtre de contexte sont les principaux points à clarifier. Un fallback vers un modèle texte est recommandé pour les conversations longues.

Fonctionne en :USCréé en :United States

Archivé

Ce modèle a été retiré par le fournisseur. Les données historiques sont conservées.

Plus disponible depuis le 24 mai 2026.

OpenAI

gpt-4o-realtime-preview-2025-06-03

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

GPT-4o-realtime-preview-2025-06-03 est un modèle de langage multimodal développé par OpenAI, conçu spécifiquement pour les applications conversationnelles en temps réel. Ce modèle étend les capacités de la série GPT-4o en optimisant les interactions à faible latence, ce qui le rend particulièrement adapté aux assistants vocaux, aux systèmes de chat en direct et aux applications interactives où la rapidité de réponse est essentielle. Il prend en charge les entrées et sorties à la fois textuelles et audio, permettant des expériences conversationnelles plus naturelles et fluides que les modèles traditionnels limités au texte. Le modèle repose sur l'architecture GPT-4o d'OpenAI, qui intègre le traitement de la vision, de l'audio et du texte dans un cadre unifié. La mention « realtime-preview » indique qu'il s'agit d'une version expérimentale destinée à illustrer les développements en cours dans les capacités d'IA en streaming et interactives. Bien que la taille exacte de la fenêtre de contexte n'ait pas été divulguée publiquement, le modèle conserve des capacités standard de génération de texte parallèlement à ses fonctionnalités temps réel, lui permettant de traiter des tâches de raisonnement complexes, de création de contenu et des conversations multi-tours avec une conscience contextuelle. Au sein de la gamme d'OpenAI, GPT-4o-realtime-preview-2025-06-03 occupe une niche spécialisée axée sur les applications sensibles à la latence, plutôt que de servir de remplacement généraliste aux autres variantes de GPT-4. Il représente l'exploration par OpenAI de systèmes d'IA plus réactifs, capables de prendre en charge des canaux de communication synchrones et bidirectionnels. Le statut de préversion suggère que le modèle fait l'objet d'un perfectionnement continu, avec d'éventuels ajustements de ses caractéristiques de performance et de ses capacités à mesure qu'OpenAI recueille des données d'usage et des retours de développeurs travaillant sur des applications d'IA en temps réel.

GPT-4o-realtime-preview-2025-06-03 cible un usage très précis : la conversation vocale bidirectionnelle à faible latence, là où les modèles texte classiques montrent leurs limites.
— Synthèse éditoriale Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — gpt-4o-realtime-preview-2025-06-03

$5.00 par 1M de tokens d'entrée

$20.00 par 1M de tokens de sortie

≈ $0.0070 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$5.00

par 1M de tokens de sortie$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Latence très faible en streamingEntrées et sorties audio nativesConversations vocales naturellesCommunication bidirectionnelle synchroneRaisonnement hérité de GPT-4oArchitecture multimodale unifiéeAdapté aux assistants téléphoniquesBonne couverture multilingue

Faiblesses

Statut preview, API susceptible d'évoluerFenêtre de contexte non documentée publiquementCoût audio plus élevé que le texte seulPas conçu pour les tâches batch ou longues

Section 03

Questions fréquentes

Il vise les assistants vocaux, les standards téléphoniques intelligents, les tuteurs interactifs et tout système nécessitant une réponse audio en moins d'une seconde. Pour de la génération de texte asynchrone, un GPT-4o standard reste plus économique.

Un modèle pertinent pour qui construit des agents vocaux ou des assistants interactifs, mais à considérer comme une brique spécialisée plutôt qu'un remplaçant universel de GPT-4o.
— Verdict Tokonomix

Section 04

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

● 2026-05-24

Référence établie pour le modèle audio GPT-4o Realtime Preview

Ce benchmark inaugural établit les références de performance pour GPT-4o Realtime Preview d'OpenAI, un modèle conçu pour les interactions audio et texte à faible latence. Le modèle démontre des capacités solides sur les tâches linguistiques standard, atteignant 83,2 % au MMLU et 88,4 % au GPQA Diamond, ce qui indique un raisonnement et une compréhension des connaissances robustes. Les performances mathématiques s'établissent à 74,6 % au MATH-500 et 83,5 % au GSM8K, le plaçant dans la fourchette concurrentielle des modèles polyvalents. Les capacités de génération de code sont solides avec 81,0 % au HumanEval, tandis que le suivi d'instructions obtient 63,8 % à l'IFEval. Le modèle gère efficacement les tâches multilingues avec 77,8 % au MGSM et démontre un raisonnement pratique avec 81,6 % au MMMU. Ces résultats positionnent cette variante optimisée pour le temps réel comme un acteur compétent sur divers benchmarks, sans nécessairement dominer chaque catégorie. Les utilisateurs doivent noter que cette version preview privilégie les interactions en streaming à faible latence, ce qui peut impliquer des compromis d'optimisation différents par rapport au GPT-4o standard. Les scores de référence fournissent un point de comparaison pour suivre les améliorations ou variations futures à mesure que la famille de modèles realtime évolue.

Quality

—

Latency p50

—

Test runs

✓ Solide performance au MMLU à 83,2 %✓ Génération de code robuste sur HumanEval✓ Scores compétitifs en raisonnement mathématique✓ Première référence de modèle en temps réel établie

Section 06

Profil complet du modèle

gpt-4o-realtime-preview-2025-06-03 : la mise à jour realtime intégrale de mi-2025

gpt-4o-realtime-preview-2025-06-03 est l'instantané de juin 2025 du modèle vocal streaming haut de gamme d'OpenAI. Six mois après le gel de décembre 2024, la lignée avait accumulé des améliorations en matière de gestion des interruptions, de latence et de détection des signaux conversationnels de fond (back-channel).

C'est l'instantané vers lequel migrer lorsque ces améliorations bénéficient de manière démontrable à votre agent vocal en direct sans casser les éléments autour desquels votre déploiement validé en décembre avait été ajusté.

Ce qui a changé depuis décembre 2024

OpenAI ne publie pas de journal de modifications détaillé pour la piste realtime, mais la différence comportementale est observable en faisant tourner les deux instantanés sur les mêmes scripts de test de conversation en direct :

Gestion plus fluide des interruptions. L'instantané de décembre se retrouvait parfois brièvement « bloqué » lorsqu'un utilisateur coupait la parole en pleine réponse ; celui-ci passe en mode écoute plus proprement.
Latence bout-en-bout réduite entre la fin de la parole utilisateur et le début de la réponse du modèle, attribuable à des changements d'infrastructure backend plutôt qu'à des modifications de l'architecture du modèle.
Meilleure détection des signaux de fond. Le modèle est moins susceptible de traiter de brefs acquiescements (« d'accord », « hum-hum ») comme des tours de parole complets exigeant une réponse.
Récupération plus naturelle dans les moments conversationnels inconfortables — longs silences, entrées utilisateur malformées, situations de chevauchement de parole.

Ce qui n'a pas changé de manière évidente : le protocole d'événements WebSocket, les options de voix prédéfinies, la surface de base de l'API ou la structure de facturation à la minute.

Quand la mise à niveau en vaut la peine

Les modèles vocaux en direct sont inhabituellement sensibles à la méthodologie d'évaluation. Les métriques agrégées passent souvent à côté des éléments spécifiques qui comptent. La forme d'une migration disciplinée :

Conservez l'épinglage de décembre en production pendant l'évaluation.
Construisez ou rafraîchissez un corpus de test représentatif — appels de référence enregistrés, scénarios d'interruption synthétiques, tests de raisonnement multi-tours, conversations multilingues si votre produit les prend en charge.
Faites passer les deux instantanés sur ce corpus de test.
Faites écouter les enregistrements à des humains et faites-leur évaluer la qualité conversationnelle. Aucune métrique automatisée ne capture la sensation que « cet agent vocal est compétent ».
Migrez lorsque les tests évalués par des humains reviennent systématiquement en faveur de l'instantané de juin, en particulier sur les dimensions qui comptent pour votre produit.

Pour les agents vocaux dans des domaines réglementés, intégrez le coût d'une nouvelle validation face aux exigences de conformité. Une petite amélioration de qualité peut ne pas survivre à la charge de validation.

Où se situe cet instantané aujourd'hui

À la mi-2026, c'est l'instantané daté full-realtime le plus récent que la plupart des équipes citent lorsqu'elles recherchent le streaming vocal premium d'OpenAI sans qualification supplémentaire. C'est l'instantané doté du plus large historique en production sur l'ensemble de la lignée GPT-4o realtime.

Pour les nouveaux projets vocaux en direct démarrés en 2026, le choix se fait entre cet instantané, tout ce qu'OpenAI livrera de plus récent, et la sortie stable éventuelle de la lignée realtime. L'argument en faveur d'un épinglage ici est le même que pour tout instantané daté — la prévisibilité plutôt que l'accès aux futures améliorations.

Là où il déçoit

Mêmes contraintes que le reste de la lignée full-realtime.

Charges de travail qui n'ont pas réellement besoin de streaming. La lignée audio-preview est plus simple à intégrer et moins chère à la minute.

Déploiements sensibles aux coûts à fort volume. Mini-realtime existe pour les cas où l'économie à la minute du tier complet ne convient pas.

Transcription pure. Les endpoints de transcription sont moins chers à la minute lorsque la tâche complète est texte-en-sortie-depuis-audio-en-entrée.

Déploiement auto-hébergé. Connexion WebSocket à l'infrastructure OpenAI requise. L'enquête /usecases/local couvre les alternatives on-premise.

Quand épingler précisément cet instantané

Choisissez gpt-4o-realtime-preview-2025-06-03 lorsque :

Vous avez évalué la lignée full-realtime entre mi et fin 2025 et que c'est cet instantané qui l'a emporté.
Les améliorations de gestion des interruptions, de latence ou de détection de back-channel par rapport à l'instantané de décembre comptent pour votre produit.
Vous avez besoin d'une cible comportementale stable en attendant que la lignée realtime quitte le statut preview.

Passez votre chemin lorsque :

Un instantané plus récent est disponible et a remporté votre évaluation.
Le modèle realtime stable définitif est sorti du statut preview.
Le coût est la contrainte opérationnelle — utilisez mini-realtime.
Le streaming n'est pas réellement requis — utilisez la lignée audio-preview.

Alternatives à comparer

L'instantané plus ancien de décembre lorsque la cohérence avec des déploiements déjà validés importe. Mini-realtime lorsque le coût compte plus que la capacité de raisonnement. La lignée audio-preview lorsque le streaming n'est pas l'exigence. L'enquête sur les modèles vocaux dans /usecases/voice couvre les fournisseurs realtime concurrents.

Notes de déploiement

Même surface d'API WebSocket que le reste de la lignée realtime. L'épinglage à un instantané est purement un choix de nom de modèle ; le modèle d'événements et le format des messages sont inchangés d'un instantané à l'autre.

Facturation à la minute pour l'audio entrant et l'audio sortant, plus facturation au token pour l'équivalent texte. La surcharge de streaming est intégrée au tarif à la minute. La planification de capacité se modélise en appels concurrents.

Le code d'intégration côté client est réutilisable lors des migrations entre instantanés car le protocole est stable. Les changements comportementaux entre instantanés sont précisément ce que cet épinglage daté fige.

La lecture pragmatique. Voici le gel de juin 2025 du realtime tier complet. Épinglez-le lorsque votre évaluation montre que les améliorations par rapport à l'instantané de décembre sont réelles sur votre trafic. Effectuez des comparaisons d'appels en direct sur /live-test avant toute décision de migration.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

24 mai 2026 · 04:41 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026