Aller au contenu
Tier C — Spécialiste
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-realtime-preview

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-4o-realtime-preview est une variante du modèle GPT-4o d'OpenAI spécifiquement conçue pour prendre en charge des capacités d'interaction en temps réel. Contrairement aux modèles textuels standards, cette version préliminaire est optimisée pour les applications nécessitant des réponses à faible latence, telles que les agents conversationnels, les systèmes d'assistance client en direct et les applications vocales interactives. Elle traite et génère du texte avec un délai minimal, ce qui la rend adaptée aux scénarios où un retour immédiat est essentiel à l'expérience utilisateur. Le modèle conserve les fondations architecturales centrales de GPT-4o, y compris les capacités de compréhension multimodale, bien que son déploiement principal soit axé sur la génération de texte avec des caractéristiques de performance en temps réel. En tant que version préliminaire, il représente l'exploration par OpenAI de modèles adaptés aux applications synchrones et sensibles au temps, plutôt qu'au traitement par lots ou asynchrone. La taille de la fenêtre de contexte n'a pas été divulguée publiquement, ce qui est typique pour les variantes préliminaires ou spécialisées durant leur période d'évaluation. Au sein de la gamme de modèles d'OpenAI, GPT-4o-realtime-preview occupe une niche spécialisée aux côtés des modèles standards GPT-4o et GPT-4 Turbo. Tandis que ces derniers privilégient une capacité étendue et une efficacité couvrant divers cas d'usage, cette variante temps réel met l'accent sur la vitesse de réponse et la fluidité d'interaction. Elle se positionne comme une offre expérimentale destinée aux développeurs concevant des applications où le flux conversationnel et la réactivité temporelle constituent des exigences critiques, complétant plutôt que remplaçant les modèles de langage généralistes d'OpenAI.

GPT-4o-realtime-preview apporte des capacités temps réel à la famille GPT-4o pour les applications conversationnelles à faible latence.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-realtime-preview
$5.00 par 1M de tokens d'entrée
$20.00 par 1M de tokens de sortie
≈ $0.0070 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$5.00
par 1M de tokens de sortie$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Latence minimale pour interactionsConversations fluides temps réelSupport d interactions vocalesIdéal pour assistants conversationnelsAPI Realtime OpenAI intégrée

Faiblesses

Statut preview, fonctionnalités variablesFenêtre de contexte non documentéeRaisonnement profond limité par contraintes temps réelEn cours de développement
Section 03

Questions fréquentes

Realtime est spécifiquement architecturé pour minimiser la latence et permettre des échanges conversationnels synchrones, contrairement aux modèles batch standard.

L architecture realtime d OpenAI pour les développeurs bâtissant des expériences conversationnelles fluides et réactives.

Synthèse benchmark Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

Référence établie pour le modèle audio-visuel GPT-4o Realtime Preview

Cette évaluation inaugurale de gpt-4o-realtime-preview établit des indicateurs de performance de référence sur l'ensemble des benchmarks multimodaux. Le modèle démontre de solides capacités de raisonnement visuel, atteignant 63,5 % sur MMMU et 85,4 % sur MathVista, ce qui indique une performance robuste sur les tâches combinant compréhension visuelle et mathématique. Le raisonnement textuel affiche des résultats compétitifs avec 88,3 % sur GPQA Diamond et 85,5 % sur MMLU, reflétant une application des connaissances de niveau supérieur. Les capacités mathématiques atteignent 74,6 % sur MATH-500, positionnant le modèle comme apte à la résolution de problèmes complexes. L'architecture prend en charge le traitement audio en temps réel parallèlement aux modalités visuelle et textuelle, conçue pour des applications interactives nécessitant des réponses à faible latence. Les performances en programmation atteignent 82,6 % sur HumanEval, adaptées à une assistance pratique au développement. En tant que version preview, ce modèle constituera un point de référence pour suivre les évolutions futures de la famille de modèles realtime. L'intégration multimodale apparaît équilibrée entre les domaines, sans qu'aucune capacité ne se distingue nettement, en mieux ou en moins bien, par rapport aux autres. Cette base de référence permettra des comparaisons pertinentes à mesure que le modèle évoluera au fil des mises à jour et optimisations.

Quality

Latency p50

Test runs

0

Référence solide en raisonnement visuel Connaissances compétitives de niveau universitaire supérieur Résolution solide de problèmes mathématiques Architecture multimodale en temps réel
Section 06

Profil complet du modèle

gpt-4o-realtime-preview — illustration 1
gpt-4o-realtime-preview : voix en streaming pleine capacité d'OpenAI

gpt-4o-realtime-preview est le modèle vocal en streaming pleine capacité d'OpenAI. Audio bidirectionnel sur connexion WebSocket. Gestion des tours de parole, gestion des interruptions, latence inférieure à la seconde entre la fin de la parole de l'utilisateur et le début de la réponse. Le modèle qui vous permet de construire des agents vocaux qui donnent l'impression d'un appel téléphonique plutôt qu'un relais transcrire-puis-réfléchir-puis-parler.

Il s'agit de la variante pleine capacité. La version mini-realtime est l'option économique pour les charges de travail où la marge de raisonnement n'est pas le facteur limitant.

Ce qu'exige réellement la voix en streaming

Construire un agent vocal qui ne semble pas cassé nécessite plus qu'un moteur TTS rapide collé à un moteur STT rapide. La preview realtime intègre les éléments dont le travail vocal en mode difficile a besoin :

  • Le modèle commence le traitement avant que l'utilisateur ait fini de parler. Au moment où l'utilisateur cesse de parler, la réponse est déjà en formation.
  • L'utilisateur peut interrompre le modèle en pleine réponse et le modèle gère cela avec élégance — il s'arrête, écoute, traite la nouvelle entrée, répond.
  • Les silences et les sons de rétroaction conversationnelle (« mm-hmm », brèves pauses) sont interprétés comme des signaux conversationnels plutôt que des limites de tour de parole.
  • La latence de bout en bout entre l'utilisateur-cesse-de-parler et le modèle-commence-à-parler est bien en dessous du seuil où un appel téléphonique semble retardé.

La preview Realtime est la réponse architecturale à cet ensemble d'exigences. La variante pleine capacité possède la capacité de raisonnement nécessaire pour gérer des agents vocaux qui doivent réfléchir attentivement à ce qui a été dit, pas seulement y réagir.

Où la version pleine capacité justifie son coût

Charges de travail où mini-realtime n'est pas adapté et où la capacité de raisonnement pleine capacité fait la différence.

Agents vocaux de service client complexes qui doivent gérer des interactions en plusieurs étapes — collecter des informations, consulter l'état du compte, raisonner sur des cas limites, répondre avec le bon niveau de détail. Mini-realtime peut router et classifier ; la version pleine capacité peut réellement mener la conversation.

Travail de connaissance piloté par la voix où l'utilisateur demande au modèle de penser à voix haute — conversations de diagnostic, accompagnements de dépannage, scénarios de coaching. La version pleine capacité peut maintenir le contexte sur des tours plus longs et raisonner sur des déclarations ambiguës de l'utilisateur.

Agents vocaux multilingues où le modèle doit changer de langue en cours de conversation et maintenir la qualité de raisonnement au fil du changement. Mini-realtime gère la couverture linguistique ; la version pleine capacité gère la qualité du raisonnement interlangues.

Interfaces vocales critiques où la qualité de sortie compte plus que le coût par minute — produits d'accessibilité dans des domaines critiques, assistants de consultation professionnelle, scénarios où une mauvaise réponse coûte beaucoup plus cher que le tarif par minute d'un modèle plus capable.

Notes architecturales

Architecture de la famille GPT-4o « omni », dimensionnement pleine capacité, acheminé via un transport WebSocket plutôt que l'API Chat Completions en requête/réponse.

La couche de streaming ajoute de la complexité opérationnelle :

  • Une connexion persistante par conversation active.
  • Sémantique d'événements pilotée par le serveur avec des événements explicites de début-de-tour, fin-de-tour, modèle-réfléchit, audio-en-flux.
  • Une histoire d'intégration client plus complexe que le REST standard.
  • Gestion de session avec état côté client et serveur.

OpenAI n'a pas publié les nombres de paramètres pleine capacité. Comportement observable : mêmes formats audio d'entrée que mini-realtime, mêmes options de voix prédéfinies fixes, plafond de raisonnement effectif plus large que la variante mini.

Où ça échoue

Charges de travail qui n'ont pas réellement besoin de streaming. Utilisez la ligne audio-preview — elle est plus simple à intégrer et moins chère par minute. Choisissez realtime pour l'exigence de streaming, pas pour la marque de la famille de modèles.

Déploiements sensibles aux coûts à volume élevé. La variante mini-realtime existe précisément pour les cas où l'économie par minute pleine capacité ne survit pas au volume.

Transcription pure. Les endpoints de transcription coûtent moins cher par minute pour texte-sorti-d'audio-entré.

Déploiement auto-hébergé. Connexion WebSocket à l'infrastructure OpenAI requise. Voir /usecases/local pour les options sur site.

Stabilité contractuelle de niveau production. Marqué preview. Épinglez l'instantané daté pour la prévisibilité comportementale pendant que la ligne est encore en flux.

Environnements clients mobiles complexes. Le protocole WebSocket et le modèle d'événements avec état ajoutent un coût d'ingénierie que les équipes mobiles en particulier doivent budgétiser.

Quand l'utiliser

Choisissez gpt-4o-realtime-preview quand :

  • Vous construisez un agent vocal en direct et la charge de raisonnement derrière la voix est suffisamment lourde pour que mini-realtime devienne le goulot d'étranglement.
  • Le produit peut absorber la complexité opérationnelle de l'intégration WebSocket.
  • La qualité vocale et la qualité de raisonnement ensemble justifient l'économie par minute.

Évitez-le quand :

  • L'application n'a pas réellement besoin de streaming — utilisez la ligne audio-preview.
  • Le coût est la contrainte opérationnelle — utilisez mini-realtime.
  • Le déploiement doit être sur site.
  • La charge de travail est transcription uniquement — utilisez les endpoints de transcription.

Alternatives à comparer

Mini-realtime quand le coût compte plus que la capacité de raisonnement. La ligne audio-preview quand le streaming n'est pas requis. Les endpoints transcribe et TTS quand une direction de la boucle audio constitue la tâche entière. L'enquête plus large sur les modèles vocaux sur /usecases/voice couvre les fournisseurs realtime concurrents.

Notes de déploiement

API WebSocket, matériellement différente du reste du catalogue OpenAI. Attendez-vous à un investissement d'ingénierie dans la machine à états côté client, particulièrement pour les clients mobiles et embarqués.

Facturation par minute pour l'audio entrant et l'audio sortant, plus facturation par jeton pour l'équivalent texte circulant dans le modèle. La surcharge de streaming est intégrée dans le tarif par minute. La planification de capacité ressemble davantage à « appels actifs simultanés » qu'à « requêtes par seconde ».

La lecture pragmatique. La preview Realtime est le bon modèle quand la voix en direct compte et que la capacité de raisonnement compte. C'est le mauvais modèle quand le streaming n'est pas réellement requis, ou quand le dimensionnement approprié au niveau de coût signifie choisir mini-realtime à la place. Testez-le contre vos scénarios vocaux réels sur /live-test.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-4o-realtime-preview — illustration 2gpt-4o-realtime-preview — illustration 3
Dernier test automatisé
24 mai 2026 · 04:43 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026