Ce snapshot convient-il aux démonstrations et prototypes ?

Oui, c est un cas d usage idéal pour tester des concepts d interfaces vocales ou conversationnelles temps réel.

Quelle infrastructure est nécessaire pour les interactions temps réel ?

L API Realtime d OpenAI gère l infrastructure, mais votre application doit gérer le streaming de tokens et la gestion des connexions.

Ce modèle supporte-t-il l audio en entrée et en sortie ?

Oui, il est conçu pour les interactions bidirectionnelles audio et texte dans des scénarios temps réel.

Comment ce snapshot de décembre 2024 se compare aux versions plus récentes ?

Les versions plus récentes intègrent des améliorations progressives. Ce snapshot offre la stabilité d un comportement documenté.

Tier C — Spécialiste

Fonctionne en :USCréé en :United States

Archivé

Ce modèle a été retiré par le fournisseur. Les données historiques sont conservées.

Plus disponible depuis le 24 mai 2026.

OpenAI

gpt-4o-realtime-preview-2024-12-17

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

GPT-4o Realtime Preview (2024-12-17) est un modèle d'IA multimodal développé par OpenAI, conçu pour prendre en charge les applications conversationnelles en temps réel avec des capacités de traitement texte et audio à faible latence. Cette version preview fait partie de la famille GPT-4o d'OpenAI, qui met l'accent sur des performances optimisées pour les cas d'usage interactifs où la réactivité immédiate est essentielle. Le modèle gère les tâches standard de génération de texte tout en étant architecturé pour minimiser les délais de traitement et de livraison des réponses, ce qui le rend particulièrement adapté à des applications telles que les assistants vocaux, le support client en direct et les agents conversationnels interactifs. Le modèle intègre les dernières améliorations architecturales d'OpenAI pour la gestion simultanée des entrées et sorties texte et audio, bien que la taille spécifique de la fenêtre de contexte n'ait pas été divulguée publiquement. Il conserve les capacités générales de compréhension et de génération de langage caractéristiques de la série GPT-4, incluant le raisonnement, l'écriture créative, la génération de code et les tâches d'analyse. La désignation « realtime preview » indique qu'il s'agit d'une version expérimentale destinée aux tests et aux retours des développeurs, plutôt qu'une version finale de production. Au sein de la gamme de modèles d'OpenAI, GPT-4o Realtime Preview se positionne aux côtés d'autres variantes GPT-4o comme une option spécialisée pour les applications sensibles à la latence. Il complète les modèles GPT-4o standards en privilégiant la vitesse d'interaction plutôt qu'une longueur de contexte maximale ou un débit élevé, illustrant l'expansion continue d'OpenAI vers les applications d'IA en temps réel. S'agissant d'une version preview, les développeurs doivent s'attendre à des mises à jour et à des ajustements potentiels en fonction des modèles d'utilisation et des observations de performance.

GPT-4o Realtime Preview de décembre 2024 est spécialement conçu pour les interactions conversationnelles à faible latence.
— Synthèse benchmark Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — gpt-4o-realtime-preview-2024-12-17

$5.00 par 1M de tokens d'entrée

$20.00 par 1M de tokens de sortie

≈ $0.0070 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$5.00

par 1M de tokens de sortie$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Latence minimaleConversations synchrones fluidesSupport audio et texte temps réelSnapshot décembre 2024 stableIdéal pour assistants interactifs

Faiblesses

Statut previewFenêtre de contexte non documentéeRaisonnement limité par contraintes temps réelFonctionnalités susceptibles d évoluer

Section 03

Questions fréquentes

L architecture realtime est optimisée pour minimiser le délai de réponse et permettre des échanges conversationnels synchrones et naturels.

Un snapshot stable pour les développeurs construisant des interfaces conversationnelles temps réel avec OpenAI.
— Synthèse benchmark Tokonomix

Section 04

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

● 2026-05-24

Référence établie pour le modèle audio-first GPT-4o Realtime Preview

Ceci constitue le premier benchmark pour GPT-4o Realtime Preview, le modèle audio-natif d'OpenAI conçu pour les interactions vocales à faible latence. Le modèle affiche de solides performances sur les benchmarks standards, atteignant 86,3 % au MMLU et 88,0 % au GPQA, ce qui le situe dans la catégorie supérieure des modèles de langage actuels. Le raisonnement mathématique se révèle capable avec 76,6 % au GSM8K et 51,1 % au MATH, indiquant une performance correcte mais non exceptionnelle sur les tâches quantitatives complexes. Le modèle démontre de fortes aptitudes en programmation avec 83,2 % au HumanEval et conserve une performance multilingue compétitive avec 85,8 % au MGSM. Les capacités visuelles sont robustes à 69,1 % au MMMU, bien que cela représente le bas du spectre par rapport aux modèles multimodaux de pointe. Le modèle présente un raisonnement équilibré avec 82,0 % au DROP et 78,5 % au GPQA Diamond. En tant que modèle audio-first optimisé pour l'interaction en temps réel, ces benchmarks fournissent une base de référence pour suivre l'évolution du modèle lors des prochaines itérations. Les utilisateurs doivent noter qu'il s'agit d'une version preview, suggérant un développement en cours et de possibles améliorations dans les versions ultérieures.

Quality

—

Latency p50

—

Test runs

✓ Bonnes performances au MMLU avec 86,3 %✓ Capacités de codage robustes sur HumanEval✓ Scores de raisonnement multilingue compétitifs✗ Résultats modérés au benchmark MATH

Section 06

Profil complet du modèle

gpt-4o-realtime-preview-2024-12-17 : l'épingle full-realtime de décembre

gpt-4o-realtime-preview-2024-12-17 est l'instantané daté de décembre 2024 du modèle vocal en streaming pleine catégorie d'OpenAI. Il s'agit du gel de l'alias glissant gpt-4o-realtime-preview tel qu'il existait ce mois-là, verrouillé pour les déploiements vocaux en production qui s'épinglent à un comportement spécifique.

Pour les agents vocaux en direct au niveau full-tier, l'épinglage de l'instantané est ce qui maintient prévisibles le déroulement des appels, la gestion des interruptions et le style de raisonnement, pendant qu'OpenAI continue à itérer sur la ligne preview.

Ce que représente cet instantané

En décembre 2024, le full realtime preview avait :

Stabilisé le protocole d'événements WebSocket dont héritent les instantanés ultérieurs.
Verrouillé le petit ensemble fixe de voix de sortie préréglées partagé avec le reste de la famille audio.
Résolu les régressions plus perturbantes de détection de tour de parole héritées des premières versions de preview.

Ce qu'il n'a pas, par rapport aux instantanés ultérieurs de 2025 :

La gestion améliorée des interruptions arrivée mi-2025, qui permet au modèle de mieux se remettre des coupures de l'utilisateur.
Les améliorations de latence issues des changements d'infrastructure backend tout au long du T2 2025.
La détection affinée des back-channels qui a fluidifié la dynamique conversationnelle.

Les agents vocaux en direct validés fin 2024 ou début 2025 ont très probablement été testés contre cet instantané.

Pourquoi l'épinglage compte davantage pour le realtime full-tier que pour mini-realtime

Le modèle full-tier est celui qui porte la conversation dans les déploiements où la qualité de raisonnement détermine l'expérience utilisateur. Les évolutions comportementales à ce niveau affectent :

La manière dont le modèle formule ses réponses aux questions ambiguës.
L'agressivité avec laquelle le modèle pose des questions de clarification plutôt que d'inférer l'intention.
La manière dont le modèle gère les requêtes limites situées près des frontières de refus.
La manière dont le modèle intègre des informations à travers plusieurs tours utilisateur au sein d'un même appel.

Tous ces aspects sont visibles pour les utilisateurs finaux, et toute évolution sur l'un d'eux donne l'impression d'un agent vocal différent même lorsque la voix de surface reste inchangée. Épingler sur 2024-12-17 signifie que le comportement conversationnel validé par votre QA reste le comportement conversationnel en production.

La question de la migration

Les agents vocaux en direct sont le pire type de chose à mettre à niveau sur la foi. La forme d'une migration disciplinée :

Maintenir l'épingle de décembre en production pendant l'évaluation.
Rejouer un ensemble représentatif de scénarios de conversation en direct contre le nouvel instantané candidat — appels de référence enregistrés, tests synthétiques d'interruption, scénarios de raisonnement multi-tour dans les langues que prend en charge votre produit.
Surveiller les régressions sur les cas limites que l'ancien instantané gérait. Les gains agrégés masquent souvent des scénarios spécifiques qui se sont dégradés.
Migrer lorsque le nouvel instantané l'emporte sur les métriques qui comptent pour votre produit, avec l'évaluation humaine comme arbitre sur la qualité conversationnelle subjective.

La politique de dépréciation d'OpenAI prévoit un préavis avant le retrait des instantanés datés, mais cette politique constitue le plancher. Traitez l'épingle datée comme un contrat transitoire — migrez en avant lorsque votre évaluation l'indique.

Là où il échoue

Mêmes contraintes que le reste de la ligne full-realtime.

Les charges de travail qui n'ont pas réellement besoin de streaming. La ligne audio-preview est le bon choix pour la voix en mode requête/réponse.

Les déploiements sensibles aux coûts à fort volume. Mini-realtime existe pour les cas où l'économie par minute du full-tier ne convient pas.

La transcription pure. Les endpoints de transcription sont moins chers à la minute lorsque la sortie texte à partir d'une entrée audio est la tâche entière.

Le déploiement auto-hébergé. Connexion WebSocket à l'infrastructure OpenAI requise. Voir /usecases/local pour les options on-prem.

La stabilité contractuelle de niveau production au-delà de l'horizon de l'instantané. L'étiquetage preview signifie que la catégorie est encore en mouvement. L'épingle datée fournit une stabilité au niveau de l'instantané, pas au niveau de la catégorie.

Quand épingler exactement cet instantané

Choisissez gpt-4o-realtime-preview-2024-12-17 lorsque :

Vous avez livré un produit vocal en direct sur le comportement full-realtime de fin 2024 et que vous devez le maintenir stable.
Une exigence de conformité épingle la version du modèle au niveau de l'instantané.
Vous êtes en pleine évaluation d'instantanés plus récents et avez besoin d'une base de production stable pendant que l'évaluation se déroule.

Passez votre chemin lorsque :

Vous démarrez de zéro — évaluez l'instantané le plus récent et épinglez celui-là.
Les améliorations de gestion des interruptions, de latence ou de back-channels apportées par les instantanés ultérieurs l'ont emporté lors de votre évaluation.
La ligne realtime passe du statut preview au statut stable — c'est la bonne cible pour les nouveaux projets.

Alternatives à comparer

L'instantané plus récent gpt-4o-realtime-preview-2025-06-03 lorsque les améliorations de juin 2025 l'emportent de manière démontrable. Mini-realtime lorsque le coût importe davantage que la capacité de raisonnement. La ligne audio-preview pour la voix sans streaming. Le panorama plus large des modèles vocaux sur /usecases/voice couvre les fournisseurs realtime concurrents.

Notes de déploiement

Le protocole WebSocket est inchangé d'un instantané realtime à l'autre jusqu'à présent. L'épinglage de l'instantané est purement un choix de nom de modèle ; le modèle d'événements et le format de message sont identiques à ceux de l'alias glissant tel qu'il existait à la date de sortie.

Facturation à la minute pour l'audio entrant et l'audio sortant, plus facturation au token pour l'équivalent texte qui transite par le modèle. La planification de capacité se mesure en appels concurrents.

La gestion d'état côté client est le coût d'intégration payé pour le streaming. Aucune partie de cette intégration ne change entre les instantanés — le protocole est stable. Les détails comportementaux qui, eux, changent entre instantanés sont exactement ce que cette épingle datée fige pour vous.

La lecture pragmatique. C'est le gel de décembre 2024 du realtime full-tier. Épinglez-le lorsque votre produit vocal en direct a été validé contre lui et que le coût d'une re-validation contre un instantané plus récent l'emporte sur le bénéfice. Lancez des comparaisons d'appels en direct sur /live-test avant toute migration.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

24 mai 2026 · 04:47 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026