Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-realtime-2025-08-28

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-Realtime-2025-08-28 est un modèle de langage multimodal développé par OpenAI, publié dans le cadre de l'évolution continue de l'architecture GPT de l'entreprise. Ce modèle illustre l'approche d'OpenAI en matière d'IA conversationnelle en temps réel, conçue spécifiquement pour les applications nécessitant des interactions à faible latence telles que les assistants vocaux, le support client en direct et les systèmes de dialogue interactifs. Contrairement aux modèles traditionnels de complétion de texte, il est optimisé pour la diffusion en continu des réponses et le maintien du contexte conversationnel avec un délai minimal entre l'entrée de l'utilisateur et la sortie du modèle. Le modèle prend en charge les capacités standard de génération de texte et traite à la fois les entrées textuelles et audio, permettant des interactions vocales naturelles. Les spécifications techniques indiquent qu'il s'appuie sur l'architecture transformer qui sous-tend la série GPT d'OpenAI, bien que la taille exacte de la fenêtre de contexte n'ait pas été divulguée publiquement par le fournisseur. Le modèle intègre des améliorations en matière de latence de réponse et de cohérence conversationnelle par rapport aux itérations antérieures, ce qui le rend particulièrement adapté aux scénarios où une rétroaction immédiate est essentielle. Au sein de la gamme de modèles d'OpenAI, GPT-Realtime-2025-08-28 occupe une position spécialisée axée sur les cas d'usage synchrones et interactifs plutôt que sur le traitement par lots ou les tâches asynchrones. Il complète la famille GPT-4 d'OpenAI en répondant à des exigences spécifiques pour les applications en temps réel où les modèles traditionnels basés sur API peuvent introduire des délais inacceptables. Le modèle est accessible via l'infrastructure API d'OpenAI et est destiné aux développeurs construisant des interfaces conversationnelles et des applications à commande vocale.

GPT-Realtime du snapshot août 2025 combine traitement audio et texte pour des interactions conversationnelles en temps réel.

Synthèse benchmark Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-realtime-2025-08-28
$4.00 par 1M de tokens d'entrée
$16.00 par 1M de tokens de sortie
≈ $0.0056 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$4.00
par 1M de tokens de sortie$16.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$4.00

input / 1M

— no change

$16.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Latence optimisée temps réelAudio et texte natifsÉchanges conversationnels fluidesSnapshot août 2025 stableSupport streaming via API Realtime

Faiblesses

Fenêtre de contexte non documentéeRaisonnement limitéCoût supérieur aux modèles texteMoins adapté aux analyses longues
Section 03

Questions fréquentes

Oui, il intègre les améliorations en qualité audio et réactivité disponibles au moment de ce snapshot.

Un snapshot stable des capacités realtime d OpenAI pour les développeurs construisant des applications vocales.

Synthèse benchmark Tokonomix
Section 04

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

2026-05-24

Le premier benchmark établit une performance de référence sur les capacités fondamentales

Le modèle gpt-realtime-2025-08-28 établit sa performance initiale de référence avec des résultats mesurés sur des benchmarks standards. En raisonnement mathématique, le modèle atteint 83,6 % sur GSM8K et 54,6 % sur MATH, indiquant une résolution solide des problèmes élémentaires et une performance modérée sur les mathématiques avancées. Les capacités de codage affichent 81,7 % sur HumanEval et 86,0 % sur MBPP, démontrant de solides compétences fondamentales en programmation. Le modèle obtient 88,4 % sur MMLU, reflétant une vaste connaissance dans les domaines académiques. Le suivi d'instructions atteint 72,9 % sur IFEval, suggérant une adhésion raisonnable aux directives complexes avec une marge d'amélioration. La performance sur GPQA s'établit à 49,0 %, indiquant des capacités modérées de raisonnement de niveau expert. L'écriture créative obtient 22,5 sur Arena-Hard, tandis que MGSM en mathématiques multilingues atteint 76,9 %. En tant que modèle axé sur le temps réel, ces benchmarks posent les fondations pour suivre les améliorations futures. Les utilisateurs doivent comprendre qu'il s'agit du point de départ de cette variante du modèle, avec des caractéristiques de performance qui favorisent les applications conversationnelles et interactives plutôt que l'optimisation pure des benchmarks. Les résultats indiquent un modèle polyvalent compétent, avec une force particulière dans le codage et les tâches de raisonnement fondamental.

Quality

Latency p50

Test runs

0

Solides performances en programmation établies Raisonnement solide en mathématiques élémentaires Capacité modérée en mathématiques avancées Le raisonnement expert nécessite des améliorations
Section 06

Profil complet du modèle

gpt-realtime-2025-08-28 — illustration 1
gpt-realtime-2025-08-28 : l'instantané d'août du modèle vocal natif originel d'OpenAI

L'alias daté d'août 2025 de gpt-realtime est l'instantané qui fige le comportement de la version initiale du modèle vocal phare d'OpenAI. C'est la version à épingler si votre pipeline de production a été calibré sur le gpt-realtime de l'époque du lancement et que vous n'êtes pas encore prêt à revalider avec les poids ultérieurs de la version 1.5 ou à suivre l'alias flottant gpt-realtime au fur et à mesure de son évolution.

Ce que fige l'instantané

Cet instantané capture gpt-realtime tel qu'il a été livré au lancement : l'architecture de transformateur unifié audio-texte, les connexions de streaming persistant basées sur WebSocket, l'appel de fonctions et les sorties structurées disponibles en flux, la détection d'activité vocale pour la gestion des tours de parole. L'enveloppe de capacités correspond exactement à ce que décrit la page d'origine de gpt-realtime, figée aux poids d'août 2025.

La latence, le caractère vocal, le comportement de prise de tour, la gestion des interruptions, la couverture multilingue. Tous ces aspects sont verrouillés au comportement de l'époque du lancement. Le compromis est que vous ne bénéficiez pas des améliorations qu'OpenAI a livrées dans les instantanés ultérieurs, notamment la gestion plus précise des tours de parole et la meilleure synthèse en néerlandais et en polonais qui sont arrivées dans gpt-realtime-1.5.

Pour les flux de travail où le comportement d'origine est celui pour lequel vos prompts, votre infrastructure d'évaluation et vos tests de bout en bout ont été calibrés, épingler cet instantané est le bon choix. L'alias daté est le contrat qui vous protège contre les régressions silencieuses lorsqu'OpenAI met à jour le nom flottant gpt-realtime.

Quand épingler la version d'août a du sens

Les déploiements de production qui sont entrés en service avant la fin 2025 et qui présentent un profil comportemental stable par rapport à cet instantané. Les flux de travail réglementés où la reproductibilité à des fins d'audit exige exactement le même comportement du modèle sur une longue période. Les suites d'assurance qualité de produits vocaux où le corpus de tests de régression est calibré sur la distribution de sortie d'août et générerait de fausses alertes si le modèle sous-jacent évoluait.

Pour les nouveaux développements et le travail exploratoire, ce n'est pas le bon point de départ. Les nouveaux déploiements devraient se standardiser sur gpt-realtime-1.5 ou suivre le nom flottant gpt-realtime. L'instantané d'août est une ancre de stabilité pour la production existante, pas un choix tourné vers l'avenir.

Le chemin de migration de cet instantané vers la version 1.5 présente un risque faible. Les bibliothèques de prompts et les flux de conversation se transfèrent proprement car la surface de l'API n'a pas changé. Ce qui a changé, ce sont des détails comportementaux subtils : le timing de prise de tour, la gestion des interruptions, la qualité de synthèse multilingue. Si votre infrastructure de test couvre ces dimensions, vous constaterez les améliorations ; si ce n'est pas le cas, vous risquez de ne pas remarquer la différence, auquel cas la migration est essentiellement gratuite.

Où elle échoue par rapport à la version 1.5

L'écart le plus visible concerne la prise de tour dans les environnements bruyants. L'instantané d'août commence parfois une réponse quelques centaines de millisecondes avant que l'utilisateur n'ait complètement terminé, en particulier lorsque le bruit ambiant déclenche une fausse détection de fin de parole. Les poids de la version 1.5 gèrent ce cas beaucoup plus proprement.

La qualité de synthèse en néerlandais et en polonais est nettement inférieure à la version 1.5. Si votre déploiement dessert des charges de travail multilingues européennes où ces langues comptent, la différence audible de qualité de synthèse est suffisamment importante pour justifier une migration.

La gestion des interruptions fait parfois en sorte que le modèle continue de parler pendant un instant après que l'utilisateur a interrompu, créant une diaphonie que les utilisateurs remarquent. La version 1.5 gère cela de manière plus gracieuse.

Aucun de ces modes de défaillance ne rend l'instantané d'août inutilisable. Ce sont des raffinements de qualité plutôt que des limites fondamentales. Si votre déploiement est mature et stable sur cet instantané, la question est de savoir si les raffinements valent le travail de revalidation, et non si le comportement d'août est acceptable.

Notes pratiques et alternatives

Si vous opérez sur cet instantané en production et devez planifier une migration éventuelle, la voie consiste à mettre en place une piste d'évaluation parallèle avec gpt-realtime-1.5, exécuter votre corpus de tests complet, documenter les deltas comportementaux et basculer lorsque le rapport de delta montre un risque acceptable. Le pointeur flottant gpt-realtime continuera d'avancer, donc finalement épingler sur août signifiera fonctionner sur un modèle de plus en plus ancien par rapport au reste de la pile d'OpenAI.

Pour le travail vocal de gamme budgétaire où vous n'avez pas besoin de toute la profondeur de raisonnement et de la sophistication d'utilisation d'outils, gpt-realtime-mini et ses variantes datées sont les alternatives. Pour les charges de travail audio-mini pures qui n'ont pas besoin de la boucle conversationnelle, gpt-audio-mini couvre ce travail plus restreint.

La résidence des données dans l'UE n'est pas satisfaite par défaut sur cet instantané pas plus que sur les plus récents. Les passerelles régionales avec des accords de traitement des données restent la solution pratique de contournement pour les déploiements européens réglementés. Cette contrainte n'est pas dépendante de l'instantané.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-realtime-2025-08-28 — illustration 2
Dernier test automatisé
31 mai 2026 · 04:26 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026