Ce modèle est-il adapté aux assistants vocaux d applications mobiles ?

Oui, sa légèreté et sa réactivité temps réel en font un candidat naturel pour les assistants intégrés sur mobile.

La qualité conversationnelle est-elle satisfaisante en mini ?

Pour les conversations standard sans raisonnement complexe, la qualité mini est généralement suffisante pour une bonne expérience utilisateur.

Ce modèle peut-il gérer des conversations multi-tours ?

Oui, l architecture realtime est conçue pour les échanges conversationnels séquentiels avec maintien du contexte récent.

Quelle est la disponibilité de ce preview en termes de régions ?

La disponibilité des modèles preview OpenAI peut varier selon les régions et les niveaux d accès API.

Tier C — Spécialiste

Fonctionne en :USCréé en :United States

Archivé

Ce modèle a été retiré par le fournisseur. Les données historiques sont conservées.

Plus disponible depuis le 24 mai 2026.

OpenAI

gpt-4o-mini-realtime-preview-2024-12-17

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 26 mai 2026

GPT-4o-mini-realtime-preview-2024-12-17 est une variante du modèle GPT-4o-mini d'OpenAI, configurée spécifiquement pour prendre en charge des capacités d'interaction en temps réel. Ce modèle est conçu pour les applications nécessitant des expériences conversationnelles à faible latence, telles que les assistants vocaux, les systèmes d'assistance client en direct et les agents IA interactifs. La désignation « realtime-preview » indique qu'il s'agit d'une version de développement destinée à démontrer et tester les fonctionnalités de traitement en temps réel avant un déploiement plus large. En tant que membre de la famille GPT-4o, ce modèle hérite de l'architecture multimodale qui caractérise la série « o » d'OpenAI, bien que les détails spécifiques concernant sa fenêtre de contexte ne soient pas divulgués. La désignation « mini » indique qu'il s'agit d'une variante plus petite et plus efficiente comparée au modèle GPT-4o complet, optimisée pour des temps de réponse plus rapides et une charge de calcul réduite, tout en maintenant de solides performances sur les tâches standard de génération de texte. Cela le rend particulièrement adapté aux cas d'usage où la vitesse et l'efficience sont prioritaires aux côtés de la qualité de sortie. Au sein de la gamme de modèles d'OpenAI, GPT-4o-mini-realtime-preview occupe une niche spécialisée. Il se positionne en dessous du modèle phare GPT-4o en termes d'échelle et de capacité, mais offre des avantages distincts pour les applications en temps réel où les caractéristiques de latence du modèle complet peuvent s'avérer sous-optimales. Le statut de preview suggère que ce modèle représente une branche expérimentale des efforts de développement d'OpenAI, permettant aux développeurs d'explorer les modèles d'interaction IA en temps réel pendant que la technologie continue de mûrir vers des versions prêtes pour la production.

GPT-4o-mini-realtime-preview combine la légèreté mini avec les capacités temps réel pour des interactions vocales efficientes.
— Synthèse benchmark Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — gpt-4o-mini-realtime-preview-2024-12-17

$0.6000 par 1M de tokens d'entrée

$2.40 par 1M de tokens de sortie

≈ $0.0008 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.6000

par 1M de tokens de sortie$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Réponses temps réel rapidesEfficacité computationnelle miniConversations synchrones fluidesCoût opérationnel inférieur au completAPI Realtime intégrée

Faiblesses

Statut preview, instabilité possibleRaisonnement plus limité que la version complèteContexte non spécifiéFonctionnalités variables en preview

Section 03

Questions fréquentes

Quand les contraintes de coût ou de latence sont prioritaires et que les tâches conversationnelles ne nécessitent pas les capacités les plus avancées.

La solution compacte d OpenAI pour les interactions conversationnelles temps réel à faibles ressources.
— Synthèse benchmark Tokonomix

Section 04

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 05

Verdicts benchmark Tokonomix

● 2026-05-24

Référence établie pour le modèle d'aperçu en temps réel avec de solides performances

Ce verdict établit le profil de performance de référence pour GPT-4o Mini Realtime Preview. Le modèle démontre de solides capacités dans plusieurs catégories de benchmarks, avec des résultats particulièrement notables en raisonnement mathématique et en connaissances générales. La performance sur SimpleQA atteint 15,5 %, indiquant une exactitude factuelle correcte, tandis que le modèle obtient 81,9 % sur MMLU, témoignant de connaissances étendues dans diverses disciplines académiques. Les capacités mathématiques sont robustes avec 72,8 % sur MGSM et 84,3 % sur GSM8K, suggérant des compétences arithmétiques et de résolution de problèmes fiables. Le suivi d'instructions mesuré à 64,2 % sur IFEval révèle une adhérence compétente, mais pas exceptionnelle, aux directives complexes. Les résultats du benchmark MUSR révèlent une performance de raisonnement contrastée, avec Murder Mysteries à 47,8 % et Object Placements à 59,3 %, tandis que Team Allocation accuse du retard à 25,2 %. Ces mesures de référence définissent l'enveloppe de performance de cette variante real-time preview, fournissant un point de comparaison pour les évaluations futures. Les utilisateurs peuvent s'attendre à une performance fiable sur les tâches linguistiques standard, avec une force particulière sur les opérations mathématiques, bien que les scénarios de raisonnement complexe en plusieurs étapes puissent poser des difficultés.

Quality

—

Latency p50

—

Test runs

✓ Solide raisonnement mathématique établi✓ Base de connaissances MMLU solide✗ Le raisonnement sur l'allocation d'équipe doit être amélioré✓ Bonne exactitude factuelle sur SimpleQA

Section 06

Profil complet du modèle

gpt-4o-mini-realtime-preview-2024-12-17 : l'instantané mini-realtime de décembre

gpt-4o-mini-realtime-preview-2024-12-17 est l'instantané daté de décembre 2024 du petit modèle vocal en streaming d'OpenAI. Même architecture temps-réel basée sur WebSocket que l'alias évolutif, figé à ce point de publication afin que les déploiements vocaux en production puissent s'ancrer sur un comportement connu.

L'instantané daté est ce qui empêche un agent vocal en production de se comporter silencieusement différemment au lendemain matin d'une mise à jour de la ligne preview par OpenAI.

Pourquoi l'ancrage compte davantage pour la voix temps-réel que pour le texte

Les agents vocaux en streaming présentent une surface comportementale plus étendue que les modèles textuels. Au-delà des réponses que le modèle génère, vous dépendez également de :

Exactement quand le modèle considère qu'un tour de parole utilisateur est terminé et commence à répondre.
L'agressivité avec laquelle le modèle gère les interruptions lorsque l'utilisateur commence à parler par-dessus lui.
Le profil de latence entre la fin de la parole utilisateur et le début de la réponse du modèle.
Comment le modèle traite les sons de canal arrière et les brefs silences.

Tous ces éléments peuvent évoluer entre les instantanés preview, et les variations sur ces dimensions donnent l'impression d'un produit différent à l'utilisateur final même lorsque le raisonnement sous-jacent reste inchangé. L'ancrage sur 2024-12-17 signifie que l'expérience d'appel en direct qui a passé l'assurance qualité reste l'expérience d'appel en direct qui est déployée.

Ce que cet instantané représente

À la sortie de décembre 2024, le mini-realtime preview avait :

Stabilisé le protocole d'événements WebSocket que les instantanés plus récents héritent.
Verrouillé le petit ensemble fixe de voix de sortie prédéfinies partagées avec le reste de la gamme audio.
Résolu les régressions les plus perturbatrices de détection de tour de parole issues des premières versions preview.

Ce qu'il n'a pas, par rapport aux instantanés ultérieurs de 2025 :

La gestion améliorée des interruptions arrivée mi-2025.
Les améliorations de latence provenant des changements d'infrastructure backend.
La détection affinée du canal arrière qui a fluidifié le flux conversationnel.

Les agents vocaux validés fin 2024 ou début 2025 ont très probablement été validés contre cet instantané.

La question de la migration

Les modèles vocaux temps-réel sont le pire type de chose à mettre à niveau aveuglément. La forme d'une migration disciplinée :

Conservez l'ancrage de décembre en production pendant que vous évaluez.
Réexécutez un ensemble représentatif de scénarios de conversation en direct contre l'instantané plus récent candidat — appels enregistrés, tests d'interruption synthétiques, alternance de tours de parole multilingue.
Surveillez les régressions sur les cas limites que l'instantané plus ancien gérait. Les gains moyens peuvent masquer des scénarios spécifiques qui se sont détériorés.
Migrez lorsque l'instantané plus récent gagne de manière démontrable sur les métriques qui comptent pour votre produit.

La politique de dépréciation d'OpenAI donne un préavis, mais cette politique est un plancher. Traitez l'instantané daté comme transitoire — migrez vers l'avant lorsque votre évaluation l'indique.

Où il échoue

Mêmes contraintes que le reste de la gamme mini-realtime.

Raisonnement lourd en pleine conversation. Mini est le petit modèle. Le preview realtime complet est la bonne escalade lorsque le raisonnement devient le goulot d'étranglement.

Charges de travail qui n'ont pas réellement besoin de streaming. La gamme audio-preview est plus simple à intégrer et moins chère par minute pour la voix requête/réponse.

Déploiement auto-hébergé. L'API realtime nécessite une connexion WebSocket à l'infrastructure OpenAI. Le panorama /usecases/local couvre ce qui est disponible lorsque cette contrainte s'applique.

Stabilité contractuelle de niveau production au-delà de l'horizon de l'instantané. La balise preview signifie que la gamme dans son ensemble est encore en évolution. L'ancrage daté vous donne une stabilité au niveau de l'instantané, pas une stabilité au niveau de la catégorie.

Quand ancrer cet instantané exact

Choisissez gpt-4o-mini-realtime-preview-2024-12-17 lorsque :

Vous avez déployé un produit vocal en direct sur le comportement mini-realtime de fin 2024 et devez le maintenir stable.
Une exigence de conformité ancre la version du modèle au niveau de l'instantané.
Vous êtes en pleine évaluation d'instantanés plus récents et avez besoin d'une base de production stable pendant que l'évaluation se déroule.

Évitez-le lorsque :

Vous démarrez de zéro — évaluez l'instantané le plus récent et ancrez celui-là.
Les améliorations des instantanés ultérieurs ont gagné sur votre évaluation.
La gamme realtime finit par passer de preview à stable — c'est la bonne cible pour les nouveaux projets.

Notes de déploiement

Protocole WebSocket inchangé entre les instantanés mini-realtime jusqu'à présent. L'ancrage d'instantané est purement un choix de nom de modèle ; le modèle d'événement et le format de message sont identiques à l'alias évolutif tel qu'il se présentait à la date de publication.

Facturation par minute pour l'audio entrant et l'audio sortant, plus facturation par jeton texte pour l'équivalent texte transitant par le modèle. La surcharge temps-réel est intégrée dans le tarif par minute. La planification de capacité se rapproche davantage de « appels actifs simultanés » que de « requêtes par seconde ».

La gestion d'état côté client est le coût d'intégration que vous payez pour le streaming. Les clients mobiles en particulier nécessitent une gestion soigneuse des reconnexions WebSocket, de la mise en tampon audio et des transitions d'état de tour de parole. Rien de tout cela ne change entre les instantanés — le protocole est stable. Les détails comportementaux qui changent effectivement entre les instantanés sont précisément les éléments que cet ancrage daté fige pour vous.

La lecture pragmatique. Ceci est le gel de décembre 2024 de mini-realtime. Ancrez-le lorsque votre produit vocal en direct a été validé contre lui. Migrez lorsque votre propre évaluation démontre que l'instantané suivant est le bon choix. Exécutez des comparaisons d'appels en direct sur /live-test avant de vous engager.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

24 mai 2026 · 04:47 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·26 mai 2026