Peut-on l'utiliser en production aujourd'hui ?

Non, il s'agit d'une preview. Elle convient à la R&D et au prototypage, mais l'API et les garanties peuvent évoluer avant une version stable.

Que signifie concrètement la fenêtre de 1M tokens ici ?

Elle permet d'ingérer simultanément de longues séquences d'instructions, des descriptions environnementales détaillées et des historiques de capteurs sans découpage agressif du contexte.

Comment se positionne-t-il face aux modèles Gemini généralistes ?

Il occupe une niche spécialisée orientée raisonnement incarné, là où les Gemini standards visent un usage langagier large. Pour des tâches non robotiques, un modèle généraliste reste plus pertinent.

Quelles précautions prendre pour l'intégrer dans une stack robotique ?

Prévoir une couche de validation des actions générées, une supervision humaine sur les commandes critiques et un suivi des évolutions de l'API tant que le modèle reste en preview.

Fonctionne en :USCréé en :United States

Archivé

Ce modèle a été retiré par le fournisseur. Les données historiques sont conservées.

Plus disponible depuis le 27 mai 2026.

Google Gemini

Gemini Robotics-ER 1.5 Preview

1.048576M tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 24 mai 2026

Gemini Robotics-ER 1.5 Preview est un modèle de langage spécialisé développé par Google dans le cadre de la famille de modèles Gemini, conçu spécifiquement pour les applications robotiques et les tâches de raisonnement incarné. Le modèle représente l'effort de Google pour relier la compréhension du langage naturel aux interactions avec le monde physique, permettant aux robots et systèmes automatisés de traiter des instructions, planifier des actions et raisonner sur les relations spatiales et temporelles dans des environnements réels. Cette version preview dispose d'une fenêtre de contexte exceptionnellement large de 1 048 576 tokens (1M tokens), lui permettant de traiter simultanément des volumes importants de données de capteurs, de longues séquences d'instructions et des descriptions environnementales détaillées. Le modèle prend en charge les capacités standard de génération de texte tout en étant optimisé pour des flux de travail spécifiques à la robotique tels que la planification de tâches, l'interprétation de commandes en langage naturel et le raisonnement multi-étapes sur la manipulation physique. La désignation « ER » indique son orientation vers le raisonnement incarné, suggérant des performances améliorées sur les tâches nécessitant la compréhension des contraintes physiques, des relations entre objets et des séquences d'actions. Au sein du portefeuille de modèles Google, Gemini Robotics-ER 1.5 Preview occupe une niche spécialisée aux côtés des modèles Gemini généralistes. Tandis que les modèles Gemini standard répondent à des besoins larges de compréhension du langage, cette variante cible les chercheurs et développeurs travaillant sur des systèmes robotiques, des plateformes d'automatisation et des applications nécessitant un raisonnement ancré dans le monde physique. En tant que version preview, il offre un accès anticipé aux capacités d'IA axées sur la robotique de Google pendant que la technologie poursuit son développement.

Gemini Robotics-ER 1.5 Preview marque l'incursion de Google dans le raisonnement incarné, en reliant le langage naturel aux contraintes du monde physique.
— Synthèse éditoriale Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Gemini Robotics-ER 1.5 Preview

$0.3000 par 1M de tokens d'entrée

$2.50 par 1M de tokens de sortie

≈ $0.0007 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.3000

par 1M de tokens de sortie$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

— no change

$2.50

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Raisonnement incarné spécialiséFenêtre de contexte de 1M tokensOptimisé pour la planification robotiqueCompréhension spatiale et temporelleIntégration à l'écosystème GeminiAdapté aux pipelines d'automatisationTraitement de longs flux de capteursInterprétation fine des commandes

Faiblesses

Statut preview, API instableCapacités et tarification non documentéesDisponibilité régionale limitéePortée multimodale non confirmée

Section 03

Capacités

outputTokenLimit: 65536

Section 04

Questions fréquentes

Il vise les applications robotiques et d'automatisation nécessitant un raisonnement sur le monde physique, comme la planification de tâches, l'interprétation d'instructions et le raisonnement multi-étapes sur des manipulations.

Une preview prometteuse pour les équipes robotiques, mais à réserver aux projets de recherche jusqu'à une version stable et documentée.
— Verdict Tokonomix

Section 05

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

● 2026-05-24

Référence établie pour Gemini Robotics-ER 1.5 Preview

Ce verdict établit la référence initiale de performance pour Gemini Robotics-ER 1.5 Preview, le modèle de Google conçu pour les applications de robotique incarnée. S'agissant de la première fenêtre d'évaluation, aucune comparaison de performance ne peut être effectuée avec des versions antérieures. Le modèle entre en évaluation avec ses capacités actuelles servant de point de référence pour les évaluations futures. Les utilisateurs doivent comprendre que les verdicts ultérieurs suivront les évolutions des indicateurs de performance, de la fiabilité et des variations de capacités par rapport à cette base de référence. L'orientation spécifique vers la robotique suggère une optimisation pour la prise de décision en temps réel, le raisonnement spatial et la planification de tâches physiques. Les futures fenêtres d'évaluation révéleront comment le modèle évolue dans le traitement des entrées robotiques multimodales, la précision de prédiction des actions et les caractéristiques de latence essentielles aux applications d'IA incarnée. En l'absence de données historiques, ce verdict ne peut pas évaluer les tendances de stabilité ni les risques de régression. Les parties prenantes évaluant ce modèle pour des déploiements robotiques devraient surveiller les prochains verdicts afin de comprendre les trajectoires de performance et d'identifier les schémas émergents dans les améliorations ou dégradations de capacités à travers les différentes catégories de tâches robotiques.

Quality

—

Latency p50

—

Test runs

✓ Référence initiale établie

Section 07

Profil complet du modèle

Gemini Robotics-ER 1.5 Preview

Ce n'est pas un modèle à mettre derrière une interface de chat. Les variants Robotics-ER ("raisonnement incarné") de Google sont des modèles à usage restreint, réglés pour le raisonnement spatial, l'ancrage de scène et les types de tâches de planification du monde physique qu'une pile de perception-et-contrôle robotique a besoin d'un LLM pour gérer. Si vous êtes arrivé ici en cherchant un Gemini grand public, c'est gemini-pro-latest ou gemini-flash-latest qu'il vous faut.

Robotics-ER 1.5 Preview est le plus ancien des deux révisions de préversion que Google expose actuellement ; la 1.6 Preview est la plus récente. Les deux sont de niveau préversion, toutes deux ciblent le même domaine, toutes deux sont destinées à l'évaluation plutôt qu'à une production de chargement.

Ce que signifie "raisonnement incarné" ici

Le modèle est réglé pour faire la moitié du travail d'un robot qui concerne le LLM : prendre ce que la pile de perception (caméras, capteurs de profondeur, lidar, retour de force) rapporte sur le monde, fusionner cela avec l'objectif en langage naturel de l'opérateur, et émettre un plan ou un ensemble de points de passage que le contrôleur peut exécuter.

Un appel typique : la couche de perception du robot rapporte des détections d'objets avec des boîtes englobantes et des étiquettes, et l'utilisateur a demandé au robot de "remettre délicatement la tasse sur la soucoupe." Le modèle retourne une séquence d'étapes intermédiaires ancrées dans la géométrie rapportée, avec un raisonnement qui respecte les contraintes de collision, la cinématique du préhenseur et l'intention de l'utilisateur.

Ce n'est pas du contrôle. Le modèle ne ferme pas de boucles servo, ne tourne pas à 1 kHz, ne gère pas la planification de mouvement bas niveau. Il se situe un niveau au-dessus, faisant ce que les papers de Google appellent "intent-to-plan" — transformer des objectifs humains flous en étapes structurées exécutables.

À quoi il sert concrètement

Trois catégories de cas d'usage :

La recherche. Les groupes académiques travaillant sur la manipulation long-horizon, les benchmarks de robotique domestique, ou les agents suivant des instructions dans des environnements simulés.

La pick-and-place industrielle au-dessus de l'automatisation purement scriptée. Là où la couche de perception est déjà solide (ligne de fabrication bien éclairée, inventaire d'objets connu) et où la variation est dans la spécification des objectifs plutôt que dans la scène, les modèles de classe ER ajoutent de la valeur comme couche d'ancrage du langage.

La télérobotique et la collaboration humain-robot. Les opérateurs expriment des objectifs ; le modèle traduit en contraintes contre lesquelles la couche d'autonomie peut planifier.

Où il est insuffisant

Le contrôle en temps réel. La latence est mauvaise pour ça. ER vit en amont de la boucle de contrôle, point.

La généralisation à des scènes nouvelles. Le modèle est entraîné sur un mélange organisé de jeux de données de robotique ; des catégories d'objets entièrement nouvelles, des objets déformables et des scènes multi-agents dynamiques sont là où la fiabilité chute.

Les garanties de sécurité. Rien dans le modèle ne borne formellement la sortie. Construisez la couche de sécurité séparément.

L'instabilité du niveau préversion. Google a modifié les formats de sortie et les patterns de prompting recommandés entre les révisions.

Quand l'évaluer

Choisissez Robotics-ER 1.5 Preview quand :

Vous faites de la recherche en robotique et voulez une référence de raisonnement incarné solide.
Vous scoppez un projet où la spécification d'objectifs en langage naturel est une exigence d'utilisabilité.
Vous faites des benchmarks face à d'autres modèles de raisonnement incarné.

Passez votre chemin quand :

Le projet est de l'autonomie grand public en dehors de la robotique.
Vous avez besoin d'une inférence sur appareil.
Le déploiement est en production plutôt qu'en recherche.

Alternatives dans le même espace

OpenVLA est la référence en poids ouverts. 7 milliards de paramètres, entraîné sur le jeu de données Open X-Embodiment, exécutable sur un seul H100. Vous perdez l'avantage du long contexte et une certaine qualité, vous gagnez l'auto-hébergement complet.

Physical Intelligence's pi0 est l'alternative propriétaire la plus forte publiquement discutée sur la largeur de manipulation.

RT-2 et RT-X sont les travaux publiés antérieurs de Google ; les deux sont des artéfacts de recherche plutôt que des API productisées.

Notes pratiques

1.5 versus 1.6 : si vous démarrez aujourd'hui, utilisez la 1.6. C'est la révision la plus récente et le chemin sur lequel Google itère. La 1.5 est documentée ici parce qu'elle est toujours appelable et que du code de recherche y est épinglé.

Le coût d'intégration est élevé. Le travail difficile n'est pas l'appel API ; c'est la couche de formatage perception-vers-prompt-LLM, l'adaptateur sortie-LLM-vers-contrôleur, et le vérificateur de sécurité entre les deux. Budgétisez des semaines, pas des jours.

Le résumé honnête : Gemini Robotics-ER 1.5 Preview est un instrument de recherche pour les groupes travaillant sur l'IA incarnée. Traitez-le en conséquence.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

27 mai 2026 · 21:50 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·24 mai 2026