
Ce n'est pas un modèle à mettre derrière une interface de chat. Les variants Robotics-ER ("raisonnement incarné") de Google sont des modèles à usage restreint, réglés pour le raisonnement spatial, l'ancrage de scène et les types de tâches de planification du monde physique qu'une pile de perception-et-contrôle robotique a besoin d'un LLM pour gérer. Si vous êtes arrivé ici en cherchant un Gemini grand public, c'est gemini-pro-latest ou gemini-flash-latest qu'il vous faut.
Robotics-ER 1.5 Preview est le plus ancien des deux révisions de préversion que Google expose actuellement ; la 1.6 Preview est la plus récente. Les deux sont de niveau préversion, toutes deux ciblent le même domaine, toutes deux sont destinées à l'évaluation plutôt qu'à une production de chargement.
Ce que signifie "raisonnement incarné" ici
Le modèle est réglé pour faire la moitié du travail d'un robot qui concerne le LLM : prendre ce que la pile de perception (caméras, capteurs de profondeur, lidar, retour de force) rapporte sur le monde, fusionner cela avec l'objectif en langage naturel de l'opérateur, et émettre un plan ou un ensemble de points de passage que le contrôleur peut exécuter.
Un appel typique : la couche de perception du robot rapporte des détections d'objets avec des boîtes englobantes et des étiquettes, et l'utilisateur a demandé au robot de "remettre délicatement la tasse sur la soucoupe." Le modèle retourne une séquence d'étapes intermédiaires ancrées dans la géométrie rapportée, avec un raisonnement qui respecte les contraintes de collision, la cinématique du préhenseur et l'intention de l'utilisateur.
Ce n'est pas du contrôle. Le modèle ne ferme pas de boucles servo, ne tourne pas à 1 kHz, ne gère pas la planification de mouvement bas niveau. Il se situe un niveau au-dessus, faisant ce que les papers de Google appellent "intent-to-plan" — transformer des objectifs humains flous en étapes structurées exécutables.
À quoi il sert concrètement
Trois catégories de cas d'usage :
La recherche. Les groupes académiques travaillant sur la manipulation long-horizon, les benchmarks de robotique domestique, ou les agents suivant des instructions dans des environnements simulés.
La pick-and-place industrielle au-dessus de l'automatisation purement scriptée. Là où la couche de perception est déjà solide (ligne de fabrication bien éclairée, inventaire d'objets connu) et où la variation est dans la spécification des objectifs plutôt que dans la scène, les modèles de classe ER ajoutent de la valeur comme couche d'ancrage du langage.
La télérobotique et la collaboration humain-robot. Les opérateurs expriment des objectifs ; le modèle traduit en contraintes contre lesquelles la couche d'autonomie peut planifier.
Où il est insuffisant
Le contrôle en temps réel. La latence est mauvaise pour ça. ER vit en amont de la boucle de contrôle, point.
La généralisation à des scènes nouvelles. Le modèle est entraîné sur un mélange organisé de jeux de données de robotique ; des catégories d'objets entièrement nouvelles, des objets déformables et des scènes multi-agents dynamiques sont là où la fiabilité chute.
Les garanties de sécurité. Rien dans le modèle ne borne formellement la sortie. Construisez la couche de sécurité séparément.
L'instabilité du niveau préversion. Google a modifié les formats de sortie et les patterns de prompting recommandés entre les révisions.
Quand l'évaluer
Choisissez Robotics-ER 1.5 Preview quand :
- Vous faites de la recherche en robotique et voulez une référence de raisonnement incarné solide.
- Vous scoppez un projet où la spécification d'objectifs en langage naturel est une exigence d'utilisabilité.
- Vous faites des benchmarks face à d'autres modèles de raisonnement incarné.
Passez votre chemin quand :
- Le projet est de l'autonomie grand public en dehors de la robotique.
- Vous avez besoin d'une inférence sur appareil.
- Le déploiement est en production plutôt qu'en recherche.
Alternatives dans le même espace
OpenVLA est la référence en poids ouverts. 7 milliards de paramètres, entraîné sur le jeu de données Open X-Embodiment, exécutable sur un seul H100. Vous perdez l'avantage du long contexte et une certaine qualité, vous gagnez l'auto-hébergement complet.
Physical Intelligence's pi0 est l'alternative propriétaire la plus forte publiquement discutée sur la largeur de manipulation.
RT-2 et RT-X sont les travaux publiés antérieurs de Google ; les deux sont des artéfacts de recherche plutôt que des API productisées.
Notes pratiques
1.5 versus 1.6 : si vous démarrez aujourd'hui, utilisez la 1.6. C'est la révision la plus récente et le chemin sur lequel Google itère. La 1.5 est documentée ici parce qu'elle est toujours appelable et que du code de recherche y est épinglé.
Le coût d'intégration est élevé. Le travail difficile n'est pas l'appel API ; c'est la couche de formatage perception-vers-prompt-LLM, l'adaptateur sortie-LLM-vers-contrôleur, et le vérificateur de sécurité entre les deux. Budgétisez des semaines, pas des jours.
Le résumé honnête : Gemini Robotics-ER 1.5 Preview est un instrument de recherche pour les groupes travaillant sur l'IA incarnée. Traitez-le en conséquence.
Dernière vérification technique : 2026-05-22 — Tokonomix.ai
