
La révision 1.6 est la plus récente. Si vous démarrez un projet de raisonnement incarné aujourd'hui contre l'API Gemini de Google, c'est celle-là à évaluer ; la 1.5 reste principalement parce que certaines bases de code de recherche y sont épinglées. Même domaine — robotique, planification ancrée dans la scène, traduction intention-vers-plan — révision différente, profil pratique différent.
Le changement phare de la 1.6 par rapport à la 1.5 est la fenêtre de contexte. Google est passé d'une fenêtre de 1 048 576 tokens à 131 072. Ça ressemble à une régression et sur la spécification brute c'en est une, mais en pratique le cas d'usage ER exerce rarement le contexte d'un million de tokens, et la fenêtre plus petite vient avec un rappel nettement meilleur et un délai d'exécution plus rapide. C'est l'échange que vous avez fait.
Ce qui est différent dans la 1.6
Un contexte plus serré, une attention plus acérée. La fenêtre de 128 000 tokens est largement suffisante pour un tampon de perception de plusieurs secondes, plusieurs tours de mémoire de scène et une spécification d'objectif complète. La qualité de rappel et d'ancrage sur la durée est plus forte que sur la 1.5, ce qui est le rééquilibrage que Google visait.
Un meilleur suivi des instructions sur les plans multi-étapes. Le modèle 1.5 produisait fréquemment de bonnes premières étapes puis dérivait sur les étapes ultérieures quand elles étaient enchaînées — la 1.6 est plus cohérente sur des horizons de plan plus longs.
Une sortie structurée plus propre. L'application des schémas JSON sur les sorties de plan est plus fiable. Les équipes qui ont construit des adaptateurs validés par schéma autour de la 1.5 ont signalé des taux de retry plus faibles après le passage à la 1.6.
Des patterns de prompt différents. Les recommandations de Google autour de la description de scène, la déclaration de l'espace d'action et la spécification des contraintes ont changé entre les révisions.
Ce qui n'a pas changé
Le modèle est toujours de niveau préversion.
Ce n'est toujours pas une boucle de contrôle. ER vit au-dessus de la planification de mouvement, pas à l'intérieur. Le plancher de latence de classe 100ms rend cela inévitable.
Il est toujours spécialisé en raisonnement incarné. Les tâches grand public produiront une moins bonne sortie que ce que gemini-pro-latest vous donnerait pour le même prompt.
Le coût d'intégration est toujours élevé.
Quand utiliser la 1.6 plutôt que la 1.5
Par défaut, utilisez la 1.6 pour les nouveaux travaux. Les améliorations sur la cohérence des horizons de plan et la fiabilité des sorties structurées comptent plus en pratique que le plafond d'un million de tokens. Restez sur la 1.5 seulement si :
- Votre base de code y est épinglée et le coût de migration l'emporte sur le delta de qualité.
- Vous avez un cas d'usage spécifique qui exerce genuinement la fenêtre d'un million de tokens (rare en robotique).
- La reproductibilité des résultats de recherche publiés nécessite l'ancienne révision.
Quand ne pas utiliser ER du tout
Si la tâche n'est pas incarnée — objectifs du monde physique, entrées de capteurs, sorties d'actions — utilisez gemini-pro-latest ou un autre modèle grand public. ER est pire que Pro sur tout ce qui n'est pas de la robotique, par conception.
Si le déploiement est critique en matière de sécurité et que vous ne pouvez pas accepter les changements de comportement du niveau préversion, regardez les alternatives auto-hébergées où vous contrôlez la version du modèle. OpenVLA est le point de départ évident.
Alternatives
OpenVLA. 7 milliards de paramètres, poids ouverts, exécutable sur un seul H100. La référence ouverte de base pour la recherche en VLA.
Physical Intelligence's pi0. L'alternative propriétaire la plus forte publiquement discutée sur la largeur de manipulation.
NVIDIA Project GR00T. Modèles de fondation pour la robotique humanoïde.
Notes pratiques
Relisez le guide de prompting lors du passage de la 1.5 à la 1.6. Le format de description de scène recommandé et le schéma d'espace d'action ont changé.
Re-validez votre adaptateur de sortie structurée. Même avec les améliorations sur le respect des schémas, les cas limites qui fonctionnaient sur la 1.5 peuvent produire des formes différentes sur la 1.6.
Journalisez la révision du modèle avec chaque appel.
Le résumé honnête : Robotics-ER 1.6 Preview est la meilleure des deux révisions de préversion pour les nouveaux travaux en robotique, avec les mêmes réserves sur la spécialisation, le risque du niveau préversion et le coût d'intégration qui s'appliquent sur l'ensemble de la famille.
Dernière vérification technique : 2026-05-22 — Tokonomix.ai
