Le contexte de 131k tokens est-il suffisant pour une boucle de contrôle robotique ?

Oui pour la plupart des scénarios incluant historique d'interactions, observations et instructions complexes. Pour des flux capteurs très denses ou de longues sessions, un résumé périodique reste recommandé.

Peut-on l'utiliser en production industrielle ?

Non recommandé en l'état : il s'agit d'une preview, sans SLA stable, mieux adaptée à la R&D, aux prototypes et aux laboratoires de robotique.

Comment se positionne-t-il face aux autres modèles Gemini ?

Contrairement aux modèles Gemini généralistes, cette variante Robotics-ER privilégie le raisonnement spatial, la planification physique et les sorties orientées contrôle d'agents.

Quelles précautions prendre pour intégrer ce modèle ?

Prévoir une couche de validation des plans générés, des garde-fous de sécurité physique et un mécanisme de repli, car les sorties d'un modèle preview peuvent évoluer ou présenter des comportements inattendus.

Tier B — Production

Fonctionne en :USCréé en :United States

Google Gemini

Gemini Robotics-ER 1.6 Preview

Tier B — Production · 131K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 24 mai 2026

Gemini Robotics-ER 1.6 Preview est un modèle de langage spécialisé développé par Google pour les applications de robotique et de raisonnement incarné. Cette version préliminaire représente l'effort de Google pour établir un pont entre la compréhension du langage naturel et la planification et l'exécution de tâches physiques dans les systèmes robotiques. Le modèle est conçu pour traiter les instructions, interpréter les données de capteurs et générer des plans d'action pour les agents robotiques opérant dans des environnements réels. Avec une fenêtre contextuelle de 131 000 tokens, Gemini Robotics-ER 1.6 Preview peut traiter des quantités substantielles d'informations contextuelles, incluant de longues descriptions de tâches, des observations environnementales et des données d'interaction historiques. Le modèle prend en charge les capacités standard de génération de texte, lui permettant de produire des réponses en langage naturel aux côtés de sorties structurées adaptées aux systèmes de contrôle robotique. Son architecture met l'accent sur l'intégration du raisonnement spatial, de la planification temporelle et des contraintes physiques qui sont essentiels pour les applications d'IA incarnée. Au sein de la gamme Gemini de Google, ce modèle occupe une niche spécialisée axée sur la recherche et le développement en robotique. Contrairement aux modèles Gemini généralistes optimisés pour des tâches conversationnelles et analytiques larges, la variante Robotics-ER priorise les exigences uniques des agents physiques, notamment la prise de décision en temps réel et la compréhension multimodale des espaces physiques. En tant que version préliminaire, il offre aux développeurs et chercheurs un accès anticipé aux dernières capacités de Google en matière de raisonnement incarné, bien qu'il puisse subir des modifications significatives avant d'atteindre la disponibilité générale.

Gemini Robotics-ER 1.6 Preview marque l'incursion de Google dans le raisonnement incarné, en reliant le langage naturel à la planification physique pour des agents robotiques.
— Synthèse éditoriale Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Gemini Robotics-ER 1.6 Preview

$1.00 par 1M de tokens d'entrée

$5.00 par 1M de tokens de sortie

≈ $0.0016 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$1.00

par 1M de tokens de sortie$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— stable

$5.00

output / 1M

— stable

2026-06-142026-06-142026-06-21

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Raisonnement incarné spécialiséPlanification spatiale et temporelleContexte de 131k tokensInterprétation des données capteursSorties structurées pour contrôle robotiqueAdapté à la recherche en IA embarquéeIntégration de contraintes physiquesAdossé à l'écosystème Gemini

Faiblesses

Statut preview, API instableNiche robotique, peu polyvalentTarification et disponibilité opaquesAccès régional probablement limité

Section 03

Capacités

outputTokenLimit: 65536

Section 04

Questions fréquentes

Il vise la planification de tâches robotiques, l'interprétation de scènes physiques et la génération de plans d'action exécutables par des agents incarnés. Ce n'est pas un modèle conversationnel généraliste.

Une preview prometteuse pour les équipes de recherche en robotique, mais encore trop jeune pour des déploiements industriels critiques sans garde-fous solides.
— Verdict Tokonomix

Section 05

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-579/100 · 89 runs

65 correct9 partial15 wrong73% accuracy

● 2026-06-21

Severe quality degradation: 62-point drop with slower response times

Gemini Robotics-ER 1.6 Preview has experienced a catastrophic performance decline in this benchmark window. Overall quality plummeted from 98.9 to 37.3, representing a 62-point drop that signals fundamental issues with the current deployment. Reasoning capabilities collapsed from a perfect 100 to just 28, indicating severe regression in logical processing. Factual accuracy settled at 47, while previous top-tier categories like coding and multilingual support show no measurable performance in the current window, suggesting possible scope changes or system failures. Latency deteriorated significantly, increasing 37 percent from 3120ms to 4279ms at the median. This combination of quality degradation and slower response times represents a substantial setback for a model that previously demonstrated exceptional performance across all tested categories. The limited test run count of 3 versus the previous 5 may indicate deployment instability or reduced availability. Users should exercise caution when deploying this version for production workloads, particularly for reasoning-intensive tasks where performance has degraded most severely. The dramatic shift suggests either a problematic model update, infrastructure issues, or significant changes to the model's intended use case that have not yet stabilized.

Quality

37.3

Latency p50

4,279 ms

Test runs

✗ Quality dropped 62 points✗ Reasoning collapsed to 28✗ Latency increased 37%✗ Reduced test run availability

Section 07

Profil complet du modèle

Gemini Robotics-ER 1.6 Preview

La révision 1.6 est la plus récente. Si vous démarrez un projet de raisonnement incarné aujourd'hui contre l'API Gemini de Google, c'est celle-là à évaluer ; la 1.5 reste principalement parce que certaines bases de code de recherche y sont épinglées. Même domaine — robotique, planification ancrée dans la scène, traduction intention-vers-plan — révision différente, profil pratique différent.

Le changement phare de la 1.6 par rapport à la 1.5 est la fenêtre de contexte. Google est passé d'une fenêtre de 1 048 576 tokens à 131 072. Ça ressemble à une régression et sur la spécification brute c'en est une, mais en pratique le cas d'usage ER exerce rarement le contexte d'un million de tokens, et la fenêtre plus petite vient avec un rappel nettement meilleur et un délai d'exécution plus rapide. C'est l'échange que vous avez fait.

Ce qui est différent dans la 1.6

Un contexte plus serré, une attention plus acérée. La fenêtre de 128 000 tokens est largement suffisante pour un tampon de perception de plusieurs secondes, plusieurs tours de mémoire de scène et une spécification d'objectif complète. La qualité de rappel et d'ancrage sur la durée est plus forte que sur la 1.5, ce qui est le rééquilibrage que Google visait.

Un meilleur suivi des instructions sur les plans multi-étapes. Le modèle 1.5 produisait fréquemment de bonnes premières étapes puis dérivait sur les étapes ultérieures quand elles étaient enchaînées — la 1.6 est plus cohérente sur des horizons de plan plus longs.

Une sortie structurée plus propre. L'application des schémas JSON sur les sorties de plan est plus fiable. Les équipes qui ont construit des adaptateurs validés par schéma autour de la 1.5 ont signalé des taux de retry plus faibles après le passage à la 1.6.

Des patterns de prompt différents. Les recommandations de Google autour de la description de scène, la déclaration de l'espace d'action et la spécification des contraintes ont changé entre les révisions.

Ce qui n'a pas changé

Le modèle est toujours de niveau préversion.

Ce n'est toujours pas une boucle de contrôle. ER vit au-dessus de la planification de mouvement, pas à l'intérieur. Le plancher de latence de classe 100ms rend cela inévitable.

Il est toujours spécialisé en raisonnement incarné. Les tâches grand public produiront une moins bonne sortie que ce que gemini-pro-latest vous donnerait pour le même prompt.

Le coût d'intégration est toujours élevé.

Quand utiliser la 1.6 plutôt que la 1.5

Par défaut, utilisez la 1.6 pour les nouveaux travaux. Les améliorations sur la cohérence des horizons de plan et la fiabilité des sorties structurées comptent plus en pratique que le plafond d'un million de tokens. Restez sur la 1.5 seulement si :

Votre base de code y est épinglée et le coût de migration l'emporte sur le delta de qualité.
Vous avez un cas d'usage spécifique qui exerce genuinement la fenêtre d'un million de tokens (rare en robotique).
La reproductibilité des résultats de recherche publiés nécessite l'ancienne révision.

Quand ne pas utiliser ER du tout

Si la tâche n'est pas incarnée — objectifs du monde physique, entrées de capteurs, sorties d'actions — utilisez gemini-pro-latest ou un autre modèle grand public. ER est pire que Pro sur tout ce qui n'est pas de la robotique, par conception.

Si le déploiement est critique en matière de sécurité et que vous ne pouvez pas accepter les changements de comportement du niveau préversion, regardez les alternatives auto-hébergées où vous contrôlez la version du modèle. OpenVLA est le point de départ évident.

Alternatives

OpenVLA. 7 milliards de paramètres, poids ouverts, exécutable sur un seul H100. La référence ouverte de base pour la recherche en VLA.

Physical Intelligence's pi0. L'alternative propriétaire la plus forte publiquement discutée sur la largeur de manipulation.

NVIDIA Project GR00T. Modèles de fondation pour la robotique humanoïde.

Notes pratiques

Relisez le guide de prompting lors du passage de la 1.5 à la 1.6. Le format de description de scène recommandé et le schéma d'espace d'action ont changé.

Re-validez votre adaptateur de sortie structurée. Même avec les améliorations sur le respect des schémas, les cas limites qui fonctionnaient sur la 1.5 peuvent produire des formes différentes sur la 1.6.

Journalisez la révision du modèle avec chaque appel.

Le résumé honnête : Robotics-ER 1.6 Preview est la meilleure des deux révisions de préversion pour les nouveaux travaux en robotique, avec les mêmes réserves sur la spécialisation, le risque du niveau préversion et le coût d'intégration qui s'appliquent sur l'ensemble de la famille.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

21 juin 2026 · 04:57 UTC · Benchmark

Latence P50

4190 ms

Latence P95

—

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·24 mai 2026