Aller au contenu
Fonctionne en :USCréé en :United States
Google Gemini

Gemini Robotics-ER 1.6 Preview

131K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Gemini Robotics-ER 1.6 Preview est un modèle de langage spécialisé développé par Google pour les applications de robotique et de raisonnement incarné. Cette version préliminaire représente l'effort de Google pour établir un pont entre la compréhension du langage naturel et la planification et l'exécution de tâches physiques dans les systèmes robotiques. Le modèle est conçu pour traiter les instructions, interpréter les données de capteurs et générer des plans d'action pour les agents robotiques opérant dans des environnements réels. Avec une fenêtre contextuelle de 131 000 tokens, Gemini Robotics-ER 1.6 Preview peut traiter des quantités substantielles d'informations contextuelles, incluant de longues descriptions de tâches, des observations environnementales et des données d'interaction historiques. Le modèle prend en charge les capacités standard de génération de texte, lui permettant de produire des réponses en langage naturel aux côtés de sorties structurées adaptées aux systèmes de contrôle robotique. Son architecture met l'accent sur l'intégration du raisonnement spatial, de la planification temporelle et des contraintes physiques qui sont essentiels pour les applications d'IA incarnée. Au sein de la gamme Gemini de Google, ce modèle occupe une niche spécialisée axée sur la recherche et le développement en robotique. Contrairement aux modèles Gemini généralistes optimisés pour des tâches conversationnelles et analytiques larges, la variante Robotics-ER priorise les exigences uniques des agents physiques, notamment la prise de décision en temps réel et la compréhension multimodale des espaces physiques. En tant que version préliminaire, il offre aux développeurs et chercheurs un accès anticipé aux dernières capacités de Google en matière de raisonnement incarné, bien qu'il puisse subir des modifications significatives avant d'atteindre la disponibilité générale.

Gemini Robotics-ER 1.6 Preview marque l'incursion de Google dans le raisonnement incarné, en reliant le langage naturel à la planification physique pour des agents robotiques.

Synthèse éditoriale Tokonomix
Section 01

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

97
Génération de code
100
Multilingue
100
Raisonnement
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Gemini Robotics-ER 1.6 Preview
$1.00 par 1M de tokens d'entrée
$5.00 par 1M de tokens de sortie
≈ $0.0016 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$1.00
par 1M de tokens de sortie$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— stable

$5.00

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 03

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Raisonnement incarné spécialiséPlanification spatiale et temporelleContexte de 131k tokensInterprétation des données capteursSorties structurées pour contrôle robotiqueAdapté à la recherche en IA embarquéeIntégration de contraintes physiquesAdossé à l'écosystème Gemini

Faiblesses

Statut preview, API instableNiche robotique, peu polyvalentTarification et disponibilité opaquesAccès régional probablement limité
Section 04

Capacités

outputTokenLimit: 65536
Section 05

Questions fréquentes

Il vise la planification de tâches robotiques, l'interprétation de scènes physiques et la génération de plans d'action exécutables par des agents incarnés. Ce n'est pas un modèle conversationnel généraliste.

Une preview prometteuse pour les équipes de recherche en robotique, mais encore trop jeune pour des déploiements industriels critiques sans garde-fous solides.

Verdict Tokonomix
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-580/100 · 76 runs
56 correct7 partial13 wrong74% accuracy
2026-06-14

No performance data available in current benchmark window

The current benchmark window shows no test runs or performance data for Gemini Robotics-ER 1.6 Preview, making it impossible to assess the model's current capabilities or compare against its previous performance. In the prior window, the model achieved an overall quality score of 86.5 out of 100, with exceptional performance in coding (98), creative tasks (98), and multilingual capabilities (100), but showed a significant weakness in factual accuracy at just 50 points. The previous median latency was measured at 2965 milliseconds across 5 test runs. Without current data, users cannot determine whether the sharp factual performance issues from the last window have been addressed, whether the strong coding and creative capabilities remain intact, or how the model's speed characteristics may have evolved. The pricing update noted in the detected changes cannot be evaluated for value without corresponding performance metrics. Until new benchmark data becomes available, users should refer to the previous window's results while being aware that actual current performance may differ substantially.

Quality

Latency p50

Test runs

0

No test data available
Section 08

Profil complet du modèle

Gemini Robotics-ER 1.6 Preview — illustration 1
Gemini Robotics-ER 1.6 Preview

La révision 1.6 est la plus récente. Si vous démarrez un projet de raisonnement incarné aujourd'hui contre l'API Gemini de Google, c'est celle-là à évaluer ; la 1.5 reste principalement parce que certaines bases de code de recherche y sont épinglées. Même domaine — robotique, planification ancrée dans la scène, traduction intention-vers-plan — révision différente, profil pratique différent.

Le changement phare de la 1.6 par rapport à la 1.5 est la fenêtre de contexte. Google est passé d'une fenêtre de 1 048 576 tokens à 131 072. Ça ressemble à une régression et sur la spécification brute c'en est une, mais en pratique le cas d'usage ER exerce rarement le contexte d'un million de tokens, et la fenêtre plus petite vient avec un rappel nettement meilleur et un délai d'exécution plus rapide. C'est l'échange que vous avez fait.

Ce qui est différent dans la 1.6

Un contexte plus serré, une attention plus acérée. La fenêtre de 128 000 tokens est largement suffisante pour un tampon de perception de plusieurs secondes, plusieurs tours de mémoire de scène et une spécification d'objectif complète. La qualité de rappel et d'ancrage sur la durée est plus forte que sur la 1.5, ce qui est le rééquilibrage que Google visait.

Un meilleur suivi des instructions sur les plans multi-étapes. Le modèle 1.5 produisait fréquemment de bonnes premières étapes puis dérivait sur les étapes ultérieures quand elles étaient enchaînées — la 1.6 est plus cohérente sur des horizons de plan plus longs.

Une sortie structurée plus propre. L'application des schémas JSON sur les sorties de plan est plus fiable. Les équipes qui ont construit des adaptateurs validés par schéma autour de la 1.5 ont signalé des taux de retry plus faibles après le passage à la 1.6.

Des patterns de prompt différents. Les recommandations de Google autour de la description de scène, la déclaration de l'espace d'action et la spécification des contraintes ont changé entre les révisions.

Ce qui n'a pas changé

Le modèle est toujours de niveau préversion.

Ce n'est toujours pas une boucle de contrôle. ER vit au-dessus de la planification de mouvement, pas à l'intérieur. Le plancher de latence de classe 100ms rend cela inévitable.

Il est toujours spécialisé en raisonnement incarné. Les tâches grand public produiront une moins bonne sortie que ce que gemini-pro-latest vous donnerait pour le même prompt.

Le coût d'intégration est toujours élevé.

Quand utiliser la 1.6 plutôt que la 1.5

Par défaut, utilisez la 1.6 pour les nouveaux travaux. Les améliorations sur la cohérence des horizons de plan et la fiabilité des sorties structurées comptent plus en pratique que le plafond d'un million de tokens. Restez sur la 1.5 seulement si :

  • Votre base de code y est épinglée et le coût de migration l'emporte sur le delta de qualité.
  • Vous avez un cas d'usage spécifique qui exerce genuinement la fenêtre d'un million de tokens (rare en robotique).
  • La reproductibilité des résultats de recherche publiés nécessite l'ancienne révision.

Quand ne pas utiliser ER du tout

Si la tâche n'est pas incarnée — objectifs du monde physique, entrées de capteurs, sorties d'actions — utilisez gemini-pro-latest ou un autre modèle grand public. ER est pire que Pro sur tout ce qui n'est pas de la robotique, par conception.

Si le déploiement est critique en matière de sécurité et que vous ne pouvez pas accepter les changements de comportement du niveau préversion, regardez les alternatives auto-hébergées où vous contrôlez la version du modèle. OpenVLA est le point de départ évident.

Alternatives

OpenVLA. 7 milliards de paramètres, poids ouverts, exécutable sur un seul H100. La référence ouverte de base pour la recherche en VLA.

Physical Intelligence's pi0. L'alternative propriétaire la plus forte publiquement discutée sur la largeur de manipulation.

NVIDIA Project GR00T. Modèles de fondation pour la robotique humanoïde.

Notes pratiques

Relisez le guide de prompting lors du passage de la 1.5 à la 1.6. Le format de description de scène recommandé et le schéma d'espace d'action ont changé.

Re-validez votre adaptateur de sortie structurée. Même avec les améliorations sur le respect des schémas, les cas limites qui fonctionnaient sur la 1.5 peuvent produire des formes différentes sur la 1.6.

Journalisez la révision du modèle avec chaque appel.

Le résumé honnête : Robotics-ER 1.6 Preview est la meilleure des deux révisions de préversion pour les nouveaux travaux en robotique, avec les mêmes réserves sur la spécialisation, le risque du niveau préversion et le coût d'intégration qui s'appliquent sur l'ensemble de la famille.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Gemini Robotics-ER 1.6 Preview — illustration 2
Dernier test automatisé
14 juin 2026 · 05:02 UTC · Benchmark
Latence P50
2764 ms
Latence P95
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026