Zum Inhalt
Läuft in:USErstellt in:United States
Google Gemini

Gemini Robotics-ER 1.6 Preview

131K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Gemini Robotics-ER 1.6 Preview ist ein spezialisiertes Sprachmodell, das von Google für Robotik- und Embodied-Reasoning-Anwendungen entwickelt wurde. Diese Vorschauversion stellt Googles Bestrebung dar, das Verständnis natürlicher Sprache mit der Planung und Ausführung physischer Aufgaben in Robotersystemen zu verknüpfen. Das Modell ist darauf ausgelegt, Anweisungen zu verarbeiten, Sensordaten zu interpretieren und umsetzbare Pläne für Roboteragenten zu generieren, die in realen Umgebungen operieren. Mit einem Kontextfenster von 131.000 Tokens kann Gemini Robotics-ER 1.6 Preview erhebliche Mengen an Kontextinformationen verarbeiten, darunter umfangreiche Aufgabenbeschreibungen, Umgebungsbeobachtungen und historische Interaktionsdaten. Das Modell unterstützt standardmäßige Textgenerierungsfunktionen, sodass es natürlichsprachliche Antworten neben strukturierten Ausgaben erzeugen kann, die für Robotersteuerungssysteme geeignet sind. Seine Architektur betont die Integration von räumlichem Schlussfolgern, zeitlicher Planung und physischen Einschränkungen, die für Embodied-AI-Anwendungen entscheidend sind. Innerhalb von Googles Gemini-Reihe nimmt dieses Modell eine spezialisierte Nische ein, die sich auf Robotikforschung und -entwicklung konzentriert. Im Gegensatz zu allgemein einsetzbaren Gemini-Modellen, die für breite konversationelle und analytische Aufgaben optimiert sind, priorisiert die Robotics-ER-Variante die besonderen Anforderungen physischer Agenten, einschließlich Echtzeit-Entscheidungsfindung und multimodalem Verständnis physischer Räume. Als Preview-Release bietet es Entwicklern und Forschern frühzeitigen Zugang zu Googles neuesten Fähigkeiten im Bereich Embodied Reasoning, kann jedoch vor der allgemeinen Verfügbarkeit erheblichen Änderungen unterliegen.

Gemini Robotics-ER 1.6 Preview ist Googles spezialisierter Vorstoß in die verkörperte KI – ein Modell, das Sprachverständnis und physische Handlungsplanung in einem System vereint.

Tokonomix Redaktionsanalyse
Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

97
Codegenerierung
100
Mehrsprachig
100
Schlussfolgern
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini Robotics-ER 1.6 Preview
$1.00 pro 1M Input-Tokens
$5.00 pro 1M Output-Tokens
≈ $0.0016 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$1.00
pro 1M Output-Tokens$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— stable

$5.00

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Spezialisiert auf Embodied ReasoningRäumliches und zeitliches Planen131k Token KontextfensterStrukturierte Ausgaben für RobotersteuerungIntegration mit Google-ÖkosystemVerarbeitung langer SensorhistorienBerücksichtigung physikalischer ConstraintsFrüher Zugang zu neuester Forschung

Schwächen

Preview-Status, keine ProduktionsgarantienEng auf Robotik-Anwendungen zugeschnittenEingeschränkte regionale VerfügbarkeitWissensstand und Fähigkeiten unklar dokumentiert
Abschnitt 04

Fähigkeiten

outputTokenLimit: 65536
Abschnitt 05

Häufig gestellte Fragen

Das Modell ist auf Robotik und verkörperte KI ausgerichtet, etwa Aufgabenplanung, Interpretation von Sensordaten und Generierung von Aktionsschritten für physische Agenten. Für klassische Chatbots oder Textanalyse sind die regulären Gemini-Modelle besser geeignet.

Als Preview-Release ist es weniger ein Produktionswerkzeug als vielmehr ein Forschungsfenster in Googles Roadmap für robotische Agenten. Für Teams, die heute an Embodied-AI-Prototypen arbeiten, ein vielversprechender Kandidat.

Tokonomix Modellbewertung
Abschnitt 06

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-580/100 · 76 runs
56 correct7 partial13 wrong74% accuracy
2026-06-14

No performance data available in current benchmark window

The current benchmark window shows no test runs or performance data for Gemini Robotics-ER 1.6 Preview, making it impossible to assess the model's current capabilities or compare against its previous performance. In the prior window, the model achieved an overall quality score of 86.5 out of 100, with exceptional performance in coding (98), creative tasks (98), and multilingual capabilities (100), but showed a significant weakness in factual accuracy at just 50 points. The previous median latency was measured at 2965 milliseconds across 5 test runs. Without current data, users cannot determine whether the sharp factual performance issues from the last window have been addressed, whether the strong coding and creative capabilities remain intact, or how the model's speed characteristics may have evolved. The pricing update noted in the detected changes cannot be evaluated for value without corresponding performance metrics. Until new benchmark data becomes available, users should refer to the previous window's results while being aware that actual current performance may differ substantially.

Quality

Latency p50

Test runs

0

No test data available
Abschnitt 08

Vollständiges Modellprofil

Gemini Robotics-ER 1.6 Preview — illustration 1
Gemini Robotics-ER 1.6 Preview

Die Revision 1.6 ist die neuere Variante. Wenn Sie heute ein Embodied-Reasoning-Projekt gegen die Google Gemini API starten, ist dies das Modell, das Sie evaluieren sollten; Version 1.5 bleibt hauptsächlich verfügbar, weil einige Forschungscodebases darauf fixiert sind. Gleiches Einsatzgebiet — Robotik, szenenbasierte Planung, Intent-to-Plan-Übersetzung — unterschiedliche Revision, unterschiedliches praktisches Profil.

Die zentrale Änderung in 1.6 gegenüber 1.5 ist das Kontextfenster. Google hat das Fenster von 1.048.576 Token auf 131.072 reduziert. Das wirkt wie ein Rückschritt und auf dem Papier ist es das auch, aber in der Praxis nutzen ER-Anwendungsfälle selten einen Millionen-Token-Kontext, und das kleinere Fenster liefert messbar besseres Recall und schnellere Durchlaufzeiten. Der Trade-off, den Sie bekommen.

Was ist neu in 1.6

Engerer Kontext, schärfere Aufmerksamkeit. Das 128K-Fenster reicht problemlos für einen mehrsekündigen Wahrnehmungspuffer, mehrere Scene-Memory-Turns und eine ausführliche Zielvorgabe. Die Recall- und Grounding-Qualität über die gesamte Spanne ist stärker als bei 1.5, was die Neuausrichtung war, die Google anstrebte.

Besseres Instruction-Following bei mehrstufigen Plänen. Das 1.5-Modell produzierte häufig vernünftige erste Schritte und driftete dann bei späteren Schritten in verketteten Abläufen ab — 1.6 ist konsistenter über längere Planhorizonte hinweg.

Saubererer strukturierter Output. JSON-Schema-Durchsetzung bei Planausgaben ist zuverlässiger. Teams, die Schema-validierte Adapter um 1.5 herum gebaut hatten, berichteten von niedrigeren Retry-Raten nach der Migration auf 1.6.

Andere Prompt-Muster. Googles empfohlene Prompting-Strategien rund um Szenenbeschreibung, Action-Space-Deklaration und Constraint-Spezifikation haben sich zwischen den Revisionen geändert. Dokumentation, die für 1.5 funktionierte, muss beim Portieren auf 1.6 überprüft werden.

Was sich nicht geändert hat

Das Modell ist immer noch auf Preview-Niveau. Output-Strukturen können sich zwischen Revisionen verschieben; die Produktionshaltung sollte mit Drift rechnen.

Es ist immer noch keine Regelschleife. ER arbeitet oberhalb von Motion-Planning, nicht innerhalb. Die Latenz-Untergrenze im 100ms-Bereich macht das unvermeidbar.

Es ist immer noch auf Embodied-Reasoning spezialisiert. Allzweck-Aufgaben werden schlechtere Ergebnisse liefern als das, was gemini-pro-latest Ihnen für denselben Prompt geben würde.

Die Integrationskosten sind immer noch hoch. Der Perception-to-Prompt-Formatter, der Plan-to-Controller-Adapter und der Safety-Verifier müssen immer noch von Ihnen gebaut werden.

Wofür es gedacht ist

Die gleichen drei Kategorien, die 1.5 rechtfertigten, gelten weiterhin.

Forschung. Embodied-AI-Labore, die gegen Frontier-Modelle benchmarken, Instruction-Following-Evaluierungen in Simulation (Habitat, RoboCasa, BEHAVIOR), Long-Horizon-Manipulationsarbeit.

Industrielle Pilot-Deployments, wo die Wahrnehmungsschicht ausgereift ist und die Variation zielgetrieben ist. Pick-and-Place oberhalb von skriptgesteuerter Automatisierung. Bin-Picking, wo die Objekte variieren, die Arbeitszelle aber nicht.

Telerobotics und Human-in-the-Loop-Steuerung. Operatoren drücken Intent in natürlicher Sprache aus; das Modell konvertiert zu Constraints, gegen die die Autonomie-Schicht planen kann.

Wo es Schwächen zeigt

Neuartige Verkörperungen. Trainiert auf einem kuratierten Robotik-Datenmix, der in Richtung Arm-und-Greifer-Morphologien tendiert. Vierbeinige Roboter, Humanoide, Soft-Roboter — die Qualität sinkt, manchmal stillschweigend.

Dynamische Multi-Agent-Szenen. Überfüllte Lagerhallen, Küchen mit sich bewegenden Menschen, überall wo sich die Szene schneller ändert als die Wahrnehmungsschleife sie meldet — die Pläne des Modells setzen mehr Determinismus voraus als die Realität bietet.

Sicherheit. Wie bei 1.5: nichts im Modell grenzt den Output formal ein. Der Verifier sitzt in Ihrem Stack, nicht bei Google.

Plattformübergreifende Portabilität. Pläne werden in einem generalisierten Koordinatenraum ausgedrückt, der Adapter-Code pro Roboter benötigt. Die Demos verbergen das.

Preview-Risiko. Google hat Preview-Endpoints in anderen Gemini-Linien mit begrenzter Vorankündigung eingestellt. Planen Sie für eine Migration, wenn 1.7 oder dessen Nicht-Preview-Nachfolger erscheint.

Wann 1.6 statt 1.5 verwenden

Standard für neue Arbeiten sollte 1.6 sein. Die Verbesserungen bei Planhorizont-Konsistenz und Structured-Output-Zuverlässigkeit sind in der Praxis wichtiger als die 1M-Token-Obergrenze es war. Bleiben Sie nur bei 1.5, wenn:

  • Ihre Codebasis darauf fixiert ist und die Migrationskosten das Qualitätsdelta überwiegen.
  • Sie einen spezifischen Anwendungsfall haben, der tatsächlich das Millionen-Token-Fenster ausreizt (selten in der Robotik).
  • Reproduzierbarkeit gegenüber veröffentlichten Forschungsergebnissen die ältere Revision erfordert.

Wann ER überhaupt nicht verwenden

Wenn die Aufgabe nicht embodied ist — physische Weltziele, Sensorinputs, Aktionsoutputs — greifen Sie zu gemini-pro-latest oder einem anderen Allzweck-Modell. ER ist bei allem, was nicht Robotik ist, schlechter als Pro, absichtlich.

Wenn das Deployment sicherheitskritisch ist und Sie keine Verhaltensänderungen auf Preview-Niveau akzeptieren können, schauen Sie sich selbst gehostete Alternativen an, wo Sie die Modellversion kontrollieren. OpenVLA ist der offensichtliche Startpunkt; Physical Intelligence-Modelle, wenn Sie über Partnerschaft Zugang bekommen können.

Wenn Sie On-Device- oder Near-Device-Inferenz für Latenzanforderungen in einer steuerungsnahen Schleife brauchen, hat ER die falsche Form. Destillierte VLA-Modelle, die auf einem Jetson oder einem äquivalenten Edge-Accelerator laufen, sind das Gespräch.

Erwähnenswerte Alternativen

OpenVLA. 7B Parameter, offene Weights, lauffähig auf einer einzelnen H100, trainiert auf dem Open X-Embodiment-Dataset. Die Referenz-Open-Baseline für VLA-Forschung.

Physical Intelligence pi0-Familie. Stärkste öffentlich diskutierte proprietäre Alternative bei Manipulationsbreite.

NVIDIA Project GR00T. Foundation-Modelle für humanoide Robotik; anderer Morphologie-Fokus, überlappender technischer Ansatz.

Figure Helix. Geschlossenes Modell von Figure, demonstriert auf ihrer Humanoid-Plattform. Kein vergleichbares API-Angebot, aber verfolgungswürdig als Capability-Marker.

Praktische Hinweise

Lesen Sie die Prompting-Anleitung neu, wenn Sie von 1.5 auf 1.6 wechseln. Das empfohlene Szenenbeschreibungsformat und das Action-Space-Schema haben sich geändert.

Revalidieren Sie Ihren Structured-Output-Adapter. Selbst mit den Schema-Following-Verbesserungen können Edge-Cases, die auf 1.5 funktionierten, auf 1.6 andere Strukturen produzieren.

Loggen Sie die Modellrevision bei jedem Aufruf. Wenn Google den Preview-Endpoint rotiert, ist die Korrelation zwischen Verhaltensänderung und Revisionsänderung die einzige Möglichkeit zum Debuggen.

Die ehrliche Zusammenfassung: Robotics-ER 1.6 Preview ist die bessere der beiden Preview-Revisionen für neue Robotik-Arbeit, mit den gleichen Vorbehalten hinsichtlich Spezialisierung, Preview-Risiko und Integrationskosten, die für die gesamte Familie gelten.

Gemini Robotics-ER 1.6 Preview — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 05:02 UTC · Benchmark
P50-Latenz
2764 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026