Wie groß ist das Kontextfenster und wofür reicht es aus?

Mit 131.072 Token können umfangreiche Aufgabenbeschreibungen, Umgebungsbeobachtungen und Interaktionshistorien gleichzeitig verarbeitet werden. Das genügt für mehrstufige Roboteraufträge mit reichhaltigem Kontext.

Ist das Modell produktionsreif?

Nein, es handelt sich um eine Preview-Version. Für produktive Robotiksysteme sollte es zunächst in kontrollierten Pilotumgebungen evaluiert werden, da API-Verhalten und Verfügbarkeit sich noch ändern können.

Welche Ausgabeformate unterstützt das Modell?

Neben natürlichsprachlichen Antworten kann es strukturierte Ausgaben erzeugen, die sich für die direkte Anbindung an Robotersteuerungen und Planungspipelines eignen.

Wie unterscheidet es sich von anderen Gemini-Modellen?

Während Standard-Gemini-Modelle auf breite Sprach- und Analyseaufgaben optimiert sind, fokussiert sich die Robotics-ER-Variante auf räumliches Schlussfolgern, Aktionsplanung und physische Constraints – also auf die Anforderungen verkörperter Agenten.

Tier B — Produktion

Läuft in:USErstellt in:United States

Google Gemini

Gemini Robotics-ER 1.6 Preview

Tier B — Produktion · 131K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

Gemini Robotics-ER 1.6 Preview ist ein spezialisiertes Sprachmodell, das von Google für Robotik- und Embodied-Reasoning-Anwendungen entwickelt wurde. Diese Vorschauversion stellt Googles Bestrebung dar, das Verständnis natürlicher Sprache mit der Planung und Ausführung physischer Aufgaben in Robotersystemen zu verknüpfen. Das Modell ist darauf ausgelegt, Anweisungen zu verarbeiten, Sensordaten zu interpretieren und umsetzbare Pläne für Roboteragenten zu generieren, die in realen Umgebungen operieren. Mit einem Kontextfenster von 131.000 Tokens kann Gemini Robotics-ER 1.6 Preview erhebliche Mengen an Kontextinformationen verarbeiten, darunter umfangreiche Aufgabenbeschreibungen, Umgebungsbeobachtungen und historische Interaktionsdaten. Das Modell unterstützt standardmäßige Textgenerierungsfunktionen, sodass es natürlichsprachliche Antworten neben strukturierten Ausgaben erzeugen kann, die für Robotersteuerungssysteme geeignet sind. Seine Architektur betont die Integration von räumlichem Schlussfolgern, zeitlicher Planung und physischen Einschränkungen, die für Embodied-AI-Anwendungen entscheidend sind. Innerhalb von Googles Gemini-Reihe nimmt dieses Modell eine spezialisierte Nische ein, die sich auf Robotikforschung und -entwicklung konzentriert. Im Gegensatz zu allgemein einsetzbaren Gemini-Modellen, die für breite konversationelle und analytische Aufgaben optimiert sind, priorisiert die Robotics-ER-Variante die besonderen Anforderungen physischer Agenten, einschließlich Echtzeit-Entscheidungsfindung und multimodalem Verständnis physischer Räume. Als Preview-Release bietet es Entwicklern und Forschern frühzeitigen Zugang zu Googles neuesten Fähigkeiten im Bereich Embodied Reasoning, kann jedoch vor der allgemeinen Verfügbarkeit erheblichen Änderungen unterliegen.

Gemini Robotics-ER 1.6 Preview ist Googles spezialisierter Vorstoß in die verkörperte KI – ein Modell, das Sprachverständnis und physische Handlungsplanung in einem System vereint.
— Tokonomix Redaktionsanalyse

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Gemini Robotics-ER 1.6 Preview

$1.00 pro 1M Input-Tokens

$5.00 pro 1M Output-Tokens

≈ $0.0016 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$1.00

pro 1M Output-Tokens$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— stable

$5.00

output / 1M

— stable

2026-06-142026-06-142026-06-21

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Spezialisiert auf Embodied ReasoningRäumliches und zeitliches Planen131k Token KontextfensterStrukturierte Ausgaben für RobotersteuerungIntegration mit Google-ÖkosystemVerarbeitung langer SensorhistorienBerücksichtigung physikalischer ConstraintsFrüher Zugang zu neuester Forschung

Schwächen

Preview-Status, keine ProduktionsgarantienEng auf Robotik-Anwendungen zugeschnittenEingeschränkte regionale VerfügbarkeitWissensstand und Fähigkeiten unklar dokumentiert

Abschnitt 03

Fähigkeiten

outputTokenLimit: 65536

Abschnitt 04

Häufig gestellte Fragen

Das Modell ist auf Robotik und verkörperte KI ausgerichtet, etwa Aufgabenplanung, Interpretation von Sensordaten und Generierung von Aktionsschritten für physische Agenten. Für klassische Chatbots oder Textanalyse sind die regulären Gemini-Modelle besser geeignet.

Als Preview-Release ist es weniger ein Produktionswerkzeug als vielmehr ein Forschungsfenster in Googles Roadmap für robotische Agenten. Für Teams, die heute an Embodied-AI-Prototypen arbeiten, ein vielversprechender Kandidat.
— Tokonomix Modellbewertung

Abschnitt 05

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-579/100 · 89 runs

65 correct9 partial15 wrong73% accuracy

● 2026-06-21

Severe quality degradation: 62-point drop with slower response times

Gemini Robotics-ER 1.6 Preview has experienced a catastrophic performance decline in this benchmark window. Overall quality plummeted from 98.9 to 37.3, representing a 62-point drop that signals fundamental issues with the current deployment. Reasoning capabilities collapsed from a perfect 100 to just 28, indicating severe regression in logical processing. Factual accuracy settled at 47, while previous top-tier categories like coding and multilingual support show no measurable performance in the current window, suggesting possible scope changes or system failures. Latency deteriorated significantly, increasing 37 percent from 3120ms to 4279ms at the median. This combination of quality degradation and slower response times represents a substantial setback for a model that previously demonstrated exceptional performance across all tested categories. The limited test run count of 3 versus the previous 5 may indicate deployment instability or reduced availability. Users should exercise caution when deploying this version for production workloads, particularly for reasoning-intensive tasks where performance has degraded most severely. The dramatic shift suggests either a problematic model update, infrastructure issues, or significant changes to the model's intended use case that have not yet stabilized.

Quality

37.3

Latency p50

4,279 ms

Test runs

✗ Quality dropped 62 points✗ Reasoning collapsed to 28✗ Latency increased 37%✗ Reduced test run availability

Abschnitt 07

Vollständiges Modellprofil

Gemini Robotics-ER 1.6 Preview

Die Revision 1.6 ist die neuere Variante. Wenn Sie heute ein Embodied-Reasoning-Projekt gegen die Google Gemini API starten, ist dies das Modell, das Sie evaluieren sollten; Version 1.5 bleibt hauptsächlich verfügbar, weil einige Forschungscodebases darauf fixiert sind. Gleiches Einsatzgebiet — Robotik, szenenbasierte Planung, Intent-to-Plan-Übersetzung — unterschiedliche Revision, unterschiedliches praktisches Profil.

Die zentrale Änderung in 1.6 gegenüber 1.5 ist das Kontextfenster. Google hat das Fenster von 1.048.576 Token auf 131.072 reduziert. Das wirkt wie ein Rückschritt und auf dem Papier ist es das auch, aber in der Praxis nutzen ER-Anwendungsfälle selten einen Millionen-Token-Kontext, und das kleinere Fenster liefert messbar besseres Recall und schnellere Durchlaufzeiten. Der Trade-off, den Sie bekommen.

Was ist neu in 1.6

Engerer Kontext, schärfere Aufmerksamkeit. Das 128K-Fenster reicht problemlos für einen mehrsekündigen Wahrnehmungspuffer, mehrere Scene-Memory-Turns und eine ausführliche Zielvorgabe. Die Recall- und Grounding-Qualität über die gesamte Spanne ist stärker als bei 1.5, was die Neuausrichtung war, die Google anstrebte.

Besseres Instruction-Following bei mehrstufigen Plänen. Das 1.5-Modell produzierte häufig vernünftige erste Schritte und driftete dann bei späteren Schritten in verketteten Abläufen ab — 1.6 ist konsistenter über längere Planhorizonte hinweg.

Saubererer strukturierter Output. JSON-Schema-Durchsetzung bei Planausgaben ist zuverlässiger. Teams, die Schema-validierte Adapter um 1.5 herum gebaut hatten, berichteten von niedrigeren Retry-Raten nach der Migration auf 1.6.

Andere Prompt-Muster. Googles empfohlene Prompting-Strategien rund um Szenenbeschreibung, Action-Space-Deklaration und Constraint-Spezifikation haben sich zwischen den Revisionen geändert. Dokumentation, die für 1.5 funktionierte, muss beim Portieren auf 1.6 überprüft werden.

Was sich nicht geändert hat

Das Modell ist immer noch auf Preview-Niveau. Output-Strukturen können sich zwischen Revisionen verschieben; die Produktionshaltung sollte mit Drift rechnen.

Es ist immer noch keine Regelschleife. ER arbeitet oberhalb von Motion-Planning, nicht innerhalb. Die Latenz-Untergrenze im 100ms-Bereich macht das unvermeidbar.

Es ist immer noch auf Embodied-Reasoning spezialisiert. Allzweck-Aufgaben werden schlechtere Ergebnisse liefern als das, was gemini-pro-latest Ihnen für denselben Prompt geben würde.

Die Integrationskosten sind immer noch hoch. Der Perception-to-Prompt-Formatter, der Plan-to-Controller-Adapter und der Safety-Verifier müssen immer noch von Ihnen gebaut werden.

Wofür es gedacht ist

Die gleichen drei Kategorien, die 1.5 rechtfertigten, gelten weiterhin.

Forschung. Embodied-AI-Labore, die gegen Frontier-Modelle benchmarken, Instruction-Following-Evaluierungen in Simulation (Habitat, RoboCasa, BEHAVIOR), Long-Horizon-Manipulationsarbeit.

Industrielle Pilot-Deployments, wo die Wahrnehmungsschicht ausgereift ist und die Variation zielgetrieben ist. Pick-and-Place oberhalb von skriptgesteuerter Automatisierung. Bin-Picking, wo die Objekte variieren, die Arbeitszelle aber nicht.

Telerobotics und Human-in-the-Loop-Steuerung. Operatoren drücken Intent in natürlicher Sprache aus; das Modell konvertiert zu Constraints, gegen die die Autonomie-Schicht planen kann.

Wo es Schwächen zeigt

Neuartige Verkörperungen. Trainiert auf einem kuratierten Robotik-Datenmix, der in Richtung Arm-und-Greifer-Morphologien tendiert. Vierbeinige Roboter, Humanoide, Soft-Roboter — die Qualität sinkt, manchmal stillschweigend.

Dynamische Multi-Agent-Szenen. Überfüllte Lagerhallen, Küchen mit sich bewegenden Menschen, überall wo sich die Szene schneller ändert als die Wahrnehmungsschleife sie meldet — die Pläne des Modells setzen mehr Determinismus voraus als die Realität bietet.

Sicherheit. Wie bei 1.5: nichts im Modell grenzt den Output formal ein. Der Verifier sitzt in Ihrem Stack, nicht bei Google.

Plattformübergreifende Portabilität. Pläne werden in einem generalisierten Koordinatenraum ausgedrückt, der Adapter-Code pro Roboter benötigt. Die Demos verbergen das.

Preview-Risiko. Google hat Preview-Endpoints in anderen Gemini-Linien mit begrenzter Vorankündigung eingestellt. Planen Sie für eine Migration, wenn 1.7 oder dessen Nicht-Preview-Nachfolger erscheint.

Wann 1.6 statt 1.5 verwenden

Standard für neue Arbeiten sollte 1.6 sein. Die Verbesserungen bei Planhorizont-Konsistenz und Structured-Output-Zuverlässigkeit sind in der Praxis wichtiger als die 1M-Token-Obergrenze es war. Bleiben Sie nur bei 1.5, wenn:

Ihre Codebasis darauf fixiert ist und die Migrationskosten das Qualitätsdelta überwiegen.
Sie einen spezifischen Anwendungsfall haben, der tatsächlich das Millionen-Token-Fenster ausreizt (selten in der Robotik).
Reproduzierbarkeit gegenüber veröffentlichten Forschungsergebnissen die ältere Revision erfordert.

Wann ER überhaupt nicht verwenden

Wenn die Aufgabe nicht embodied ist — physische Weltziele, Sensorinputs, Aktionsoutputs — greifen Sie zu gemini-pro-latest oder einem anderen Allzweck-Modell. ER ist bei allem, was nicht Robotik ist, schlechter als Pro, absichtlich.

Wenn das Deployment sicherheitskritisch ist und Sie keine Verhaltensänderungen auf Preview-Niveau akzeptieren können, schauen Sie sich selbst gehostete Alternativen an, wo Sie die Modellversion kontrollieren. OpenVLA ist der offensichtliche Startpunkt; Physical Intelligence-Modelle, wenn Sie über Partnerschaft Zugang bekommen können.

Wenn Sie On-Device- oder Near-Device-Inferenz für Latenzanforderungen in einer steuerungsnahen Schleife brauchen, hat ER die falsche Form. Destillierte VLA-Modelle, die auf einem Jetson oder einem äquivalenten Edge-Accelerator laufen, sind das Gespräch.

Erwähnenswerte Alternativen

OpenVLA. 7B Parameter, offene Weights, lauffähig auf einer einzelnen H100, trainiert auf dem Open X-Embodiment-Dataset. Die Referenz-Open-Baseline für VLA-Forschung.

Physical Intelligence pi0-Familie. Stärkste öffentlich diskutierte proprietäre Alternative bei Manipulationsbreite.

NVIDIA Project GR00T. Foundation-Modelle für humanoide Robotik; anderer Morphologie-Fokus, überlappender technischer Ansatz.

Figure Helix. Geschlossenes Modell von Figure, demonstriert auf ihrer Humanoid-Plattform. Kein vergleichbares API-Angebot, aber verfolgungswürdig als Capability-Marker.

Praktische Hinweise

Lesen Sie die Prompting-Anleitung neu, wenn Sie von 1.5 auf 1.6 wechseln. Das empfohlene Szenenbeschreibungsformat und das Action-Space-Schema haben sich geändert.

Revalidieren Sie Ihren Structured-Output-Adapter. Selbst mit den Schema-Following-Verbesserungen können Edge-Cases, die auf 1.5 funktionierten, auf 1.6 andere Strukturen produzieren.

Loggen Sie die Modellrevision bei jedem Aufruf. Wenn Google den Preview-Endpoint rotiert, ist die Korrelation zwischen Verhaltensänderung und Revisionsänderung die einzige Möglichkeit zum Debuggen.

Die ehrliche Zusammenfassung: Robotics-ER 1.6 Preview ist die bessere der beiden Preview-Revisionen für neue Robotik-Arbeit, mit den gleichen Vorbehalten hinsichtlich Spezialisierung, Preview-Risiko und Integrationskosten, die für die gesamte Familie gelten.

Letzter automatisierter Test

21. Juni 2026 · 04:57 UTC · Benchmark

P50-Latenz

4190 ms

P95-Latenz

—

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026