Zum Inhalt
Läuft in:USErstellt in:United States
Google Gemini

Gemini Robotics-ER 1.5 Preview

1.048576M Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Gemini Robotics-ER 1.5 Preview ist ein spezialisiertes Sprachmodell, das von Google im Rahmen der Gemini-Modellfamilie entwickelt wurde und speziell für Robotik-Anwendungen sowie Aufgaben des verkörperten Schlussfolgerns (Embodied Reasoning) konzipiert ist. Das Modell stellt Googles Ansatz dar, natürliches Sprachverständnis mit physischen Interaktionen zu verknüpfen, sodass Roboter und automatisierte Systeme Anweisungen verarbeiten, Handlungen planen und über räumliche sowie zeitliche Beziehungen in realen Umgebungen schlussfolgern können. Diese Preview-Version verfügt über ein außergewöhnlich großes Kontextfenster von 1.048.576 Tokens (1M Tokens), wodurch sie umfangreiche Sensordaten, lange Anweisungssequenzen und detaillierte Umgebungsbeschreibungen gleichzeitig verarbeiten kann. Das Modell unterstützt standardmäßige Textgenerierungsfunktionen und ist zugleich auf robotikspezifische Arbeitsabläufe optimiert, etwa Aufgabenplanung, Interpretation natürlichsprachlicher Befehle und mehrstufiges Schlussfolgern über physische Manipulationen. Die Bezeichnung „ER" verweist auf den Fokus auf verkörpertes Schlussfolgern und deutet auf verbesserte Leistung bei Aufgaben hin, die ein Verständnis physischer Beschränkungen, Objektbeziehungen und Handlungssequenzen erfordern. Innerhalb von Googles Modellportfolio besetzt Gemini Robotics-ER 1.5 Preview eine spezialisierte Nische neben den allgemein einsetzbaren Gemini-Modellen. Während Standard-Gemini-Modelle ein breites Spektrum an Sprachverständnis abdecken, richtet sich diese Variante an Forschende und Entwickelnde, die an Robotersystemen, Automatisierungsplattformen und Anwendungen mit fundiertem Schlussfolgern über die physische Welt arbeiten. Als Preview-Version bietet sie frühzeitigen Zugang zu Googles robotikorientierten KI-Fähigkeiten, während die Technologie weiterentwickelt wird.

Gemini Robotics-ER 1.5 Preview ist Googles spezialisierter Vorstoß in verkörpertes Schlussfolgern, bei dem Sprachverständnis und physische Weltinteraktion zusammengeführt werden.

Tokonomix Redaktionsanalyse
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Gemini Robotics-ER 1.5 Preview
$0.3000 pro 1M Input-Tokens
$2.50 pro 1M Output-Tokens
≈ $0.0007 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.3000
pro 1M Output-Tokens$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

— no change

$2.50

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Spezialisiert auf Robotik-WorkflowsEmbodied Reasoning für physische AufgabenKontextfenster von 1M TokensRäumliches und zeitliches SchlussfolgernMehrstufige AktionsplanungTeil des Gemini-ÖkosystemsVerarbeitung umfangreicher SensordatenNatürliche Sprachbefehle für Maschinen

Schwächen

Preview-Status ohne ProduktionsgarantieEingeschränkter Nutzen außerhalb der RobotikCapabilities und Tier nicht offengelegtBegrenzte Regionen- und Zugriffsverfügbarkeit
Abschnitt 03

Fähigkeiten

outputTokenLimit: 65536
Abschnitt 04

Häufig gestellte Fragen

Das Modell zielt auf Robotik- und Automatisierungsszenarien ab, in denen physische Aufgabenplanung, Befehlsinterpretation und räumliches Schlussfolgern gefragt sind. Für reine Text- oder Chat-Anwendungen sind die regulären Gemini-Modelle die bessere Wahl.

Für Robotik-Forschungsteams ist dieses Preview ein interessanter Baustein, für klassische Chatbot-Anwendungen jedoch klar überdimensioniert und thematisch verfehlt.

Tokonomix Verdict
Abschnitt 05

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

2026-05-24

Baseline für Gemini Robotics-ER 1.5 Preview festgelegt

Dieses Urteil etabliert die initiale Leistungsbasis für Gemini Robotics-ER 1.5 Preview, Googles Modell für Anwendungen in der verkörperten Robotik. Da es sich um das erste Benchmark-Fenster handelt, sind keine Leistungsvergleiche mit Vorgängerversionen möglich. Das Modell tritt mit seinen aktuellen Fähigkeiten als Referenzpunkt für zukünftige Bewertungen in die Evaluierung ein. Nutzer sollten beachten, dass nachfolgende Urteile Veränderungen bei Leistungsmetriken, Zuverlässigkeit und Fähigkeitsverschiebungen relativ zu dieser Basis nachverfolgen werden. Der robotikspezifische Fokus deutet auf eine Optimierung für Echtzeit-Entscheidungsfindung, räumliches Schlussfolgern und physische Aufgabenplanung hin. Künftige Benchmark-Fenster werden zeigen, wie sich das Modell im Umgang mit multimodalen Robotik-Eingaben, der Genauigkeit von Aktionsvorhersagen und den für verkörperte KI-Anwendungen entscheidenden Latenzeigenschaften weiterentwickelt. Ohne historische Daten kann dieses Urteil weder Stabilitätstrends noch Regressionsrisiken einschätzen. Stakeholder, die dieses Modell für Robotik-Einsätze prüfen, sollten kommende Urteile beobachten, um Leistungsverläufe nachzuvollziehen und aufkommende Muster bei Verbesserungen oder Verschlechterungen über verschiedene Robotik-Aufgabenkategorien hinweg zu erkennen.

Quality

Latency p50

Test runs

0

Anfängliche Basislinie festgelegt
Abschnitt 07

Vollständiges Modellprofil

Gemini Robotics-ER 1.5 Preview — illustration 1
Gemini Robotics-ER 1.5 Preview

Dies ist kein Modell, das man hinter eine Chat-Oberfläche setzt. Googles Robotics-ER-Varianten („embodied reasoning", verkörpertes Denken) sind spezialisierte Builds, die für räumliches Denken, Szenenverankerung und genau die Art von physikalischen Planungsaufgaben optimiert wurden, die der Wahrnehmungs-und-Steuerungs-Stack eines Roboters von einem LLM verarbeitet bekommen muss. Wenn Sie hier gelandet sind und nach einem Allzweck-Gemini suchen, wollen Sie stattdessen gemini-pro-latest oder gemini-flash-latest.

Robotics-ER 1.5 Preview ist die ältere der beiden Preview-Revisionen, die Google derzeit öffentlich zugänglich macht; 1.6 Preview ist die neuere. Beide sind auf Preview-Ebene, beide zielen auf dieselbe Domäne ab, beide sind für die Evaluierung gedacht und nicht für tragende Produktionslasten.

Was „embodied reasoning" hier bedeutet

Das Modell ist darauf trainiert, die LLM-förmige Hälfte der Aufgabe eines Roboters zu übernehmen: Es nimmt das, was der Wahrnehmungs-Stack (Kameras, Tiefensensoren, Lidar, Kraftrückkopplung) über die Welt berichtet, fusioniert das mit dem natürlichsprachlichen Ziel des Operators und gibt einen Plan oder eine Menge von Wegpunkten aus, die der Controller ausführen kann.

Ein typischer Aufruf: Die Wahrnehmungsschicht des Roboters meldet Objekterkennungen mit Bounding-Boxen und Labels („Tasse bei (1.2, 0.4, 0.8), Tischkante bei y=0.5, Greifer aktuell bei..."), und der Benutzer hat den Roboter gebeten, „die Tasse vorsichtig zurück auf die Untertasse zu stellen." Das Modell gibt eine Sequenz von Zwischenschritten zurück, die in der gemeldeten Geometrie verankert sind, mit Reasoning, das Kollisionsbeschränkungen, Greifer-Kinematik und die Absicht des Benutzers respektiert.

Dies ist keine Steuerung. Das Modell schließt keine Servo-Loops, läuft nicht mit 1kHz, übernimmt keine Low-Level-Bewegungsplanung. Es sitzt eine Ebene darüber und macht das, was Google in seinen Papers „intent-to-plan" nennt — es verwandelt unscharfe menschliche Ziele in strukturierte ausführbare Schritte.

Das Kontextfenster von 1.048.576 Token ist hier wichtig, weil robotische Wahrnehmungsströme lang sind. Mehrsekündige Videoclips, mehrminütige Episodenpuffer, akkumulierter Szenen-Speicher — all das profitiert von diesem Spielraum.

Wofür es tatsächlich gedacht ist

Drei Kategorien von Anwendungsfällen:

Forschung. Akademische Gruppen, die an Long-Horizon-Manipulation arbeiten, an Haushaltsrobotik-Benchmarks (RT-X, BEHAVIOR, Habitat) oder an instruktionsfolgenden Agenten in simulierten Umgebungen. Die Preview-Stufe macht hier Sinn — Sie evaluieren, Sie shippen nicht.

Industrielles Pick-and-Place oberhalb reiner geskripteter Automatisierung. Wo die Wahrnehmungsschicht bereits stark ist (gut beleuchtete Produktionslinie, bekanntes Objektinventar) und die Variation in der Zielspezifikation liegt und nicht in der Szene, fügen ER-Klassen-Modelle Mehrwert als die Sprachverankerungs-Schicht hinzu.

Telerobotik und Mensch-Roboter-Kollaboration. Operatoren sprechen Ziele aus; das Modell übersetzt in Constraints, gegen die die Autonomieschicht planen kann. Nützlich in Inspektion, Laborautomatisierung, chirurgischer Assistenzforschung.

Wo es zu kurz greift

Echtzeitsteuerung. Die Latenz ist dafür falsch. ER lebt upstream vom Steuerungsloop, Punkt.

Generalisierung neuartiger Szenen. Das Modell ist auf einem kuratierten Mix aus Robotik-Datensätzen trainiert; völlig neuartige Objektkategorien, verformbare Objekte und dynamische Multi-Agenten-Szenen sind der Bereich, in dem die Zuverlässigkeit abnimmt. Testen Sie in Ihrer Szenenverteilung, bevor Sie den Demo-Videos glauben.

Sicherheitsgarantien. Nichts im Modell begrenzt die Ausgabe formal. Wenn Sie es bitten, einen Pfad durch eine Küche zu planen, wird es einen Pfad produzieren; ob der Pfad eine Sicherheitsbeschränkung verletzt (Nähe zu einem Herd, Sperrzone um ein Kind), ist das Problem Ihres Wahrnehmungs-und-Steuerungs-Stacks zu verifizieren. Bauen Sie die Sicherheitsschicht separat auf.

Plattformübergreifende Portabilität. ERs Pläne nehmen eine generalisierte Wahrnehmungsschnittstelle an. Sie an das spezifische Koordinatensystem Ihres Roboters, die Greifer-Geometrie und das Bewegungsplanungs-Idiom anzupassen, ist nicht-triviale Integrationsarbeit, die die Demos überspielen.

Preview-Tier-Instabilität. Google hat Ausgabeformate und empfohlene Prompting-Muster zwischen Revisionen verschoben. Die Migration von 1.5 auf 1.6 war ein nicht-triviales Code-Update für Early Adopters. Planen Sie dasselbe ein, wenn die nächste Revision landet.

Wann Sie es evaluieren sollten

Greifen Sie zu Robotics-ER 1.5 Preview, wenn:

  • Sie Robotik-Forschung betreiben und eine starke Embodied-Reasoning-Baseline wollen.
  • Sie ein Projekt scopen, bei dem natürlichsprachliche Zielspezifikation eine Usability-Anforderung ist.
  • Sie gegen andere Embodied-Reasoning-Modelle benchmarken (Physical Intelligences pi0, Figures Helix, OpenVLA, RT-2) und einen Google-Datenpunkt wollen.

Überspringen Sie es, wenn:

  • Das Projekt Allzweck-Autonomie außerhalb der Robotik ist — falsche Spezialisierung.
  • Sie On-Device-Inferenz benötigen. ER läuft auf Googles Cloud-Oberfläche; die Latenz macht es ohnehin ungeeignet für sicherheitskritische Loops.
  • Das Deployment Produktion statt Forschung ist und Sie Preview-Tier-Drift nicht akzeptieren können.

Alternativen im selben Bereich

OpenVLA ist die Open-Weights-Baseline. 7B Parameter, trainiert auf dem Open X-Embodiment-Datensatz, lauffähig auf einer einzelnen H100. Sie geben den Long-Context-Vorteil und etwas Qualität auf, Sie gewinnen vollständiges Self-Hosting und Inspizierbarkeit.

Physical Intelligences pi0 (und Nachfolger) ist die stärkste öffentlich diskutierte Alternative bei der Manipulations-Breite, derzeit Closed-Weights, aber über Partnerschaften verfügbar.

RT-2 und RT-X sind Googles frühere veröffentlichte Arbeit; beide sind Forschungsartefakte und keine produktisierten APIs. ER ist die produktisierte Richtung.

NVIDIAs Project GR00T (Foundation-Modelle für Humanoide) zielt auf einen verwandten, aber unterschiedlichen Bereich — humanoide Morphologien und Ganzkörper-Steuerung statt Tischmanipulation.

Praktische Hinweise

1.5 versus 1.6: Wenn Sie heute starten, verwenden Sie 1.6. Es ist die neuere Revision, hat stärkeres Instruction-Following bei mehrstufigen Plänen und ist der Pfad, auf dem Google iteriert. 1.5 ist hier dokumentiert, weil es noch aufrufbar ist und mancher Forschungscode darauf fixiert ist.

Integrationskosten sind hoch. Die harte Arbeit ist nicht der API-Aufruf; es ist die Wahrnehmungs-zu-LLM-Prompt-Formatierungs-Schicht, der LLM-Output-zu-Controller-Adapter und der Sicherheits-Verifizierer, der dazwischen sitzt. Planen Sie Wochen, nicht Tage, ein.

Verwenden Sie ER nicht als allgemeines LLM. Das Modell ist auf eine enge Aufgabenverteilung abgestimmt. Wenn Sie es nach Code, Marketing-Copy oder Chat fragen, wird es technisch valide, aber enttäuschende Ausgabe produzieren, und Sie werden sich fragen, warum ein Gemini-gebrandetes Modell so viel schlechter ist als seine Peers.

Die ehrliche Zusammenfassung: Gemini Robotics-ER 1.5 Preview ist ein Forschungsinstrument für Gruppen, die an Embodied AI arbeiten. Behandeln Sie es entsprechend.

Gemini Robotics-ER 1.5 Preview — illustration 2
Letzter automatisierter Test
27. Mai 2026 · 21:50 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026