Ir al contenido
Se ejecuta en:USCreado en:United States
Google Gemini

Gemini Robotics-ER 1.6 Preview

131K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Gemini Robotics-ER 1.6 Preview es un modelo de lenguaje especializado desarrollado por Google para aplicaciones de robótica y razonamiento encarnado. Esta versión preliminar representa el esfuerzo de Google por conectar la comprensión del lenguaje natural con la planificación y ejecución de tareas físicas en sistemas robóticos. El modelo está diseñado para procesar instrucciones, interpretar datos de sensores y generar planes accionables para agentes robóticos que operan en entornos del mundo real. Con una ventana de contexto de 131,000 tokens, Gemini Robotics-ER 1.6 Preview puede procesar cantidades sustanciales de información contextual, incluyendo descripciones extensas de tareas, observaciones del entorno y datos históricos de interacción. El modelo soporta capacidades estándar de generación de texto, lo que le permite producir respuestas en lenguaje natural junto con salidas estructuradas adecuadas para sistemas de control robótico. Su arquitectura enfatiza la integración de razonamiento espacial, planificación temporal y restricciones físicas que son críticas para aplicaciones de IA encarnada. Dentro de la línea Gemini de Google, este modelo ocupa un nicho especializado enfocado en investigación y desarrollo de robótica. A diferencia de los modelos Gemini de propósito general optimizados para tareas conversacionales y analíticas amplias, la variante Robotics-ER prioriza los requisitos únicos de agentes físicos, incluyendo toma de decisiones en tiempo real y comprensión multimodal de espacios físicos. Como versión preliminar, proporciona a desarrolladores e investigadores acceso temprano a las últimas capacidades de Google en razonamiento encarnado, aunque puede experimentar cambios significativos antes de alcanzar disponibilidad general.

Gemini Robotics-ER 1.6 Preview es la apuesta de Google por llevar el razonamiento encarnado a sistemas robóticos reales, conectando lenguaje natural con planificación física.

Resumen editorial de Tokonomix
Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

97
Generación de código
100
Multilingüe
100
Razonamiento
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Gemini Robotics-ER 1.6 Preview
$1.00 por 1M de tokens de entrada
$5.00 por 1M de tokens de salida
≈ $0.0016 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$1.00
por 1M de tokens de salida$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— stable

$5.00

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Razonamiento encarnado especializadoPlanificación espacial y temporalComprensión de restricciones físicasVentana de contexto de 131K tokensSalidas estructuradas para control robóticoAcceso temprano a capacidades de GoogleIntegración con instrucciones largas y sensoresDiseñado para agentes en tiempo real

Debilidades

Estado preview, sin garantías de estabilidadNicho estrecho fuera de robóticaDisponibilidad regional limitadaCapacidades y tier no documentados públicamente
Sección 04

Capacidades

outputTokenLimit: 65536
Sección 05

Preguntas frecuentes

Está orientado a investigación y desarrollo en robótica, donde se necesita traducir instrucciones en lenguaje natural a planes de acción físicos. No es un modelo conversacional generalista.

Un modelo de nicho pero estratégico: no compite con los Gemini generalistas, sino que abre la puerta a agentes físicos capaces de razonar sobre el mundo. Su estado preview obliga a tratarlo como herramienta de investigación, no de producción crítica.

Veredicto de Tokonomix
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-580/100 · 76 runs
56 correct7 partial13 wrong74% accuracy
2026-06-14

No performance data available in current benchmark window

The current benchmark window shows no test runs or performance data for Gemini Robotics-ER 1.6 Preview, making it impossible to assess the model's current capabilities or compare against its previous performance. In the prior window, the model achieved an overall quality score of 86.5 out of 100, with exceptional performance in coding (98), creative tasks (98), and multilingual capabilities (100), but showed a significant weakness in factual accuracy at just 50 points. The previous median latency was measured at 2965 milliseconds across 5 test runs. Without current data, users cannot determine whether the sharp factual performance issues from the last window have been addressed, whether the strong coding and creative capabilities remain intact, or how the model's speed characteristics may have evolved. The pricing update noted in the detected changes cannot be evaluated for value without corresponding performance metrics. Until new benchmark data becomes available, users should refer to the previous window's results while being aware that actual current performance may differ substantially.

Quality

Latency p50

Test runs

0

No test data available
Sección 08

Perfil completo del modelo

Gemini Robotics-ER 1.6 Preview — illustration 1
Gemini Robotics-ER 1.6 Preview

La revisión 1.6 es la más reciente. Si hoy comienza un proyecto de razonamiento encarnado contra la API de Gemini de Google, esta es la que evaluar; 1.5 se mantiene principalmente porque algunas bases de código de investigación la anclan. El mismo dominio —robótica, planificación anclada en escenas, traducción de intención a plan— diferente revisión, diferente perfil práctico.

El cambio principal en 1.6 frente a 1.5 es la ventana de contexto. Google pasó de una ventana de 1 048 576 tokens a 131 072. Eso parece una regresión y en las especificaciones brutas lo es, pero en la práctica el caso de uso de ER rara vez ejercita el contexto de un millón de tokens, y la ventana más pequeña viene con un recuerdo notablemente mejor y un tiempo de respuesta más rápido. Intercambio obtenido.

Qué es diferente en 1.6

Contexto más ajustado, atención más aguda. La ventana de 128K es suficiente para un buffer de percepción de varios segundos, varios turnos de memoria de escena y una especificación de objetivo exhaustiva. La calidad de recuerdo y anclaje a lo largo del span es más sólida que en 1.5, que es el reequilibrio que Google buscaba.

Mejor seguimiento de instrucciones en planes de múltiples pasos. El modelo 1.5 frecuentemente producía primeros pasos razonables y luego derivaba en pasos posteriores cuando se encadenaban: 1.6 es más consistente en horizontes de plan más largos.

Salida estructurada más limpia. El cumplimiento de esquemas JSON en las salidas del plan es más fiable. Los equipos que construyeron adaptadores validados por esquema alrededor de 1.5 reportaron tasas de reintento más bajas después de pasar a 1.6.

Patrones de prompt diferentes. Los patrones de prompts recomendados de Google en torno a la descripción de escenas, la declaración del espacio de acción y la especificación de restricciones cambiaron entre revisiones. La documentación que funcionaba para 1.5 necesita revisión al portar a 1.6.

Qué no ha cambiado

El modelo sigue siendo de tier de vista previa. Las formas de salida pueden cambiar entre revisiones; la postura de producción debe asumir deriva.

Sigue sin ser un bucle de control. ER vive por encima de la planificación de movimiento, no dentro de ella. El suelo de latencia de clase 100ms hace eso inevitable.

Sigue especializado en razonamiento encarnado. Las tareas de propósito general producirán una salida peor que la que gemini-pro-latest daría para el mismo prompt.

El coste de integración sigue siendo alto. El formateador de percepción a prompt, el adaptador de plan a controlador y el verificador de seguridad siguen siendo trabajo de construcción propio.

Para qué sirve

Las mismas tres categorías que justificaban 1.5 aplican.

Investigación. Laboratorios de IA encarnada haciendo benchmarking frente a modelos frontier, evaluaciones de seguimiento de instrucciones en simulación (Habitat, RoboCasa, BEHAVIOR), trabajo de manipulación a largo horizonte.

Despliegues piloto industriales donde la capa de percepción es madura y la variación está dirigida por objetivos. Recogida y colocación por encima de la automatización con scripts. Recogida de cajas donde los artículos varían pero la celda de trabajo no.

Telerobotica y control con humano en el bucle. Los operadores expresan intención en lenguaje natural; el modelo convierte a restricciones contra las que la capa de autonomía puede planificar.

Dónde falla

Encarnaciones novedosas. Entrenado en una mezcla de datos de robótica curada que se inclina hacia morfologías de brazo y pinza. Cuadrúpedos, humanoides, robots blandos: la calidad cae, a veces silenciosamente.

Escenas dinámicas de múltiples agentes. Almacenes concurridos, cocinas con humanos moviéndose, cualquier lugar donde la escena cambia más rápido de lo que el bucle de percepción lo reporta: los planes del modelo asumen más determinismo del que la realidad ofrece.

Seguridad. Igual que 1.5: nada en el modelo limita formalmente la salida. El verificador está en su stack, no en el de Google.

Portabilidad entre plataformas. Los planes se expresan en un espacio de coordenadas generalizado que necesita código adaptador por robot. Las demos ocultan esto.

Riesgo del tier de vista previa. Google ha retirado endpoints de vista previa con aviso limitado en otras líneas de Gemini. Planifique una migración cuando llegue 1.7 o su sucesor no de vista previa.

Cuándo usar 1.6 frente a 1.5

Use 1.6 por defecto para trabajo nuevo. Las mejoras en la consistencia del horizonte de plan y la fiabilidad de la salida estructurada importan más en la práctica de lo que importaba el techo de 1M tokens. Quédese en 1.5 solo si:

  • Su base de código lo ancla y el coste de migración supera la diferencia de calidad.
  • Tiene un caso de uso específico que genuinamente ejercita la ventana de un millón de tokens (raro en robótica).
  • La reproducibilidad frente a resultados de investigación publicados requiere la revisión más antigua.

Cuándo no usar ER en absoluto

Si la tarea no es encarnada —objetivos del mundo físico, entradas de sensores, salidas de acciones— use gemini-pro-latest u otro modelo de propósito general. ER es peor que Pro en todo lo que no es robótica, por diseño.

Si el despliegue es crítico para la seguridad y no puede aceptar cambios de comportamiento del tier de vista previa, busque alternativas auto-alojadas donde controle la versión del modelo. OpenVLA es el punto de partida obvio; los modelos de Physical Intelligence si puede acceder a ellos a través de asociaciones.

Si necesita inferencia en dispositivo o cerca del dispositivo por razones de latencia en un bucle adyacente al control, ER es la forma equivocada. Los modelos VLA destilados que corren en un Jetson o acelerador de borde equivalente son la conversación.

Alternativas que vale la pena mencionar

OpenVLA: 7B parámetros, pesos abiertos, ejecutable en una sola H100, entrenado en el conjunto de datos Open X-Embodiment. La línea base de referencia de código abierto para investigación de VLA.

La familia pi0 de Physical Intelligence: la alternativa propietaria más sólida discutida públicamente en amplitud de manipulación.

NVIDIA Project GR00T: modelos fundacionales para robótica humanoide; diferente enfoque de morfología, enfoque técnico superpuesto.

Helix de Figure: modelo cerrado de Figure, demostrado en su plataforma humanoide. No es una oferta de API comparable, pero vale la pena seguir como marcador de capacidad.

Notas prácticas

Relea la guía de prompts al pasar de 1.5 a 1.6. El formato recomendado de descripción de escenas y el esquema del espacio de acción cambiaron.

Revalide su adaptador de salida estructurada. Incluso con las mejoras en el seguimiento de esquemas, los casos extremos que funcionaban en 1.5 pueden producir formas diferentes en 1.6.

Registre la revisión del modelo con cada llamada. Cuando Google rota el endpoint de vista previa, la correlación entre el cambio de comportamiento y el cambio de revisión es la única forma de depurar.

El resumen honesto: Robotics-ER 1.6 Preview es la mejor de las dos revisiones de vista previa para nuevo trabajo en robótica, con las mismas advertencias sobre especialización, riesgo del tier de vista previa y coste de integración que aplican en toda la familia.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Gemini Robotics-ER 1.6 Preview — illustration 2
Última prueba automática
14 jun 2026 · 05:02 UTC · Benchmark
Latencia P50
2764 ms
Latencia P95
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026