
No es un modelo que se pone detrás de un chat. Las variantes Robotics-ER ("razonamiento encarnado") de Google son construcciones de propósito específico ajustadas para razonamiento espacial, anclaje de escenas y los tipos de tareas de planificación del mundo físico que el stack de percepción y control de un robot necesita que un LLM maneje. Si llegó aquí buscando un Gemini de propósito general, lo que busca es gemini-pro-latest o gemini-flash-latest.
Robotics-ER 1.5 Preview es la más antigua de las dos revisiones de vista previa que Google expone actualmente; 1.6 Preview es la más reciente. Ambas son de tier de vista previa, ambas apuntan al mismo dominio, ambas están pensadas para evaluación más que para producción con carga real.
Qué significa "razonamiento encarnado" aquí
El modelo está ajustado para hacer la mitad con forma de LLM del trabajo de un robot: tomar lo que el stack de percepción (cámaras, sensores de profundidad, lidar, retroalimentación de fuerza) reporta sobre el mundo, fusionarlo con el objetivo en lenguaje natural del operador y emitir un plan o un conjunto de puntos de paso que el controlador puede ejecutar.
Una llamada típica: la capa de percepción del robot reporta detecciones de objetos con cajas delimitadoras y etiquetas ("taza en (1.2, 0.4, 0.8), borde de mesa en y=0.5, pinza actualmente en..."), y el usuario ha pedido al robot "vuelve a poner la taza en el platillo con cuidado". El modelo devuelve una secuencia de pasos intermedios anclados en la geometría reportada, con razonamiento que respeta las restricciones de colisión, la cinemática de la pinza y la intención del usuario.
Esto no es control. El modelo no cierra bucles de servomotores, no funciona a 1kHz, no maneja la planificación de movimiento de bajo nivel. Está un nivel por encima de eso, haciendo lo que los artículos de Google llaman "intención a plan": convertir objetivos humanos difusos en pasos ejecutables estructurados.
La ventana de contexto de 1 048 576 tokens importa aquí porque los streams de percepción de robots son largos. Clips de vídeo de varios segundos, buffers de episodios de varios minutos, memoria de escenas acumulada: todo se beneficia del espacio disponible.
Para qué sirve realmente
Tres categorías de casos de uso:
Investigación. Grupos académicos que trabajan en manipulación a largo horizonte, benchmarks de robótica doméstica (RT-X, BEHAVIOR, Habitat) o agentes que siguen instrucciones en entornos simulados. El tier de vista previa tiene sentido aquí: se evalúa, no se despliega.
Recogida y colocación industrial por encima de la automatización pura con scripts. Donde la capa de percepción ya es sólida (línea de fábrica bien iluminada, inventario de objetos conocido) y la variación está en la especificación del objetivo más que en la escena, los modelos de clase ER añaden valor como la capa de anclaje lingüístico.
Telerobotica y colaboración humano-robot. Los operadores hablan objetivos; el modelo traduce a restricciones contra las que la capa de autonomía puede planificar. Útil en inspección, automatización de laboratorio, investigación de asistencia quirúrgica.
Dónde falla
Control en tiempo real. La latencia no es adecuada para eso. ER vive en sentido ascendente del bucle de control, punto.
Generalización a escenas novedosas. El modelo está entrenado en una mezcla curada de conjuntos de datos de robótica; las categorías de objetos completamente novedosas, los objetos deformables y las escenas dinámicas de múltiples agentes son donde cae la fiabilidad. Pruebe en la distribución de su escena antes de dar crédito a los vídeos de demostración.
Garantías de seguridad. Nada en el modelo limita formalmente la salida. Si le pide que planifique una trayectoria por una cocina, producirá una trayectoria; si esa trayectoria viola una restricción de seguridad (proximidad a un fogón, zona de exclusión alrededor de un niño) es problema del stack de percepción y control verificarlo. Construya la capa de seguridad por separado.
Portabilidad entre plataformas. Los planes de ER asumen una interfaz de percepción generalizada. Adaptarlos al marco de coordenadas específico de su robot, la geometría de la pinza y el idioma de planificación de movimiento es un trabajo de integración no trivial que las demos simplifican.
Inestabilidad del tier de vista previa. Google ha cambiado los formatos de salida y los patrones de prompts recomendados entre revisiones. La migración de 1.5 a 1.6 fue una actualización de código no trivial para los primeros adoptantes. Planifique lo mismo cuando llegue la siguiente revisión.
Cuándo evaluarlo
Use Robotics-ER 1.5 Preview cuando:
- Haga investigación en robótica y quiera una línea base sólida de razonamiento encarnado.
- Esté delimitando un proyecto donde la especificación de objetivos en lenguaje natural sea un requisito de usabilidad.
- Esté haciendo benchmarking frente a otros modelos de razonamiento encarnado (pi0 de Physical Intelligence, Helix de Figure, OpenVLA, RT-2) y quiera un punto de datos de Google.
Omítalo cuando:
- El proyecto es autonomía de propósito general fuera de la robótica: especialización equivocada.
- Se necesite inferencia en dispositivo. ER corre en la superficie de nube de Google; la latencia lo hace inadecuado para bucles críticos de seguridad de todas formas.
- El despliegue es producción en lugar de investigación y no puede aceptar la deriva del tier de vista previa.
Alternativas en el mismo espacio
OpenVLA es la línea base de pesos abiertos. 7B parámetros, entrenado en el conjunto de datos Open X-Embodiment, ejecutable en una sola H100. Se pierde la ventaja de contexto largo y algo de calidad, se gana auto-alojamiento total e inspectabilidad.
Pi0 de Physical Intelligence (y continuaciones) es la alternativa más sólida discutida públicamente en amplitud de manipulación, actualmente de pesos cerrados pero disponible a través de asociaciones.
RT-2 y RT-X son el trabajo publicado anterior de Google; ambos son artefactos de investigación más que APIs productizadas. ER es la dirección productizada.
Project GR00T de NVIDIA (modelos fundacionales para humanoides) apunta a un espacio relacionado pero distinto: morfologías humanoides y control de cuerpo completo más que manipulación sobre mesa.
Notas prácticas
1.5 frente a 1.6: si comienza hoy, use 1.6. Es la revisión más reciente, tiene un seguimiento de instrucciones más sólido en planes de múltiples pasos y es el camino en el que Google está iterando. 1.5 está documentado aquí porque sigue siendo accesible y parte del código de investigación lo ancla.
El coste de integración es alto. El trabajo difícil no es la llamada a la API; es la capa de formato percepción-a-prompt-LLM, el adaptador salida-LLM-a-controlador y el verificador de seguridad que se sitúa entre ellos. Presupueste semanas, no días.
No use ER como LLM de propósito general. El modelo está ajustado para una distribución de tareas estrecha. Pedirle código, texto de marketing o chat producirá una salida técnicamente válida pero decepcionante, y se preguntará por qué un modelo con la marca Gemini es tan inferior a sus pares.
El resumen honesto: Gemini Robotics-ER 1.5 Preview es un instrumento de investigación para grupos que trabajan en IA encarnada. Trátelo en consecuencia.
Última revisión técnica: 2026-05-22 — Tokonomix.ai
