¿Puedo usarlo en producción para un robot comercial?

Al tratarse de una versión preview, Google no garantiza estabilidad ni continuidad de API. Es recomendable usarlo en prototipos y pruebas controladas antes de cualquier despliegue crítico.

¿Qué ventajas aporta frente a un Gemini generalista para tareas robóticas?

Prioriza razonamiento espacial, temporal y restricciones físicas, áreas donde los modelos generalistas suelen quedarse cortos. Genera salidas mejor alineadas con sistemas de control robótico.

¿Cómo aprovechar la ventana de 131K tokens en un agente físico?

Permite mantener históricos largos de interacción, descripciones detalladas del entorno y secuencias de observaciones de sensores en una sola sesión. Esto facilita planificación multi-paso sin perder contexto.

¿Soporta entradas multimodales como imágenes o datos de sensores?

Las capacidades exactas no están totalmente documentadas en esta preview. Conviene revisar la documentación oficial de Google antes de diseñar pipelines que dependan de modalidades específicas.

Tier B — Producción

Se ejecuta en:USCreado en:United States

Google Gemini

Gemini Robotics-ER 1.6 Preview

Tier B — Producción · 131K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Gemini Robotics-ER 1.6 Preview es un modelo de lenguaje especializado desarrollado por Google para aplicaciones de robótica y razonamiento encarnado. Esta versión preliminar representa el esfuerzo de Google por conectar la comprensión del lenguaje natural con la planificación y ejecución de tareas físicas en sistemas robóticos. El modelo está diseñado para procesar instrucciones, interpretar datos de sensores y generar planes accionables para agentes robóticos que operan en entornos del mundo real. Con una ventana de contexto de 131,000 tokens, Gemini Robotics-ER 1.6 Preview puede procesar cantidades sustanciales de información contextual, incluyendo descripciones extensas de tareas, observaciones del entorno y datos históricos de interacción. El modelo soporta capacidades estándar de generación de texto, lo que le permite producir respuestas en lenguaje natural junto con salidas estructuradas adecuadas para sistemas de control robótico. Su arquitectura enfatiza la integración de razonamiento espacial, planificación temporal y restricciones físicas que son críticas para aplicaciones de IA encarnada. Dentro de la línea Gemini de Google, este modelo ocupa un nicho especializado enfocado en investigación y desarrollo de robótica. A diferencia de los modelos Gemini de propósito general optimizados para tareas conversacionales y analíticas amplias, la variante Robotics-ER prioriza los requisitos únicos de agentes físicos, incluyendo toma de decisiones en tiempo real y comprensión multimodal de espacios físicos. Como versión preliminar, proporciona a desarrolladores e investigadores acceso temprano a las últimas capacidades de Google en razonamiento encarnado, aunque puede experimentar cambios significativos antes de alcanzar disponibilidad general.

Gemini Robotics-ER 1.6 Preview es la apuesta de Google por llevar el razonamiento encarnado a sistemas robóticos reales, conectando lenguaje natural con planificación física.
— Resumen editorial de Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Gemini Robotics-ER 1.6 Preview

$1.00 por 1M de tokens de entrada

$5.00 por 1M de tokens de salida

≈ $0.0016 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$1.00

por 1M de tokens de salida$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— stable

$5.00

output / 1M

— stable

2026-06-142026-06-142026-06-21

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Razonamiento encarnado especializadoPlanificación espacial y temporalComprensión de restricciones físicasVentana de contexto de 131K tokensSalidas estructuradas para control robóticoAcceso temprano a capacidades de GoogleIntegración con instrucciones largas y sensoresDiseñado para agentes en tiempo real

Debilidades

Estado preview, sin garantías de estabilidadNicho estrecho fuera de robóticaDisponibilidad regional limitadaCapacidades y tier no documentados públicamente

Sección 03

Capacidades

outputTokenLimit: 65536

Sección 04

Preguntas frecuentes

Está orientado a investigación y desarrollo en robótica, donde se necesita traducir instrucciones en lenguaje natural a planes de acción físicos. No es un modelo conversacional generalista.

Un modelo de nicho pero estratégico: no compite con los Gemini generalistas, sino que abre la puerta a agentes físicos capaces de razonar sobre el mundo. Su estado preview obliga a tratarlo como herramienta de investigación, no de producción crítica.
— Veredicto de Tokonomix

Sección 05

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-579/100 · 89 runs

65 correct9 partial15 wrong73% accuracy

● 2026-06-21

Severe quality degradation: 62-point drop with slower response times

Gemini Robotics-ER 1.6 Preview has experienced a catastrophic performance decline in this benchmark window. Overall quality plummeted from 98.9 to 37.3, representing a 62-point drop that signals fundamental issues with the current deployment. Reasoning capabilities collapsed from a perfect 100 to just 28, indicating severe regression in logical processing. Factual accuracy settled at 47, while previous top-tier categories like coding and multilingual support show no measurable performance in the current window, suggesting possible scope changes or system failures. Latency deteriorated significantly, increasing 37 percent from 3120ms to 4279ms at the median. This combination of quality degradation and slower response times represents a substantial setback for a model that previously demonstrated exceptional performance across all tested categories. The limited test run count of 3 versus the previous 5 may indicate deployment instability or reduced availability. Users should exercise caution when deploying this version for production workloads, particularly for reasoning-intensive tasks where performance has degraded most severely. The dramatic shift suggests either a problematic model update, infrastructure issues, or significant changes to the model's intended use case that have not yet stabilized.

Quality

37.3

Latency p50

4,279 ms

Test runs

✗ Quality dropped 62 points✗ Reasoning collapsed to 28✗ Latency increased 37%✗ Reduced test run availability

Sección 07

Perfil completo del modelo

Gemini Robotics-ER 1.6 Preview

La revisión 1.6 es la más reciente. Si hoy comienza un proyecto de razonamiento encarnado contra la API de Gemini de Google, esta es la que evaluar; 1.5 se mantiene principalmente porque algunas bases de código de investigación la anclan. El mismo dominio —robótica, planificación anclada en escenas, traducción de intención a plan— diferente revisión, diferente perfil práctico.

El cambio principal en 1.6 frente a 1.5 es la ventana de contexto. Google pasó de una ventana de 1 048 576 tokens a 131 072. Eso parece una regresión y en las especificaciones brutas lo es, pero en la práctica el caso de uso de ER rara vez ejercita el contexto de un millón de tokens, y la ventana más pequeña viene con un recuerdo notablemente mejor y un tiempo de respuesta más rápido. Intercambio obtenido.

Qué es diferente en 1.6

Contexto más ajustado, atención más aguda. La ventana de 128K es suficiente para un buffer de percepción de varios segundos, varios turnos de memoria de escena y una especificación de objetivo exhaustiva. La calidad de recuerdo y anclaje a lo largo del span es más sólida que en 1.5, que es el reequilibrio que Google buscaba.

Mejor seguimiento de instrucciones en planes de múltiples pasos. El modelo 1.5 frecuentemente producía primeros pasos razonables y luego derivaba en pasos posteriores cuando se encadenaban: 1.6 es más consistente en horizontes de plan más largos.

Salida estructurada más limpia. El cumplimiento de esquemas JSON en las salidas del plan es más fiable. Los equipos que construyeron adaptadores validados por esquema alrededor de 1.5 reportaron tasas de reintento más bajas después de pasar a 1.6.

Patrones de prompt diferentes. Los patrones de prompts recomendados de Google en torno a la descripción de escenas, la declaración del espacio de acción y la especificación de restricciones cambiaron entre revisiones. La documentación que funcionaba para 1.5 necesita revisión al portar a 1.6.

Qué no ha cambiado

El modelo sigue siendo de tier de vista previa. Las formas de salida pueden cambiar entre revisiones; la postura de producción debe asumir deriva.

Sigue sin ser un bucle de control. ER vive por encima de la planificación de movimiento, no dentro de ella. El suelo de latencia de clase 100ms hace eso inevitable.

Sigue especializado en razonamiento encarnado. Las tareas de propósito general producirán una salida peor que la que gemini-pro-latest daría para el mismo prompt.

El coste de integración sigue siendo alto. El formateador de percepción a prompt, el adaptador de plan a controlador y el verificador de seguridad siguen siendo trabajo de construcción propio.

Para qué sirve

Las mismas tres categorías que justificaban 1.5 aplican.

Investigación. Laboratorios de IA encarnada haciendo benchmarking frente a modelos frontier, evaluaciones de seguimiento de instrucciones en simulación (Habitat, RoboCasa, BEHAVIOR), trabajo de manipulación a largo horizonte.

Despliegues piloto industriales donde la capa de percepción es madura y la variación está dirigida por objetivos. Recogida y colocación por encima de la automatización con scripts. Recogida de cajas donde los artículos varían pero la celda de trabajo no.

Telerobotica y control con humano en el bucle. Los operadores expresan intención en lenguaje natural; el modelo convierte a restricciones contra las que la capa de autonomía puede planificar.

Dónde falla

Encarnaciones novedosas. Entrenado en una mezcla de datos de robótica curada que se inclina hacia morfologías de brazo y pinza. Cuadrúpedos, humanoides, robots blandos: la calidad cae, a veces silenciosamente.

Escenas dinámicas de múltiples agentes. Almacenes concurridos, cocinas con humanos moviéndose, cualquier lugar donde la escena cambia más rápido de lo que el bucle de percepción lo reporta: los planes del modelo asumen más determinismo del que la realidad ofrece.

Seguridad. Igual que 1.5: nada en el modelo limita formalmente la salida. El verificador está en su stack, no en el de Google.

Portabilidad entre plataformas. Los planes se expresan en un espacio de coordenadas generalizado que necesita código adaptador por robot. Las demos ocultan esto.

Riesgo del tier de vista previa. Google ha retirado endpoints de vista previa con aviso limitado en otras líneas de Gemini. Planifique una migración cuando llegue 1.7 o su sucesor no de vista previa.

Cuándo usar 1.6 frente a 1.5

Use 1.6 por defecto para trabajo nuevo. Las mejoras en la consistencia del horizonte de plan y la fiabilidad de la salida estructurada importan más en la práctica de lo que importaba el techo de 1M tokens. Quédese en 1.5 solo si:

Su base de código lo ancla y el coste de migración supera la diferencia de calidad.
Tiene un caso de uso específico que genuinamente ejercita la ventana de un millón de tokens (raro en robótica).
La reproducibilidad frente a resultados de investigación publicados requiere la revisión más antigua.

Cuándo no usar ER en absoluto

Si la tarea no es encarnada —objetivos del mundo físico, entradas de sensores, salidas de acciones— use gemini-pro-latest u otro modelo de propósito general. ER es peor que Pro en todo lo que no es robótica, por diseño.

Si el despliegue es crítico para la seguridad y no puede aceptar cambios de comportamiento del tier de vista previa, busque alternativas auto-alojadas donde controle la versión del modelo. OpenVLA es el punto de partida obvio; los modelos de Physical Intelligence si puede acceder a ellos a través de asociaciones.

Si necesita inferencia en dispositivo o cerca del dispositivo por razones de latencia en un bucle adyacente al control, ER es la forma equivocada. Los modelos VLA destilados que corren en un Jetson o acelerador de borde equivalente son la conversación.

Alternativas que vale la pena mencionar

OpenVLA: 7B parámetros, pesos abiertos, ejecutable en una sola H100, entrenado en el conjunto de datos Open X-Embodiment. La línea base de referencia de código abierto para investigación de VLA.

La familia pi0 de Physical Intelligence: la alternativa propietaria más sólida discutida públicamente en amplitud de manipulación.

NVIDIA Project GR00T: modelos fundacionales para robótica humanoide; diferente enfoque de morfología, enfoque técnico superpuesto.

Helix de Figure: modelo cerrado de Figure, demostrado en su plataforma humanoide. No es una oferta de API comparable, pero vale la pena seguir como marcador de capacidad.

Notas prácticas

Relea la guía de prompts al pasar de 1.5 a 1.6. El formato recomendado de descripción de escenas y el esquema del espacio de acción cambiaron.

Revalide su adaptador de salida estructurada. Incluso con las mejoras en el seguimiento de esquemas, los casos extremos que funcionaban en 1.5 pueden producir formas diferentes en 1.6.

Registre la revisión del modelo con cada llamada. Cuando Google rota el endpoint de vista previa, la correlación entre el cambio de comportamiento y el cambio de revisión es la única forma de depurar.

El resumen honesto: Robotics-ER 1.6 Preview es la mejor de las dos revisiones de vista previa para nuevo trabajo en robótica, con las mismas advertencias sobre especialización, riesgo del tier de vista previa y coste de integración que aplican en toda la familia.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

21 jun 2026 · 04:57 UTC · Benchmark

Latencia P50

4190 ms

Latencia P95

—

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026