¿Qué ventaja aporta la ventana de 1.048.576 tokens en robótica?

Permite mantener en contexto largas secuencias de telemetría, descripciones detalladas del entorno y planes de tareas extensos sin fragmentación. Esto es útil para misiones largas o flujos de manipulación con muchos pasos.

¿Se puede desplegar en producción?

Al tratarse de un release preview, se recomienda usarlo para investigación, prototipos y pilotos controlados. La estabilidad de la API y las garantías de servicio pueden cambiar antes del lanzamiento general.

¿Cómo se compara con los modelos Gemini de propósito general?

Los Gemini generalistas cubren un espectro más amplio de tareas de lenguaje y multimodalidad, mientras que esta variante ER prioriza el razonamiento físico y la planificación de acciones. Para tareas de chat o generación de contenido, los modelos estándar suelen ser una mejor opción.

¿Qué significa exactamente la designación 'ER'?

ER hace referencia a 'Embodied Reasoning' o razonamiento corporeizado, es decir, la capacidad de razonar sobre objetos, restricciones físicas y secuencias de acción en el mundo real. Es lo que diferencia a esta variante del resto de la familia Gemini.

Se ejecuta en:USCreado en:United States

Archivado

Este modelo ha sido descontinuado por el proveedor. Los datos históricos se conservan.

Ya no está disponible desde el 27 de mayo de 2026.

Google Gemini

Gemini Robotics-ER 1.5 Preview

1.048576M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Gemini Robotics-ER 1.5 Preview es un modelo de lenguaje especializado desarrollado por Google como parte de la familia de modelos Gemini, diseñado específicamente para aplicaciones de robótica y tareas de razonamiento incorporado. El modelo representa el esfuerzo de Google por conectar la comprensión del lenguaje natural con las interacciones del mundo físico, permitiendo que robots y sistemas automatizados procesen instrucciones, planifiquen acciones y razonen sobre relaciones espaciales y temporales en entornos del mundo real. Esta versión preliminar cuenta con una ventana de contexto excepcionalmente amplia de 1,048,576 tokens (1M tokens), lo que le permite procesar simultáneamente datos extensos de sensores, largas secuencias de instrucciones y descripciones detalladas del entorno. El modelo admite capacidades estándar de generación de texto mientras está optimizado para flujos de trabajo específicos de robótica como planificación de tareas, interpretación de comandos en lenguaje natural y razonamiento de múltiples pasos sobre manipulación física. La designación "ER" indica su enfoque en razonamiento incorporado, sugiriendo un rendimiento mejorado en tareas que requieren comprensión de restricciones físicas, relaciones entre objetos y secuencias de acciones. Dentro del portafolio de modelos de Google, Gemini Robotics-ER 1.5 Preview ocupa un nicho especializado junto a los modelos Gemini de propósito general. Mientras que los modelos Gemini estándar sirven necesidades amplias de comprensión del lenguaje, esta variante se dirige a investigadores y desarrolladores que trabajan en sistemas robóticos, plataformas de automatización y aplicaciones que requieren razonamiento fundamentado sobre el mundo físico. Como versión preliminar, proporciona acceso temprano a las capacidades de IA enfocadas en robótica de Google mientras la tecnología continúa su desarrollo.

Gemini Robotics-ER 1.5 Preview se posiciona como una pieza especializada del ecosistema Gemini, orientada a sistemas físicos donde el razonamiento espacial y temporal pesa más que la generación de texto pura.
— Resumen editorial de Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Gemini Robotics-ER 1.5 Preview

$0.3000 por 1M de tokens de entrada

$2.50 por 1M de tokens de salida

≈ $0.0007 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.3000

por 1M de tokens de salida$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

— no change

$2.50

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Razonamiento corporeizado especializadoVentana de contexto de 1M tokensOptimizado para planificación de tareas robóticasComprensión espacial y temporalIntegración con el ecosistema GeminiProcesa secuencias largas de sensoresInterpretación de instrucciones multi-paso

Debilidades

Versión preview, no apta para producción críticaNicho muy específico fuera de robóticaDisponibilidad regional limitadaCapacidades multimodales no documentadas

Sección 03

Capacidades

outputTokenLimit: 65536

Sección 04

Preguntas frecuentes

Está diseñado para aplicaciones de robótica y sistemas autónomos donde se requiere interpretar lenguaje natural y traducirlo a acciones físicas. No es una alternativa de uso general frente a los modelos Gemini estándar.

Una apuesta clara de Google por la robótica programable mediante lenguaje natural: prometedora para equipos de investigación, pero todavía en fase preview con las limitaciones que eso implica.
— Veredicto editorial de Tokonomix

Sección 05

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

● 2026-05-24

Línea base establecida para Gemini Robotics-ER 1.5 Preview

Este veredicto establece la línea base inicial de rendimiento para Gemini Robotics-ER 1.5 Preview, el modelo de Google diseñado para aplicaciones de robótica encarnada. Al tratarse de la primera ventana de evaluación, no es posible realizar comparaciones de rendimiento con versiones anteriores. El modelo entra en evaluación con sus capacidades actuales como punto de referencia para futuras valoraciones. Los usuarios deben comprender que los veredictos posteriores rastrearán cambios en métricas de rendimiento, fiabilidad y variaciones de capacidad respecto a esta línea base. El enfoque específico en robótica sugiere una optimización para la toma de decisiones en tiempo real, el razonamiento espacial y la planificación de tareas físicas. Las próximas ventanas de evaluación revelarán cómo evoluciona el modelo en el manejo de entradas robóticas multimodales, la precisión en la predicción de acciones y las características de latencia, aspectos críticos para aplicaciones de IA encarnada. Sin datos históricos, este veredicto no puede evaluar tendencias de estabilidad ni riesgos de regresión. Las partes interesadas que consideren este modelo para despliegues robóticos deberían monitorear los próximos veredictos para entender las trayectorias de rendimiento e identificar patrones emergentes en mejoras o degradaciones de capacidad en distintas categorías de tareas robóticas.

Quality

—

Latency p50

—

Test runs

✓ Línea base inicial establecida

Sección 07

Perfil completo del modelo

Gemini Robotics-ER 1.5 Preview

No es un modelo que se pone detrás de un chat. Las variantes Robotics-ER ("razonamiento encarnado") de Google son construcciones de propósito específico ajustadas para razonamiento espacial, anclaje de escenas y los tipos de tareas de planificación del mundo físico que el stack de percepción y control de un robot necesita que un LLM maneje. Si llegó aquí buscando un Gemini de propósito general, lo que busca es gemini-pro-latest o gemini-flash-latest.

Robotics-ER 1.5 Preview es la más antigua de las dos revisiones de vista previa que Google expone actualmente; 1.6 Preview es la más reciente. Ambas son de tier de vista previa, ambas apuntan al mismo dominio, ambas están pensadas para evaluación más que para producción con carga real.

Qué significa "razonamiento encarnado" aquí

El modelo está ajustado para hacer la mitad con forma de LLM del trabajo de un robot: tomar lo que el stack de percepción (cámaras, sensores de profundidad, lidar, retroalimentación de fuerza) reporta sobre el mundo, fusionarlo con el objetivo en lenguaje natural del operador y emitir un plan o un conjunto de puntos de paso que el controlador puede ejecutar.

Una llamada típica: la capa de percepción del robot reporta detecciones de objetos con cajas delimitadoras y etiquetas ("taza en (1.2, 0.4, 0.8), borde de mesa en y=0.5, pinza actualmente en..."), y el usuario ha pedido al robot "vuelve a poner la taza en el platillo con cuidado". El modelo devuelve una secuencia de pasos intermedios anclados en la geometría reportada, con razonamiento que respeta las restricciones de colisión, la cinemática de la pinza y la intención del usuario.

Esto no es control. El modelo no cierra bucles de servomotores, no funciona a 1kHz, no maneja la planificación de movimiento de bajo nivel. Está un nivel por encima de eso, haciendo lo que los artículos de Google llaman "intención a plan": convertir objetivos humanos difusos en pasos ejecutables estructurados.

La ventana de contexto de 1 048 576 tokens importa aquí porque los streams de percepción de robots son largos. Clips de vídeo de varios segundos, buffers de episodios de varios minutos, memoria de escenas acumulada: todo se beneficia del espacio disponible.

Para qué sirve realmente

Tres categorías de casos de uso:

Investigación. Grupos académicos que trabajan en manipulación a largo horizonte, benchmarks de robótica doméstica (RT-X, BEHAVIOR, Habitat) o agentes que siguen instrucciones en entornos simulados. El tier de vista previa tiene sentido aquí: se evalúa, no se despliega.

Recogida y colocación industrial por encima de la automatización pura con scripts. Donde la capa de percepción ya es sólida (línea de fábrica bien iluminada, inventario de objetos conocido) y la variación está en la especificación del objetivo más que en la escena, los modelos de clase ER añaden valor como la capa de anclaje lingüístico.

Telerobotica y colaboración humano-robot. Los operadores hablan objetivos; el modelo traduce a restricciones contra las que la capa de autonomía puede planificar. Útil en inspección, automatización de laboratorio, investigación de asistencia quirúrgica.

Dónde falla

Control en tiempo real. La latencia no es adecuada para eso. ER vive en sentido ascendente del bucle de control, punto.

Generalización a escenas novedosas. El modelo está entrenado en una mezcla curada de conjuntos de datos de robótica; las categorías de objetos completamente novedosas, los objetos deformables y las escenas dinámicas de múltiples agentes son donde cae la fiabilidad. Pruebe en la distribución de su escena antes de dar crédito a los vídeos de demostración.

Garantías de seguridad. Nada en el modelo limita formalmente la salida. Si le pide que planifique una trayectoria por una cocina, producirá una trayectoria; si esa trayectoria viola una restricción de seguridad (proximidad a un fogón, zona de exclusión alrededor de un niño) es problema del stack de percepción y control verificarlo. Construya la capa de seguridad por separado.

Portabilidad entre plataformas. Los planes de ER asumen una interfaz de percepción generalizada. Adaptarlos al marco de coordenadas específico de su robot, la geometría de la pinza y el idioma de planificación de movimiento es un trabajo de integración no trivial que las demos simplifican.

Inestabilidad del tier de vista previa. Google ha cambiado los formatos de salida y los patrones de prompts recomendados entre revisiones. La migración de 1.5 a 1.6 fue una actualización de código no trivial para los primeros adoptantes. Planifique lo mismo cuando llegue la siguiente revisión.

Cuándo evaluarlo

Use Robotics-ER 1.5 Preview cuando:

Haga investigación en robótica y quiera una línea base sólida de razonamiento encarnado.
Esté delimitando un proyecto donde la especificación de objetivos en lenguaje natural sea un requisito de usabilidad.
Esté haciendo benchmarking frente a otros modelos de razonamiento encarnado (pi0 de Physical Intelligence, Helix de Figure, OpenVLA, RT-2) y quiera un punto de datos de Google.

Omítalo cuando:

El proyecto es autonomía de propósito general fuera de la robótica: especialización equivocada.
Se necesite inferencia en dispositivo. ER corre en la superficie de nube de Google; la latencia lo hace inadecuado para bucles críticos de seguridad de todas formas.
El despliegue es producción en lugar de investigación y no puede aceptar la deriva del tier de vista previa.

Alternativas en el mismo espacio

OpenVLA es la línea base de pesos abiertos. 7B parámetros, entrenado en el conjunto de datos Open X-Embodiment, ejecutable en una sola H100. Se pierde la ventaja de contexto largo y algo de calidad, se gana auto-alojamiento total e inspectabilidad.

Pi0 de Physical Intelligence (y continuaciones) es la alternativa más sólida discutida públicamente en amplitud de manipulación, actualmente de pesos cerrados pero disponible a través de asociaciones.

RT-2 y RT-X son el trabajo publicado anterior de Google; ambos son artefactos de investigación más que APIs productizadas. ER es la dirección productizada.

Project GR00T de NVIDIA (modelos fundacionales para humanoides) apunta a un espacio relacionado pero distinto: morfologías humanoides y control de cuerpo completo más que manipulación sobre mesa.

Notas prácticas

1.5 frente a 1.6: si comienza hoy, use 1.6. Es la revisión más reciente, tiene un seguimiento de instrucciones más sólido en planes de múltiples pasos y es el camino en el que Google está iterando. 1.5 está documentado aquí porque sigue siendo accesible y parte del código de investigación lo ancla.

El coste de integración es alto. El trabajo difícil no es la llamada a la API; es la capa de formato percepción-a-prompt-LLM, el adaptador salida-LLM-a-controlador y el verificador de seguridad que se sitúa entre ellos. Presupueste semanas, no días.

No use ER como LLM de propósito general. El modelo está ajustado para una distribución de tareas estrecha. Pedirle código, texto de marketing o chat producirá una salida técnicamente válida pero decepcionante, y se preguntará por qué un modelo con la marca Gemini es tan inferior a sus pares.

El resumen honesto: Gemini Robotics-ER 1.5 Preview es un instrumento de investigación para grupos que trabajan en IA encarnada. Trátelo en consecuencia.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

27 may 2026 · 21:50 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026