
Bu, bir sohbet kutusunun arkasına koyacağınız türden bir model değil. Google'ın Robotics-ER ("embodied reasoning" - somutlaştırılmış akıl yürütme) varyantları, mekansal akıl yürütme, sahne temellendirilmesi ve bir robotun algılama-ve-kontrol yığınının bir LLM'nin halletmesine ihtiyaç duyduğu fiziksel dünya planlama görevleri türleri için ayarlanmış dar amaçlı yapılardır. Buraya genel amaçlı bir Gemini arıyorsanız, bunun yerine gemini-pro-latest veya gemini-flash-latest modellerini tercih etmelisiniz.
Robotics-ER 1.5 Preview, Google'ın şu anda sunduğu iki önizleme revizyonundan daha eskisidir; 1.6 Preview daha yenidir. Her ikisi de önizleme katmanındadır, her ikisi de aynı alanı hedefler, her ikisi de yük taşıyan üretim yerine değerlendirme için tasarlanmıştır.
Burada "somutlaştırılmış akıl yürütme" ne anlama geliyor
Model, bir robotun işinin LLM şeklindeki yarısını yapmak üzere ayarlanmıştır: algılama yığınının (kameralar, derinlik sensörleri, lidar, kuvvet geri bildirimi) dünya hakkında bildirdiklerini alır, bunu operatörün doğal dil hedefiyle birleştirir ve denetleyicinin yürütebileceği bir plan veya bir dizi geçiş noktası üretir.
Tipik bir çağrı şöyle görünür: robotun algılama katmanı, sınırlayıcı kutular ve etiketlerle nesne tespitleri bildirir ("bardak (1.2, 0.4, 0.8) konumunda, masa kenarı y=0.5'te, tutucu şu anda..."), ve kullanıcı robota "bardağı dikkatli bir şekilde tabağın üzerine geri koy" talimatı vermiştir. Model, bildirilen geometriye dayalı, çarpışma kısıtlamalarını, tutucu kinematiğini ve kullanıcının niyetini gözeten akıl yürütmeyle ara adımlardan oluşan bir dizi döndürür.
Bu, kontrol değildir. Model servo döngülerini kapatmaz, 1kHz'de çalışmaz, düşük seviyeli hareket planlamasını yönetmez. Bunun bir seviye üstünde durur ve Google'ın makalelerinde "niyet-den-plana" dediği şeyi yapar — bulanık insan hedeflerini yapılandırılmış yürütülebilir adımlara dönüştürür.
1.048.576 token'lık bağlam penceresi burada önemlidir çünkü robot algılama akışları uzundur. Birkaç saniyelik video klipleri, birkaç dakikalık bölüm arabellekleri, birikmiş sahne belleği — hepsi bu boşluktan faydalanır.
Aslında ne için tasarlandı
Üç kullanım senaryosu kategorisi:
Araştırma. Uzun ufuklu manipülasyon, ev robotları kıyaslamaları (RT-X, BEHAVIOR, Habitat) veya simüle edilmiş ortamlarda talimat takip eden ajanlar üzerinde çalışan akademik gruplar. Önizleme katmanı burada mantıklıdır — değerlendirme yapıyorsunuz, ürün sevkiyatı yapmıyorsunuz.
Saf betikli otomasyonun üstündeki endüstriyel al-ve-yerleştir. Algılama katmanının zaten güçlü olduğu (iyi aydınlatılmış fabrika hattı, bilinen nesne envanteri) ve değişkenliğin sahne yerine hedef belirtiminde olduğu durumlarda, ER sınıfı modeller dil-temellendirme katmanı olarak değer katar.
Telerobotics ve insan-robot iş birliği. Operatörler hedefleri seslendirir; model bunları otonom katmanın planlama yapabileceği kısıtlamalara çevirir. Denetim, laboratuvar otomasyonu, cerrahi yardım araştırmalarında kullanışlıdır.
Yetersiz kaldığı noktalar
Gerçek zamanlı kontrol. Gecikme bunun için yanlış. ER, kontrol döngüsünün yukarısında yaşar, nokta.
Yeni sahne genellemesi. Model, küratörlüğü yapılmış bir robotik veri seti karışımı üzerinde eğitilmiştir; tamamen yeni nesne kategorileri, deforme edilebilir nesneler ve dinamik çoklu ajan sahneleri güvenilirliğin düştüğü alanlardır. Demo videolarına inanmadan önce kendi sahne dağılımınızda test edin.
Güvenlik garantileri. Modelde çıktıyı resmi olarak sınırlayan hiçbir şey yoktur. Ona mutfakta bir yol planlamasını isterseniz, bir yol üretecektir; yolun bir güvenlik kısıtlamasını ihlal edip etmediği (bir ocağa yakınlık, bir çocuğun etrafındaki dışlama bölgesi) sizin algılama-ve-kontrol yığınınızın doğrulaması gereken bir sorundur. Güvenlik katmanını ayrı olarak oluşturun.
Platformlar arası taşınabilirlik. ER'nin planları genelleştirilmiş bir algılama arayüzü varsayar. Bunları belirli robotunuzun koordinat çerçevesine, tutucu geometrisine ve hareket planlama deyimine uyarlamak, demoların üstünü kapattığı önemsiz olmayan entegrasyon işidir.
Önizleme katmanı istikrarsızlığı. Google, revizyonlar arasında çıktı formatlarını ve önerilen yönlendirme desenlerini değiştirmiştir. 1.5'ten 1.6'ya geçiş, erken benimseyenler için önemsiz olmayan bir kod güncellemesiydi. Bir sonraki revizyon geldiğinde aynısı için plan yapın.
Ne zaman değerlendirmeli
Robotics-ER 1.5 Preview'e şu durumlarda başvurun:
- Robotik araştırması yapıyorsunuz ve güçlü bir somutlaştırılmış-akıl yürütme taban çizgisi istiyorsunuz.
- Doğal dil hedef belirtiminin kullanılabilirlik gereksinimi olduğu bir projenin kapsamını belirliyorsunuz.
- Diğer somutlaştırılmış-akıl yürütme modellerine (Physical Intelligence'ın pi0'ı, Figure'ın Helix'i, OpenVLA, RT-2) karşı kıyaslama yapıyorsunuz ve bir Google veri noktası istiyorsunuz.
Şu durumlarda atlayın:
- Proje robotik dışında genel amaçlı otonom sistem — yanlış uzmanlaşma.
- Cihaz üzerinde çıkarıma ihtiyacınız var. ER, Google'ın bulut yüzeyinde çalışır; gecikme, onu güvenlik açısından kritik döngüler için zaten uygunsuz kılar.
- Dağıtım, araştırmadan ziyade üretimdir ve önizleme katmanı kaymasını kabul edemezsiniz.
Aynı alandaki alternatifler
OpenVLA, açık ağırlıklı taban çizgisidir. 7B parametre, Open X-Embodiment veri seti üzerinde eğitilmiş, tek bir H100 üzerinde çalıştırılabilir. Uzun bağlam avantajından ve biraz kaliteden vazgeçiyorsunuz, tam kendi kendine barındırma ve incelenebilirlik kazanıyorsunuz.
Physical Intelligence'ın pi0'ı (ve takip edenleri), manipülasyon genişliği açısından halka açık olarak tartışılan en güçlü alternatiftir, şu anda kapalı ağırlıklıdır ancak ortaklıklar yoluyla erişilebilirdir.
RT-2 ve RT-X, Google'ın daha önceki yayınlanmış çalışmasıdır; her ikisi de ürünleştirilmiş API'lar yerine araştırma eserleridir. ER, ürünleştirilmiş yöndür.
NVIDIA'nın Project GR00T (insansılar için temel modeller), ilgili ancak farklı bir alanı hedefler — masa üstü manipülasyon yerine insansı morfolojiler ve tüm vücut kontrolü.
Pratik notlar
1.5'e karşı 1.6: Bugün başlıyorsanız, 1.6'yı kullanın. Daha yeni revizyondur, çok adımlı planlarda daha güçlü talimat takibine sahiptir ve Google'ın üzerinde yineleme yaptığı yoldur. 1.5 burada belgelenmiştir çünkü hala çağrılabilir ve bazı araştırma kodları bunu sabitler.
Entegrasyon maliyeti yüksektir. Zor iş API çağrısı değildir; algılama-dan-LLM-yönlendirmesine biçimlendirme katmanı, LLM-çıktısı-dan-denetleyiciye adaptör ve arada duran güvenlik doğrulayıcısıdır. Günler değil, haftalar için bütçe ayırın.
ER'yi genel bir LLM olarak kullanmayın. Model, dar bir görev dağılımı için ayarlanmıştır. Ona kod, pazarlama metni veya sohbet istemek teknik olarak geçerli ancak hayal kırıklığı yaratan çıktı üretecek ve Gemini markalı bir modelin emsallerinden neden çok daha kötü olduğunu merak edeceksiniz.
Dürüst özet: Gemini Robotics-ER 1.5 Preview, somutlaştırılmış yapay zeka üzerinde çalışan gruplar için bir araştırma enstrümanıdır. Buna göre davranın.
