
1.6 revizyonu daha yeni olan versiyondur. Google'ın Gemini API'sine karşı bugün bir embodied-reasoning (somutlaştırılmış akıl yürütme) projesi başlatıyorsanız, değerlendirmeniz gereken de budur; 1.5 esas olarak bazı araştırma kod tabanlarının buna sabitlenmiş olması nedeniyle etrafta kalmaktadır. Aynı alan — robotik, sahne-temelli planlama, niyet-plan çevirisi — farklı revizyon, farklı pratik profil.
1.6'nın 1.5'e karşı manşet değişikliği bağlam penceresidir. Google, 1.048.576 token'lık bir pencereden 131.072'ye düştü. Bu bir gerileme gibi görünür ve ham spesifikasyonlar açısından öyledir, ancak pratikte ER kullanım senaryosu nadiren milyon-token'lık bağlamı kullanır ve daha küçük pencere, ölçülebilir şekilde daha iyi hatırlama ve daha hızlı geri dönüş süresi ile gelir. Elde ettiğiniz takas budur.
1.6'da neler farklı
Daha sıkı bağlam, daha keskin dikkat. 128K pencere, birkaç saniyelik bir algılama tamponu, birkaç sahne-bellek dönüşü ve eksiksiz bir hedef spesifikasyonu için fazlasıyla yeterlidir. Aralık boyunca hatırlama ve temellenme kalitesi 1.5'teki durumdan daha güçlüdür ki bu da Google'ın hedeflediği yeniden dengelemedir.
Çok adımlı planlarda daha iyi talimat takibi. 1.5 modeli sıklıkla makul ilk adımlar üretir ve ardından zincirlendiğinde sonraki adımlarda sapma gösterirdi — 1.6, daha uzun plan ufukları boyunca daha tutarlıdır.
Daha temiz yapılandırılmış çıktı. Plan çıktılarında JSON-şema uygulaması daha güvenilirdir. 1.5 etrafında şema-doğrulamalı adaptörler oluşturan ekipler, 1.6'ya geçtikten sonra daha düşük yeniden deneme oranları bildirdiler.
Farklı prompt kalıpları. Sahne açıklaması, aksiyon-uzay bildirimi ve kısıt spesifikasyonu etrafındaki Google'ın önerdiği promptlama revizyonlar arasında değişti. 1.5 için çalışan dokümantasyonun 1.6'ya taşınırken gözden geçirilmesi gerekir.
Nelerin değişmediği
Model hala önizleme seviyesindedir. Çıktı şekilleri revizyonlar arasında değişebilir; üretim duruşu sapma varsaymalıdır.
Hala bir kontrol döngüsü değildir. ER, hareket planlamasının üzerinde yaşar, içinde değil. 100ms sınıfı gecikme tabanı bunu kaçınılmaz kılar.
Hala embodied-reasoning'e özgü uzmanlaşmıştır. Genel amaçlı görevler, gemini-pro-latest modelinin aynı prompt için size vereceğinden daha kötü çıktı üretecektir.
Entegrasyon maliyeti hala yüksektir. Algılama-prompt biçimlendirici, plan-kontrolör adaptörü ve güvenlik doğrulayıcısı hala sizin tarafınızdan inşa edilmelidir.
Ne için tasarlandı
1.5'i haklı çıkaran aynı üç kategori geçerlidir.
Araştırma. Sınır modellere karşı kıyaslama yapan embodied AI laboratuvarları, simülasyonda talimat takibi değerlendirmeleri (Habitat, RoboCasa, BEHAVIOR), uzun ufuklu manipülasyon çalışmaları.
Algılama katmanının olgun olduğu ve varyasyonun hedef-odaklı olduğu endüstriyel pilot dağıtımlar. Betiklenmiş otomasyonun üzerinde al-ve-yerleştir. Öğeler değiştiği ancak iş hücresi değişmediği yerlerde kutu toplama.
Tele-robotik ve döngü içinde insan kontrolü. Operatörler niyetlerini doğal dilde ifade eder; model bunu özerklik katmanının karşısında planlayabileceği kısıtlara dönüştürür.
Nerede yetersiz kalıyor
Yeni somutlaştırmalar. Kol-ve-tutucu morfolojilerine eğilimli, küratörlü bir robotik veri karışımı üzerinde eğitilmiştir. Dört ayaklılar, hümanoidler, yumuşak robotlar — kalite düşer, bazen sessizce.
Dinamik çok-ajan sahneleri. Kalabalık depolar, insanların etrafta hareket ettiği mutfaklar, sahnenin algılama döngüsünün rapor ettiğinden daha hızlı değiştiği her yer — modelin planları, gerçekliğin sunduğundan daha fazla determinizm varsayar.
Güvenlik. 1.5 ile aynı: modelde çıktıyı resmi olarak sınırlayan hiçbir şey yok. Doğrulayıcı sizin yığınınızda oturur, Google'ınkinde değil.
Platformlar arası taşınabilirlik. Planlar, robot başına adaptör kodu gerektiren genelleştirilmiş bir koordinat uzayında ifade edilir. Demolar bunu gizler.
Önizleme seviyesi riski. Google, diğer Gemini hatlarında sınırlı bildirimle önizleme uç noktalarını emekliye ayırmıştır. 1.7 veya önizleme-olmayan halefi geldiğinde bir geçiş için plan yapın.
1.6 ne zaman 1.5'e tercih edilmeli
Yeni çalışmalar için varsayılan olarak 1.6'yı kullanın. Plan-ufuk tutarlılığı ve yapılandırılmış çıktı güvenilirliğindeki iyileştirmeler, pratikte 1M-token tavanının önem taşıdığından daha fazla önem taşır. Yalnızca şu durumlarda 1.5'te kalın:
- Kod tabanınız buna sabitlenmiş ve geçiş maliyeti kalite deltasını aşıyor.
- Milyon-token penceresini gerçekten kullanan belirli bir kullanım durumunuz var (robotikte nadir).
- Yayınlanmış araştırma sonuçlarına karşı tekrarlanabilirlik, eski revizyonu gerektiriyor.
ER ne zaman hiç kullanılmamalı
Görev somutlaştırılmış değilse — fiziksel dünya hedefleri, sensör girdileri, aksiyon çıktıları — gemini-pro-latest veya başka bir genel amaçlı modele ulaşın. ER, tasarım gereği robotik olmayan her şeyde Pro'dan daha kötüdür.
Dağıtım güvenlik-kritik ise ve önizleme seviyesi davranış değişimlerini kabul edemiyorsanız, model sürümünü kontrol ettiğiniz kendi kendine barındırılan alternatiflere bakın. OpenVLA bariz başlangıç noktasıdır; ortaklık yoluyla erişebiliyorsanız Physical Intelligence'ın modelleri.
Kontrol-bitişik bir döngüde gecikme nedenleriyle cihaz üzerinde veya cihaza yakın çıkarıma ihtiyacınız varsa, ER yanlış şekildir. Jetson veya eşdeğer bir edge hızlandırıcısı üzerinde çalışan damıtılmış VLA modelleri konuşmanın konusudur.
İsimlendirmeye değer alternatifler
OpenVLA. 7B parametre, açık ağırlıklar, tek bir H100 üzerinde çalıştırılabilir, Open X-Embodiment veri seti üzerinde eğitilmiş. VLA araştırması için referans açık temel.
Physical Intelligence'ın pi0 ailesi. Manipülasyon genişliğinde en güçlü, kamuya açık olarak tartışılan tescilli alternatif.
NVIDIA Project GR00T. Hümanoid robotik için temel modeller; farklı morfoloji odağı, örtüşen teknik yaklaşım.
Figure'ın Helix'i. Figure'dan kapalı model, hümanoid platformlarında gösterilmiş. Karşılaştırılabilir bir API teklifi değil ancak yetenek işaretleyici olarak takip etmeye değer.
Pratik notlar
1.5'ten 1.6'ya geçerken promptlama kılavuzunu yeniden okuyun. Önerilen sahne-açıklama formatı ve aksiyon-uzay şeması değişti.
Yapılandırılmış çıktı adaptörünüzü yeniden doğrulayın. Şema-takip iyileştirmelerine rağmen bile, 1.5'te çalışan uç durumlar 1.6'da farklı şekiller üretebilir.
Her çağrıyla model revizyonunu kaydedin. Google önizleme uç noktasını döndürdüğünde, davranış değişikliği ile revizyon değişikliği arasındaki korelasyon hata ayıklamanın tek yoludur.
Dürüst özet: Robotics-ER 1.6 Preview, yeni robotik çalışmalar için iki önizleme revizyonunun daha iyisidir ve aile genelinde geçerli olan uzmanlaşma, önizleme seviyesi riski ve entegrasyon maliyeti hakkındaki aynı uyarılarla birlikte gelir.
