İçeriğe geç
Çalıştığı yer:USYapıldığı yer:United States
Google Gemini

Gemini Robotics-ER 1.5 Preview

1.048576M token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Gemini Robotics-ER 1.5 Preview, Google tarafından Gemini model ailesinin bir parçası olarak geliştirilen, robotik uygulamalar ve bedenlenmiş akıl yürütme görevleri için özel olarak tasarlanmış uzmanlaşmış bir dil modelidir. Model, doğal dil anlamayı fiziksel dünya etkileşimleriyle birleştirme yönündeki Google'ın çabasını temsil ediyor; robotların ve otomatik sistemlerin talimatları işlemesine, eylemleri planlamasına ve gerçek dünya ortamlarındaki uzamsal ve zamansal ilişkiler üzerinde akıl yürütmesine olanak tanıyor. Bu önizleme sürümü, 1.048.576 token (1M token) gibi olağanüstü geniş bir bağlam penceresi sunarak kapsamlı sensör verilerini, uzun talimat dizilerini ve ayrıntılı çevresel açıklamaları aynı anda işleyebiliyor. Model, standart metin üretme yeteneklerini desteklerken görev planlama, doğal dil komutlarının yorumlanması ve fiziksel manipülasyon üzerine çok adımlı akıl yürütme gibi robotiğe özgü iş akışları için optimize edilmiş durumda. "ER" tanımı, modelin bedenlenmiş akıl yürütmeye odaklandığını gösteriyor ve fiziksel kısıtlamaların, nesne ilişkilerinin ve eylem dizilerinin anlaşılmasını gerektiren görevlerde gelişmiş performansa işaret ediyor. Google'ın model portföyünde Gemini Robotics-ER 1.5 Preview, genel amaçlı Gemini modellerinin yanında uzmanlaşmış bir niş konumda bulunuyor. Standart Gemini modelleri geniş kapsamlı dil anlama ihtiyaçlarına hizmet ederken, bu varyant robotik sistemler, otomasyon platformları ve fiziksel dünya hakkında temellendirilmiş akıl yürütme gerektiren uygulamalar üzerinde çalışan araştırmacı ve geliştiricileri hedefliyor. Önizleme sürümü olarak, teknoloji geliştirilmeye devam ederken Google'ın robotik odaklı yapay zeka yeteneklerine erken erişim sağlıyor.

Gemini Robotics-ER 1.5 Preview, dil modellerini fiziksel dünyayla buluşturan ve robotik sistemler için somutlaştırılmış akıl yürütmeyi ön plana çıkaran özel bir önizleme sürümüdür.

Tokonomix editör değerlendirmesi
Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Gemini Robotics-ER 1.5 Preview
$0.3000 1M giriş token başına
$2.50 1M çıkış token başına
≈ $0.0007 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$0.3000
1M çıkış token başına$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

— no change

$2.50

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Somutlaştırılmış akıl yürütme odaklı1M tokenlık geniş bağlam penceresiRobotik görev planlaması için optimizeUzamsal ve zamansal ilişki kavrayışıDoğal dil komutlarını eyleme bağlamaÇok adımlı manipülasyon akıl yürütmesiGoogle Gemini ekosistemine entegreUzun sensör verisi dizilerini işleyebilme

Zayıf yönler

Preview sürümü, kararlılık riski taşırGenel amaçlı kullanım için dar odakYetenek ve fiyatlandırma detayları belirsizBölgesel erişim sınırlı olabilir
Bölüm 03

Yetenekler

outputTokenLimit: 65536
Bölüm 04

Sık sorulan sorular

Model, robotik sistemlerde görev planlaması, doğal dil komutlarının yorumlanması ve fiziksel dünyada çok adımlı akıl yürütme gerektiren uygulamalar için özel olarak geliştirildi. Genel sohbet veya içerik üretimi yerine somutlaştırılmış (embodied) senaryolarda öne çıkar.

Robotik araştırmacıları ve otomasyon mühendisleri için umut verici bir başlangıç; ancak preview etiketi, üretim ortamlarına geçmeden önce dikkatli doğrulama gerektirdiğini hatırlatıyor.

Tokonomix model özet notu
Bölüm 05

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 06

Tokonomix kıyaslama kararları

2026-05-24

Gemini Robotics-ER 1.5 Preview için temel referans değerleri belirlendi

Bu değerlendirme, Google'ın bedenlenmiş robotik uygulamaları için tasarladığı Gemini Robotics-ER 1.5 Preview modelinin ilk performans referans noktasını oluşturuyor. Bu, ilk kıyaslama dönemi olduğundan önceki sürümlerle performans karşılaştırması yapılamıyor. Model, mevcut yetenekleri gelecekteki değerlendirmeler için referans noktası olarak alınarak değerlendirmeye giriyor. Kullanıcılar, sonraki değerlendirmelerin bu temel çizgiye göre performans metriklerindeki, güvenilirlikteki ve yetenek değişimlerindeki kaymaları izleyeceğini bilmelidir. Robotik odaklı yapı; gerçek zamanlı karar verme, uzamsal akıl yürütme ve fiziksel görev planlama için optimizasyon yapıldığına işaret ediyor. Gelecekteki kıyaslama dönemleri, modelin çok modlu robotik girdilerini işlemede, eylem tahmin doğruluğunda ve bedenlenmiş yapay zeka uygulamaları için kritik olan gecikme özelliklerinde nasıl evrildiğini ortaya koyacak. Geçmiş veri olmadan, bu değerlendirme istikrar eğilimlerini veya gerileme risklerini ölçemiyor. Bu modeli robotik dağıtımları için değerlendiren paydaşlar, performans seyrini anlamak ve farklı robotik görev kategorilerindeki yetenek iyileşmeleri veya bozulmalarında ortaya çıkan örüntüleri belirlemek için yaklaşan değerlendirmeleri takip etmelidir.

Quality

Latency p50

Test runs

0

İlk temel referans değer belirlendi
Bölüm 07

Tam model profili

Gemini Robotics-ER 1.5 Preview — illustration 1
Gemini Robotics-ER 1.5 Preview

Bu, bir sohbet kutusunun arkasına koyacağınız türden bir model değil. Google'ın Robotics-ER ("embodied reasoning" - somutlaştırılmış akıl yürütme) varyantları, mekansal akıl yürütme, sahne temellendirilmesi ve bir robotun algılama-ve-kontrol yığınının bir LLM'nin halletmesine ihtiyaç duyduğu fiziksel dünya planlama görevleri türleri için ayarlanmış dar amaçlı yapılardır. Buraya genel amaçlı bir Gemini arıyorsanız, bunun yerine gemini-pro-latest veya gemini-flash-latest modellerini tercih etmelisiniz.

Robotics-ER 1.5 Preview, Google'ın şu anda sunduğu iki önizleme revizyonundan daha eskisidir; 1.6 Preview daha yenidir. Her ikisi de önizleme katmanındadır, her ikisi de aynı alanı hedefler, her ikisi de yük taşıyan üretim yerine değerlendirme için tasarlanmıştır.

Burada "somutlaştırılmış akıl yürütme" ne anlama geliyor

Model, bir robotun işinin LLM şeklindeki yarısını yapmak üzere ayarlanmıştır: algılama yığınının (kameralar, derinlik sensörleri, lidar, kuvvet geri bildirimi) dünya hakkında bildirdiklerini alır, bunu operatörün doğal dil hedefiyle birleştirir ve denetleyicinin yürütebileceği bir plan veya bir dizi geçiş noktası üretir.

Tipik bir çağrı şöyle görünür: robotun algılama katmanı, sınırlayıcı kutular ve etiketlerle nesne tespitleri bildirir ("bardak (1.2, 0.4, 0.8) konumunda, masa kenarı y=0.5'te, tutucu şu anda..."), ve kullanıcı robota "bardağı dikkatli bir şekilde tabağın üzerine geri koy" talimatı vermiştir. Model, bildirilen geometriye dayalı, çarpışma kısıtlamalarını, tutucu kinematiğini ve kullanıcının niyetini gözeten akıl yürütmeyle ara adımlardan oluşan bir dizi döndürür.

Bu, kontrol değildir. Model servo döngülerini kapatmaz, 1kHz'de çalışmaz, düşük seviyeli hareket planlamasını yönetmez. Bunun bir seviye üstünde durur ve Google'ın makalelerinde "niyet-den-plana" dediği şeyi yapar — bulanık insan hedeflerini yapılandırılmış yürütülebilir adımlara dönüştürür.

1.048.576 token'lık bağlam penceresi burada önemlidir çünkü robot algılama akışları uzundur. Birkaç saniyelik video klipleri, birkaç dakikalık bölüm arabellekleri, birikmiş sahne belleği — hepsi bu boşluktan faydalanır.

Aslında ne için tasarlandı

Üç kullanım senaryosu kategorisi:

Araştırma. Uzun ufuklu manipülasyon, ev robotları kıyaslamaları (RT-X, BEHAVIOR, Habitat) veya simüle edilmiş ortamlarda talimat takip eden ajanlar üzerinde çalışan akademik gruplar. Önizleme katmanı burada mantıklıdır — değerlendirme yapıyorsunuz, ürün sevkiyatı yapmıyorsunuz.

Saf betikli otomasyonun üstündeki endüstriyel al-ve-yerleştir. Algılama katmanının zaten güçlü olduğu (iyi aydınlatılmış fabrika hattı, bilinen nesne envanteri) ve değişkenliğin sahne yerine hedef belirtiminde olduğu durumlarda, ER sınıfı modeller dil-temellendirme katmanı olarak değer katar.

Telerobotics ve insan-robot iş birliği. Operatörler hedefleri seslendirir; model bunları otonom katmanın planlama yapabileceği kısıtlamalara çevirir. Denetim, laboratuvar otomasyonu, cerrahi yardım araştırmalarında kullanışlıdır.

Yetersiz kaldığı noktalar

Gerçek zamanlı kontrol. Gecikme bunun için yanlış. ER, kontrol döngüsünün yukarısında yaşar, nokta.

Yeni sahne genellemesi. Model, küratörlüğü yapılmış bir robotik veri seti karışımı üzerinde eğitilmiştir; tamamen yeni nesne kategorileri, deforme edilebilir nesneler ve dinamik çoklu ajan sahneleri güvenilirliğin düştüğü alanlardır. Demo videolarına inanmadan önce kendi sahne dağılımınızda test edin.

Güvenlik garantileri. Modelde çıktıyı resmi olarak sınırlayan hiçbir şey yoktur. Ona mutfakta bir yol planlamasını isterseniz, bir yol üretecektir; yolun bir güvenlik kısıtlamasını ihlal edip etmediği (bir ocağa yakınlık, bir çocuğun etrafındaki dışlama bölgesi) sizin algılama-ve-kontrol yığınınızın doğrulaması gereken bir sorundur. Güvenlik katmanını ayrı olarak oluşturun.

Platformlar arası taşınabilirlik. ER'nin planları genelleştirilmiş bir algılama arayüzü varsayar. Bunları belirli robotunuzun koordinat çerçevesine, tutucu geometrisine ve hareket planlama deyimine uyarlamak, demoların üstünü kapattığı önemsiz olmayan entegrasyon işidir.

Önizleme katmanı istikrarsızlığı. Google, revizyonlar arasında çıktı formatlarını ve önerilen yönlendirme desenlerini değiştirmiştir. 1.5'ten 1.6'ya geçiş, erken benimseyenler için önemsiz olmayan bir kod güncellemesiydi. Bir sonraki revizyon geldiğinde aynısı için plan yapın.

Ne zaman değerlendirmeli

Robotics-ER 1.5 Preview'e şu durumlarda başvurun:

  • Robotik araştırması yapıyorsunuz ve güçlü bir somutlaştırılmış-akıl yürütme taban çizgisi istiyorsunuz.
  • Doğal dil hedef belirtiminin kullanılabilirlik gereksinimi olduğu bir projenin kapsamını belirliyorsunuz.
  • Diğer somutlaştırılmış-akıl yürütme modellerine (Physical Intelligence'ın pi0'ı, Figure'ın Helix'i, OpenVLA, RT-2) karşı kıyaslama yapıyorsunuz ve bir Google veri noktası istiyorsunuz.

Şu durumlarda atlayın:

  • Proje robotik dışında genel amaçlı otonom sistem — yanlış uzmanlaşma.
  • Cihaz üzerinde çıkarıma ihtiyacınız var. ER, Google'ın bulut yüzeyinde çalışır; gecikme, onu güvenlik açısından kritik döngüler için zaten uygunsuz kılar.
  • Dağıtım, araştırmadan ziyade üretimdir ve önizleme katmanı kaymasını kabul edemezsiniz.

Aynı alandaki alternatifler

OpenVLA, açık ağırlıklı taban çizgisidir. 7B parametre, Open X-Embodiment veri seti üzerinde eğitilmiş, tek bir H100 üzerinde çalıştırılabilir. Uzun bağlam avantajından ve biraz kaliteden vazgeçiyorsunuz, tam kendi kendine barındırma ve incelenebilirlik kazanıyorsunuz.

Physical Intelligence'ın pi0'ı (ve takip edenleri), manipülasyon genişliği açısından halka açık olarak tartışılan en güçlü alternatiftir, şu anda kapalı ağırlıklıdır ancak ortaklıklar yoluyla erişilebilirdir.

RT-2 ve RT-X, Google'ın daha önceki yayınlanmış çalışmasıdır; her ikisi de ürünleştirilmiş API'lar yerine araştırma eserleridir. ER, ürünleştirilmiş yöndür.

NVIDIA'nın Project GR00T (insansılar için temel modeller), ilgili ancak farklı bir alanı hedefler — masa üstü manipülasyon yerine insansı morfolojiler ve tüm vücut kontrolü.

Pratik notlar

1.5'e karşı 1.6: Bugün başlıyorsanız, 1.6'yı kullanın. Daha yeni revizyondur, çok adımlı planlarda daha güçlü talimat takibine sahiptir ve Google'ın üzerinde yineleme yaptığı yoldur. 1.5 burada belgelenmiştir çünkü hala çağrılabilir ve bazı araştırma kodları bunu sabitler.

Entegrasyon maliyeti yüksektir. Zor iş API çağrısı değildir; algılama-dan-LLM-yönlendirmesine biçimlendirme katmanı, LLM-çıktısı-dan-denetleyiciye adaptör ve arada duran güvenlik doğrulayıcısıdır. Günler değil, haftalar için bütçe ayırın.

ER'yi genel bir LLM olarak kullanmayın. Model, dar bir görev dağılımı için ayarlanmıştır. Ona kod, pazarlama metni veya sohbet istemek teknik olarak geçerli ancak hayal kırıklığı yaratan çıktı üretecek ve Gemini markalı bir modelin emsallerinden neden çok daha kötü olduğunu merak edeceksiniz.

Dürüst özet: Gemini Robotics-ER 1.5 Preview, somutlaştırılmış yapay zeka üzerinde çalışan gruplar için bir araştırma enstrümanıdır. Buna göre davranın.

Gemini Robotics-ER 1.5 Preview — illustration 2
Son otomatik test
27 May 2026 · 21:50 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·26 Mayıs 2026