
Not — geleceğe dönük profil. Gemini 2.5 Computer Use Preview (
gemini-2.5-computer-use-preview-10-2025), bir önizleme anlık görüntüsüdür. Genel kullanıma sunulmadan önce davranış, yetenekler ve istek sınırları değişecek. Aşağıdaki gözlemler, gelişen bir modelin anlık görüntüsü olarak değerlendirilmeli.
Bu genel amaçlı bir sohbet modeli değil. Gemini 2.5 Computer Use Preview, Google'ın ajantik masaüstü kontrolü için uzmanı — ekran görüntüsüne bakıp neye tıklanacağına karar verme, alanlara yazı yazma, UI üzerinde gezinme. Anthropic'in kendi bilgisayar kullanım modelleriyle popülerleştirmeye yardımcı olduğu daha geniş kategoriye Google'ın yanıtı.
131.072 tokenlik context, tipik masaüstü kontrol döngüsü için fazlasıyla yeterli: görevi tanımlayan bir system prompt, mevcut durumun bir iki ekran görüntüsü, eylem geçmişi ve modelin bir sonraki eylem çıktısı. Metin artı görüntü girişi, bu iş için doğru temel.
Gerçekte ne yapıyor
Model, ekran durumunu alıp yapılandırılmış eylemler üretmek üzere eğitilmiş. Tipik bir çağrı şöyle görünüyor:
- Giriş: mevcut ekran durumunun ekran görüntüsü, artı genel hedefin tanımı ve şimdiye kadar yapılan eylemlerin geçmişi.
- Çıkış: yapılandırılmış bir sonraki eylem — tıklanacak koordinatlar, yazılacak tuşlar, kaydırma yönü veya "görev tamamlandı" sinyali.
Ajan döngüsü o kalıbı sıkı bir döngüde çalıştırıyor: eyle, yeni ekran görüntüsü yakala, bir sonraki eyleme karar ver. Modelin etrafındaki çerçeve, işletim sistemiyle gerçek etkileşimi yönetiyor — model beyin, el değil.
Gerçekten kullanışlı olduğu durumlar
Özelleşmiş bilgisayar kullanım modellerinin aynı görevde genel görüntü-dil modellerini gerçekten geçtiği birkaç iş yükü:
- UI'nın temiz bir API'si olmayan eski masaüstü uygulamalarında form doldurma, dahili araçlardan veri kazıma, otomasyon yüzeyi sunmayan üçüncü taraf yazılımlarda iş akışı otomasyonu gibi tekrarlayan masaüstü otomasyonu.
- Test donanımının UI'yı bir kullanıcının yaptığı gibi kullanması gereken masaüstü ve web uygulamaları için QA testi.
- Yardımcı amaçlar için UI durumunu anlaması gereken erişilebilirlik araçları.
- Görevin bir bölümünün API'sini çağırmak yerine "şu web uygulamasıyla etkileşim kur" olduğu ajantik iş akışları.
Kalıp: Bir kişinin "Bunu UI'da yapardım, beş dakika sürer" diyeceği görevler bilgisayar kullanım modellerine temiz oturuyor. Halihazırda bir API çağrısının mevcut olduğu görevler bu katmana ihtiyaç duymuyor — API'yi çağırın.
Yanlış araç olduğu durumlar
Genel konuşma. Bu bir sohbet modeli değil. Eğitim ve prompt kalıpları serbest diyalog değil yapılandırılmış eylem çıktısı etrafında şekilleniyor.
Temiz API'si olan her şey. Görev "e-posta gönder" ise, modelin bir webmail arayüzünde gezinmesini sağlamayın — bir e-posta API'si çağırın. Bilgisayar kullanım modelleri, API mevcut olmadığında doğru tercih; mevcut olduğunda değil.
İnsan incelemesi olmaksızın güvenlik kritik eylemler. Model hatalar yapacak — yanlış tıklamalar, yanlış alanlar, zaman zaman ekran durumunu yanlış okuma. Gerçek para, gerçek veri veya geri alınamaz herhangi bir şeye dokunan iş akışları için ajan döngüsünün ortasında insan gerekli.
Yüksek hacimli kısa çağrılar. Ajan döngüsü doğası gereği çok adımlı. Bunu operasyonel olarak planlayın. Bu, bir sohbet botu arkasına koyacağınız model değil.
UI-özgü olmayan görüntü görevleri. Belge okuma, grafik anlama veya diyagram analizi için genel görüntü-dil modeli daha iyi uyuyor. Computer Use, keyfi görüntü çalışması değil ekran durumu yorumlamada uzman.
Alternatiflere karşı
En doğrudan rakip, Claude ailesine entegre Anthropic'in bilgisayar kullanım yeteneği. Çalışmanın şekli benzer: ekran görüntüsü içeri, yapılandırılmış eylem dışarı. Fark operasyonel:
- Anthropic'in bilgisayar kullanımı normal Claude model ailesi içinde yaşıyor — aynı yüzey, aynı kimlik doğrulama, aynı genel davranış.
- Google'ın Computer Use Preview, biraz farklı prompt kurallarıyla ayrı bir model tanımlayıcısı.
Halihazırda Claude üzerindeysek, Anthropic seçeneği daha basit entegrasyon. Google yığınında halihazırda iseniz, 2.5 Computer Use Preview sizi aynı ekosistemde tutuyor.
Kalite ikisi arasında rekabetçi. Her ikisi de yoğun UI'larda zaman zaman yanlış okuma yapıyor. Her ikisi de temiz modern arayüzleri iyi işliyor. Her ikisi de çok küçük UI elemanlarında, düşük kontrastlı metinde ve içeriği örten diyaloglarda zorlanıyor. Belirli iş yükü benchmark'ları modelden çok uygulamaya göre daha fazla değişiyor.
Pratik kalıplar
Bu model üzerine inşa etmeden önce bilmeye değer birkaç şey:
- Ajan döngüsü zaman zaman takılacak — yanlış şeyi tıklama, açılır pencereyi kaçırma, beklenen sonucu üretmeyen bir eylemi tekrarlama. Adım sayacı ve sıfırlama mekanizması oluşturun.
- Ekran görüntüsü çözünürlüğü önemli. Çok düşük olursa model UI elemanlarını yanlış okuyor; çok yüksek olursa ilgisiz piksellerle context token'larını boşa harcıyorsunuz. Belirli uygulamanıza karşı test edin.
- Eylem geçmişi yardımcı oluyor. Son birkaç eylemi prompt'a dahil etmek, modelin halihazırda başarısız olan bir şeyi yeniden denediği döngüleri azaltıyor.
- Bazı görevler tek yüksek seviyeli talimat olarak modele verilmek yerine açık alt hedeflere bölünmekten yararlanıyor.
Benchmark'larda ne durumda
Bilgisayar kullanımı, gerçek uygulamalar o kadar çok değiştiği için temiz biçimde benchmark'lamak zor bir kategori. Görüntü-dil modeller genelindeki kategori bazındaki tablo /benchmarks/intelligence sayfasında, ama oradaki başlık rakamlar belirli bir masaüstü otomasyon iş yükündeki performansı her zaman tahmin etmiyor.
Özellikle ajantik-döngü performansı için, aday modelleri kendi görev setinizde çalıştırın. Gerçek uygulamalardaki modeller arası farklar, sentetik benchmark'larda gördüklerinizle nadiren örtüşüyor.
Dağıtım notları
Standart Google Gemini API; ama bilgisayar kullanım akışına özgü prompt kurallarıyla. Yapılandırılmış eylem çıktısı biçimi, genel Gemini prompt kılavuzundan ayrı belgelenmiş; modele özgü referansı inceleyin.
Bölgesel kullanılabilirlik Google'ın standart Vertex AI kalıbını izliyor. AB bölgeleri kurumsal sözleşmelerde mevcut. Hazır tüketici API erişimi bölge sabitlemiyor.
Modelin kendisi eylem yürütmüyor. Modelin yapılandırılmış eylem çıktısını gerçek OS düzeyinde etkileşime çeviren bir çerçeve gerekiyor. Bu için çeşitli açık kaynaklı çerçeveler mevcut; doğru tercih, hedefin web tarayıcıları mı, yerel masaüstü uygulamaları mı, yoksa her ikisi mi olduğuna bağlı.
Tercih kriteri
Gemini 2.5 Computer Use Preview'a şu durumlarda uzanın:
- İş yükü API sunmayan bir UI kontrolünü kapsıyorsa.
- Halihazırda Google yığınındasınız ve orada kalmak istiyorsunuz.
- Geri alınamaz eylemler için ajan döngüsü insan gözetimiyle çalışıyorsa.
- Prototip düzeyinde güvenilirlik kabul edilebilir — bu önizleme, GA değil.
Başka bir şey seçin:
- Görev için bir API mevcutsa. API'yi çağırın.
- Çalışma UI etkileşimi değil genel görüntü veya konuşmaysa.
- GA düzeyi kararlılık ve istek sınırları gerekiyorsa.
- Ajan donanımı oluşturmanın entegrasyon maliyeti, iş akışını otomatize etmenin değerini aşıyorsa.
Özet. Özelleşmiş kategori için özelleşmiş araç. İş yükü uyduğunda işini yapıyor. Uymadığında neredeyse her şey daha iyi tercih.
/live-test sayfasında gerçek bir UI otomasyon görevi üzerinde deneyin. Davranış, bir inşaata taahhüt vermeden önce görmeniz gerektirdiği kadar kendine özgü.
Son teknik inceleme: 2026-05-22 — Tokonomix.ai

