Computer Use özelliği tam olarak ne yapıyor?

Model, ekran görüntülerini analiz ederek UI öğelerini tanıyabiliyor ve tıklama, form doldurma, gezinme gibi eylemleri tetikleyecek talimatlar üretebiliyor. Böylece tarayıcı otomasyonu veya masaüstü iş akışları gibi senaryolarda ajan olarak çalışabiliyor.

131K token bağlam penceresi ajan senaryoları için yeterli mi?

Çoğu çok adımlı iş akışı, ekran geçmişi ve araç yanıtları için 131K token rahat bir alan sağlıyor. Ancak uzun süreli oturumlarda ekran görüntülerinin token maliyeti hızla birikebileceği için bağlam yönetimi stratejisi kurmanız gerekir.

Hangi tür uygulamalar için en uygun?

QA otomasyonu, tekrarlayan ofis iş akışlarının ajanlaştırılması, web tabanlı veri toplama ve dahili araç entegrasyonları için güçlü bir aday. Konuşma tabanlı asistanlar veya içerik üretimi için Gemini'nin diğer modelleri daha uygun olacaktır.

Güvenlik açısından nelere dikkat etmeliyim?

Modelin gerçek sistemlerde eylem üretmesi, prompt injection ve istenmeyen tıklama risklerini beraberinde getirir. Kum havuzu (sandbox) ortamlar, insan onay adımları ve sınırlı yetki kapsamı ile çalıştırmak kritik öneme sahiptir.

Seviye B — Üretim

Çalıştığı yer:USYapıldığı yer:United States

Google Gemini

Gemini 2.5 Computer Use Preview 10-2025

Seviye B — Üretim · 131K token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 22 Mayıs 2026·Son inceleme 24 Mayıs 2026

Gemini 2.5 Computer Use Preview 10-2025, Google'ın geliştirdiği ve yapay zeka ajanlarının bilgisayar arayüzleriyle insan kullanıcılara benzer şekillerde etkileşim kurmasını sağlamak için tasarlanmış deneysel bir dil modelidir. Bu model, standart metin üretiminin ötesine geçerek kullanıcı arayüzlerinde gezinme, düğmelere tıklama, form doldurma ve uygulamalar arasında çok adımlı iş akışlarını yürütme gibi bilgisayar kontrol görevlerine ilişkin talimatları anlama ve üretme yeteneklerini de içerir. Bu, Google'ın hem dil anlama hem de dijital ortam etkileşimi gerektiren görevleri yerine getirebilen ajan tabanlı yapay zeka sistemlerine yönelik araştırmalarını temsil eder. Model, 131,000 token bağlam penceresine sahiptir ve tek bir oturumda önemli miktarda bilgiyi işleyebilir. Standart metin üretim görevlerini desteklemekle birlikte, ayırt edici özelliği bilgisayar kullanım işlevselliğidir; bu sayede ekran görüntülerini yorumlayabilir, kullanıcı arayüzü öğelerini anlayabilir ve kullanıcının belirlediği hedeflere ulaşmak için uygun eylemleri üretebilir. Bu durum, modeli öncelikli olarak bir sohbet veya içerik üretim aracı olmaktan çok; otomasyon, test ve yapay zeka ajan yeteneklerine ilişkin araştırmalar için bir araç konumuna getirir. Google'ın Gemini ürün ailesi içinde bu önizleme sürümü, bilgisayar etkileşim yeteneklerini ilerletmeye odaklanan özelleşmiş bir nişi temsil eder. Ekim 2025'te yayımlanan bir önizleme modeli olarak, otonom ajan uygulamalarını araştıran geliştiriciler ve kuruluşlar için bir araştırma ve geliştirme platformu işlevi görür. Google teknolojiyi daha geniş kapsamlı bir dağıtım için geliştirmeye devam ederken, model kullanıcılara yapay zeka odaklı bilgisayar kontrolüyle deney yapma imkânı sunar.

Gemini 2.5 Computer Use Preview, dil modellerinin metin üretmenin ötesine geçerek doğrudan kullanıcı arayüzleriyle etkileşim kurabildiği yeni bir dönemin habercisi niteliğinde. Google'ın ajan tabanlı AI vizyonunun somut bir prototipi olarak konumlanıyor.
— Tokonomix editör değerlendirmesi

Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰

API tarifeleri — Gemini 2.5 Computer Use Preview 10-2025

$1.25 1M giriş token başına

$10.00 1M çıkış token başına

≈ $0.0028 tipik konuşma başına (800 token)

Giriş vs çıkış fiyatı (1M token başına)

1M giriş token başına$1.25

1M çıkış token başına$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Bilgisayar arayüzü kontrolüEkran görüntüsü yorumlamaÇok adımlı iş akışı yürütme131K token bağlam penceresiAjan tabanlı görev otomasyonuUI öğelerini anlama yeteneğiAraştırma ve prototipleme için idealGoogle altyapısının güvenilirliği

Zayıf yönler

Preview sürümü, üretim için riskliSınırlı bölgesel kullanılabilirlikGenel sohbet için optimize değilBilgi kesim tarihi belirsiz

Bölüm 03

Yetenekler

toolssource: litellmvisionoutputTokenLimit: 65536max output tokens: 64000

Bölüm 04

Sık sorulan sorular

Hayır, preview etiketi taşıyan bu model deneysel amaçlıdır. API davranışı, fiyatlandırma ve kullanılabilirlik önceden bildirim yapılmadan değişebilir; bu nedenle yalnızca prototip ve araştırma senaryolarında değerlendirmek daha güvenli olur.

Üretim ortamı için henüz erken olsa da, otonom ajan mimarileri üzerinde çalışan ekipler için kaçırılmaması gereken bir deney platformu. Preview etiketi ciddiye alınmalı, ancak potansiyeli göz ardı edilemez.
— Tokonomix model inceleme notları

Bölüm 05

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 06

Tokonomix kıyaslama kararları

● 2026-07-26

Gemini 2.5 Computer Use maintains tool and vision capabilities

Gemini 2.5 Computer Use Preview continues to offer both tool integration and vision capabilities without measurable changes in this benchmark window. The model maintains its core functionality for computer interaction tasks, allowing it to process visual inputs and utilize external tools as part of its operational framework. No performance regressions or improvements were detected across the evaluated metrics, suggesting stable model behavior between benchmark periods. Users can expect consistent performance for tasks requiring multimodal understanding and tool orchestration. The model remains in preview status, indicating ongoing development and potential future refinements. Organizations considering this model for computer use automation should note the stability of its current capabilities while remaining aware of its preview designation. The absence of benchmark fluctuations suggests reliable behavior for integration into existing workflows, though users should continue monitoring for updates as Google iterates on this specialized model variant.

Quality

—

Latency p50

—

Test runs

✓ Tool capabilities maintained✓ Vision support stable

Bölüm 07

Tam model profili

Gemini 2.5 Computer Use Preview (Ekim 2025): masaüstü kontrolü uzmanı

Not — geleceğe dönük profil. Gemini 2.5 Computer Use Preview (gemini-2.5-computer-use-preview-10-2025), bir önizleme anlık görüntüsüdür. Genel kullanıma sunulmadan önce davranış, yetenekler ve istek sınırları değişecek. Aşağıdaki gözlemler, gelişen bir modelin anlık görüntüsü olarak değerlendirilmeli.

Bu genel amaçlı bir sohbet modeli değil. Gemini 2.5 Computer Use Preview, Google'ın ajantik masaüstü kontrolü için uzmanı — ekran görüntüsüne bakıp neye tıklanacağına karar verme, alanlara yazı yazma, UI üzerinde gezinme. Anthropic'in kendi bilgisayar kullanım modelleriyle popülerleştirmeye yardımcı olduğu daha geniş kategoriye Google'ın yanıtı.

131.072 tokenlik context, tipik masaüstü kontrol döngüsü için fazlasıyla yeterli: görevi tanımlayan bir system prompt, mevcut durumun bir iki ekran görüntüsü, eylem geçmişi ve modelin bir sonraki eylem çıktısı. Metin artı görüntü girişi, bu iş için doğru temel.

Gerçekte ne yapıyor

Model, ekran durumunu alıp yapılandırılmış eylemler üretmek üzere eğitilmiş. Tipik bir çağrı şöyle görünüyor:

Giriş: mevcut ekran durumunun ekran görüntüsü, artı genel hedefin tanımı ve şimdiye kadar yapılan eylemlerin geçmişi.
Çıkış: yapılandırılmış bir sonraki eylem — tıklanacak koordinatlar, yazılacak tuşlar, kaydırma yönü veya "görev tamamlandı" sinyali.

Ajan döngüsü o kalıbı sıkı bir döngüde çalıştırıyor: eyle, yeni ekran görüntüsü yakala, bir sonraki eyleme karar ver. Modelin etrafındaki çerçeve, işletim sistemiyle gerçek etkileşimi yönetiyor — model beyin, el değil.

Gerçekten kullanışlı olduğu durumlar

Özelleşmiş bilgisayar kullanım modellerinin aynı görevde genel görüntü-dil modellerini gerçekten geçtiği birkaç iş yükü:

UI'nın temiz bir API'si olmayan eski masaüstü uygulamalarında form doldurma, dahili araçlardan veri kazıma, otomasyon yüzeyi sunmayan üçüncü taraf yazılımlarda iş akışı otomasyonu gibi tekrarlayan masaüstü otomasyonu.
Test donanımının UI'yı bir kullanıcının yaptığı gibi kullanması gereken masaüstü ve web uygulamaları için QA testi.
Yardımcı amaçlar için UI durumunu anlaması gereken erişilebilirlik araçları.
Görevin bir bölümünün API'sini çağırmak yerine "şu web uygulamasıyla etkileşim kur" olduğu ajantik iş akışları.

Kalıp: Bir kişinin "Bunu UI'da yapardım, beş dakika sürer" diyeceği görevler bilgisayar kullanım modellerine temiz oturuyor. Halihazırda bir API çağrısının mevcut olduğu görevler bu katmana ihtiyaç duymuyor — API'yi çağırın.

Yanlış araç olduğu durumlar

Genel konuşma. Bu bir sohbet modeli değil. Eğitim ve prompt kalıpları serbest diyalog değil yapılandırılmış eylem çıktısı etrafında şekilleniyor.

Temiz API'si olan her şey. Görev "e-posta gönder" ise, modelin bir webmail arayüzünde gezinmesini sağlamayın — bir e-posta API'si çağırın. Bilgisayar kullanım modelleri, API mevcut olmadığında doğru tercih; mevcut olduğunda değil.

İnsan incelemesi olmaksızın güvenlik kritik eylemler. Model hatalar yapacak — yanlış tıklamalar, yanlış alanlar, zaman zaman ekran durumunu yanlış okuma. Gerçek para, gerçek veri veya geri alınamaz herhangi bir şeye dokunan iş akışları için ajan döngüsünün ortasında insan gerekli.

Yüksek hacimli kısa çağrılar. Ajan döngüsü doğası gereği çok adımlı. Bunu operasyonel olarak planlayın. Bu, bir sohbet botu arkasına koyacağınız model değil.

UI-özgü olmayan görüntü görevleri. Belge okuma, grafik anlama veya diyagram analizi için genel görüntü-dil modeli daha iyi uyuyor. Computer Use, keyfi görüntü çalışması değil ekran durumu yorumlamada uzman.

Alternatiflere karşı

En doğrudan rakip, Claude ailesine entegre Anthropic'in bilgisayar kullanım yeteneği. Çalışmanın şekli benzer: ekran görüntüsü içeri, yapılandırılmış eylem dışarı. Fark operasyonel:

Anthropic'in bilgisayar kullanımı normal Claude model ailesi içinde yaşıyor — aynı yüzey, aynı kimlik doğrulama, aynı genel davranış.
Google'ın Computer Use Preview, biraz farklı prompt kurallarıyla ayrı bir model tanımlayıcısı.

Halihazırda Claude üzerindeysek, Anthropic seçeneği daha basit entegrasyon. Google yığınında halihazırda iseniz, 2.5 Computer Use Preview sizi aynı ekosistemde tutuyor.

Kalite ikisi arasında rekabetçi. Her ikisi de yoğun UI'larda zaman zaman yanlış okuma yapıyor. Her ikisi de temiz modern arayüzleri iyi işliyor. Her ikisi de çok küçük UI elemanlarında, düşük kontrastlı metinde ve içeriği örten diyaloglarda zorlanıyor. Belirli iş yükü benchmark'ları modelden çok uygulamaya göre daha fazla değişiyor.

Pratik kalıplar

Bu model üzerine inşa etmeden önce bilmeye değer birkaç şey:

Ajan döngüsü zaman zaman takılacak — yanlış şeyi tıklama, açılır pencereyi kaçırma, beklenen sonucu üretmeyen bir eylemi tekrarlama. Adım sayacı ve sıfırlama mekanizması oluşturun.
Ekran görüntüsü çözünürlüğü önemli. Çok düşük olursa model UI elemanlarını yanlış okuyor; çok yüksek olursa ilgisiz piksellerle context token'larını boşa harcıyorsunuz. Belirli uygulamanıza karşı test edin.
Eylem geçmişi yardımcı oluyor. Son birkaç eylemi prompt'a dahil etmek, modelin halihazırda başarısız olan bir şeyi yeniden denediği döngüleri azaltıyor.
Bazı görevler tek yüksek seviyeli talimat olarak modele verilmek yerine açık alt hedeflere bölünmekten yararlanıyor.

Benchmark'larda ne durumda

Bilgisayar kullanımı, gerçek uygulamalar o kadar çok değiştiği için temiz biçimde benchmark'lamak zor bir kategori. Görüntü-dil modeller genelindeki kategori bazındaki tablo /benchmarks/intelligence sayfasında, ama oradaki başlık rakamlar belirli bir masaüstü otomasyon iş yükündeki performansı her zaman tahmin etmiyor.

Özellikle ajantik-döngü performansı için, aday modelleri kendi görev setinizde çalıştırın. Gerçek uygulamalardaki modeller arası farklar, sentetik benchmark'larda gördüklerinizle nadiren örtüşüyor.

Dağıtım notları

Standart Google Gemini API; ama bilgisayar kullanım akışına özgü prompt kurallarıyla. Yapılandırılmış eylem çıktısı biçimi, genel Gemini prompt kılavuzundan ayrı belgelenmiş; modele özgü referansı inceleyin.

Bölgesel kullanılabilirlik Google'ın standart Vertex AI kalıbını izliyor. AB bölgeleri kurumsal sözleşmelerde mevcut. Hazır tüketici API erişimi bölge sabitlemiyor.

Modelin kendisi eylem yürütmüyor. Modelin yapılandırılmış eylem çıktısını gerçek OS düzeyinde etkileşime çeviren bir çerçeve gerekiyor. Bu için çeşitli açık kaynaklı çerçeveler mevcut; doğru tercih, hedefin web tarayıcıları mı, yerel masaüstü uygulamaları mı, yoksa her ikisi mi olduğuna bağlı.

Tercih kriteri

Gemini 2.5 Computer Use Preview'a şu durumlarda uzanın:

İş yükü API sunmayan bir UI kontrolünü kapsıyorsa.
Halihazırda Google yığınındasınız ve orada kalmak istiyorsunuz.
Geri alınamaz eylemler için ajan döngüsü insan gözetimiyle çalışıyorsa.
Prototip düzeyinde güvenilirlik kabul edilebilir — bu önizleme, GA değil.

Başka bir şey seçin:

Görev için bir API mevcutsa. API'yi çağırın.
Çalışma UI etkileşimi değil genel görüntü veya konuşmaysa.
GA düzeyi kararlılık ve istek sınırları gerekiyorsa.
Ajan donanımı oluşturmanın entegrasyon maliyeti, iş akışını otomatize etmenin değerini aşıyorsa.

Özet. Özelleşmiş kategori için özelleşmiş araç. İş yükü uyduğunda işini yapıyor. Uymadığında neredeyse her şey daha iyi tercih.

/live-test sayfasında gerçek bir UI otomasyon görevi üzerinde deneyin. Davranış, bir inşaata taahhüt vermeden önce görmeniz gerektirdiği kadar kendine özgü.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Son otomatik test

21 Haz 2026 · 04:48 UTC · Test

P50 gecikme

—

P95 gecikme

—

Hatalar

1 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·24 Mayıs 2026