İçeriğe geç
Çalıştığı yer:USYapıldığı yer:United States
Google Gemini

Gemini 2.5 Computer Use Preview 10-2025

131K token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Gemini 2.5 Computer Use Preview 10-2025, Google'ın geliştirdiği ve yapay zeka ajanlarının bilgisayar arayüzleriyle insan kullanıcılara benzer şekillerde etkileşim kurmasını sağlamak için tasarlanmış deneysel bir dil modelidir. Bu model, standart metin üretiminin ötesine geçerek kullanıcı arayüzlerinde gezinme, düğmelere tıklama, form doldurma ve uygulamalar arasında çok adımlı iş akışlarını yürütme gibi bilgisayar kontrol görevlerine ilişkin talimatları anlama ve üretme yeteneklerini de içerir. Bu, Google'ın hem dil anlama hem de dijital ortam etkileşimi gerektiren görevleri yerine getirebilen ajan tabanlı yapay zeka sistemlerine yönelik araştırmalarını temsil eder. Model, 131,000 token bağlam penceresine sahiptir ve tek bir oturumda önemli miktarda bilgiyi işleyebilir. Standart metin üretim görevlerini desteklemekle birlikte, ayırt edici özelliği bilgisayar kullanım işlevselliğidir; bu sayede ekran görüntülerini yorumlayabilir, kullanıcı arayüzü öğelerini anlayabilir ve kullanıcının belirlediği hedeflere ulaşmak için uygun eylemleri üretebilir. Bu durum, modeli öncelikli olarak bir sohbet veya içerik üretim aracı olmaktan çok; otomasyon, test ve yapay zeka ajan yeteneklerine ilişkin araştırmalar için bir araç konumuna getirir. Google'ın Gemini ürün ailesi içinde bu önizleme sürümü, bilgisayar etkileşim yeteneklerini ilerletmeye odaklanan özelleşmiş bir nişi temsil eder. Ekim 2025'te yayımlanan bir önizleme modeli olarak, otonom ajan uygulamalarını araştıran geliştiriciler ve kuruluşlar için bir araştırma ve geliştirme platformu işlevi görür. Google teknolojiyi daha geniş kapsamlı bir dağıtım için geliştirmeye devam ederken, model kullanıcılara yapay zeka odaklı bilgisayar kontrolüyle deney yapma imkânı sunar.

Gemini 2.5 Computer Use Preview, dil modellerinin metin üretmenin ötesine geçerek doğrudan kullanıcı arayüzleriyle etkileşim kurabildiği yeni bir dönemin habercisi niteliğinde. Google'ın ajan tabanlı AI vizyonunun somut bir prototipi olarak konumlanıyor.

Tokonomix editör değerlendirmesi
Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Gemini 2.5 Computer Use Preview 10-2025
$1.25 1M giriş token başına
$10.00 1M çıkış token başına
≈ $0.0028 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$1.25
1M çıkış token başına$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Bilgisayar arayüzü kontrolüEkran görüntüsü yorumlamaÇok adımlı iş akışı yürütme131K token bağlam penceresiAjan tabanlı görev otomasyonuUI öğelerini anlama yeteneğiAraştırma ve prototipleme için idealGoogle altyapısının güvenilirliği

Zayıf yönler

Preview sürümü, üretim için riskliSınırlı bölgesel kullanılabilirlikGenel sohbet için optimize değilBilgi kesim tarihi belirsiz
Bölüm 03

Yetenekler

toolssource: litellmvisionoutputTokenLimit: 65536max output tokens: 64000
Bölüm 04

Sık sorulan sorular

Hayır, preview etiketi taşıyan bu model deneysel amaçlıdır. API davranışı, fiyatlandırma ve kullanılabilirlik önceden bildirim yapılmadan değişebilir; bu nedenle yalnızca prototip ve araştırma senaryolarında değerlendirmek daha güvenli olur.

Üretim ortamı için henüz erken olsa da, otonom ajan mimarileri üzerinde çalışan ekipler için kaçırılmaması gereken bir deney platformu. Preview etiketi ciddiye alınmalı, ancak potansiyeli göz ardı edilemez.

Tokonomix model inceleme notları
Bölüm 05

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 06

Tokonomix kıyaslama kararları

2026-06-14

Gemini 2.5 Computer Use maintains tool and vision capabilities

Gemini 2.5 Computer Use Preview continues to offer tool integration and vision capabilities in this benchmark window, maintaining the features introduced in the previous period. No benchmark performance data is available for either the current or previous windows, making it impossible to assess quantitative changes in model quality, speed, or accuracy across tasks. The model remains positioned as Google's offering for computer use automation scenarios, leveraging both visual understanding and tool execution to interact with digital environments. Without concrete performance metrics, users should approach this model with caution and conduct their own testing for their specific use cases. The lack of benchmark data means there is no empirical evidence of improvements or regressions in areas like instruction following, task completion rates, or error handling. Organizations considering this model for production deployments should establish their own evaluation frameworks and success criteria, as public benchmarks have not yet provided insight into how this model performs relative to alternatives or how its capabilities have evolved over time.

Quality

Latency p50

Test runs

0

Maintains tool capabilities Maintains vision capabilities
Bölüm 07

Tam model profili

Gemini 2.5 Computer Use Preview 10-2025 — illustration 1
Gemini 2.5 Computer Use Preview (Ekim 2025): masaüstü kontrolü uzmanı

Not — geleceğe dönük profil. Gemini 2.5 Computer Use Preview (gemini-2.5-computer-use-preview-10-2025), bir önizleme anlık görüntüsüdür. Genel kullanıma sunulmadan önce davranış, yetenekler ve istek sınırları değişecek. Aşağıdaki gözlemler, gelişen bir modelin anlık görüntüsü olarak değerlendirilmeli.

Bu genel amaçlı bir sohbet modeli değil. Gemini 2.5 Computer Use Preview, Google'ın ajantik masaüstü kontrolü için uzmanı — ekran görüntüsüne bakıp neye tıklanacağına karar verme, alanlara yazı yazma, UI üzerinde gezinme. Anthropic'in kendi bilgisayar kullanım modelleriyle popülerleştirmeye yardımcı olduğu daha geniş kategoriye Google'ın yanıtı.

131.072 tokenlik context, tipik masaüstü kontrol döngüsü için fazlasıyla yeterli: görevi tanımlayan bir system prompt, mevcut durumun bir iki ekran görüntüsü, eylem geçmişi ve modelin bir sonraki eylem çıktısı. Metin artı görüntü girişi, bu iş için doğru temel.

Gerçekte ne yapıyor

Model, ekran durumunu alıp yapılandırılmış eylemler üretmek üzere eğitilmiş. Tipik bir çağrı şöyle görünüyor:

  • Giriş: mevcut ekran durumunun ekran görüntüsü, artı genel hedefin tanımı ve şimdiye kadar yapılan eylemlerin geçmişi.
  • Çıkış: yapılandırılmış bir sonraki eylem — tıklanacak koordinatlar, yazılacak tuşlar, kaydırma yönü veya "görev tamamlandı" sinyali.

Ajan döngüsü o kalıbı sıkı bir döngüde çalıştırıyor: eyle, yeni ekran görüntüsü yakala, bir sonraki eyleme karar ver. Modelin etrafındaki çerçeve, işletim sistemiyle gerçek etkileşimi yönetiyor — model beyin, el değil.

Gerçekten kullanışlı olduğu durumlar

Özelleşmiş bilgisayar kullanım modellerinin aynı görevde genel görüntü-dil modellerini gerçekten geçtiği birkaç iş yükü:

  • UI'nın temiz bir API'si olmayan eski masaüstü uygulamalarında form doldurma, dahili araçlardan veri kazıma, otomasyon yüzeyi sunmayan üçüncü taraf yazılımlarda iş akışı otomasyonu gibi tekrarlayan masaüstü otomasyonu.
  • Test donanımının UI'yı bir kullanıcının yaptığı gibi kullanması gereken masaüstü ve web uygulamaları için QA testi.
  • Yardımcı amaçlar için UI durumunu anlaması gereken erişilebilirlik araçları.
  • Görevin bir bölümünün API'sini çağırmak yerine "şu web uygulamasıyla etkileşim kur" olduğu ajantik iş akışları.

Kalıp: Bir kişinin "Bunu UI'da yapardım, beş dakika sürer" diyeceği görevler bilgisayar kullanım modellerine temiz oturuyor. Halihazırda bir API çağrısının mevcut olduğu görevler bu katmana ihtiyaç duymuyor — API'yi çağırın.

Yanlış araç olduğu durumlar

Genel konuşma. Bu bir sohbet modeli değil. Eğitim ve prompt kalıpları serbest diyalog değil yapılandırılmış eylem çıktısı etrafında şekilleniyor.

Temiz API'si olan her şey. Görev "e-posta gönder" ise, modelin bir webmail arayüzünde gezinmesini sağlamayın — bir e-posta API'si çağırın. Bilgisayar kullanım modelleri, API mevcut olmadığında doğru tercih; mevcut olduğunda değil.

İnsan incelemesi olmaksızın güvenlik kritik eylemler. Model hatalar yapacak — yanlış tıklamalar, yanlış alanlar, zaman zaman ekran durumunu yanlış okuma. Gerçek para, gerçek veri veya geri alınamaz herhangi bir şeye dokunan iş akışları için ajan döngüsünün ortasında insan gerekli.

Yüksek hacimli kısa çağrılar. Ajan döngüsü doğası gereği çok adımlı. Bunu operasyonel olarak planlayın. Bu, bir sohbet botu arkasına koyacağınız model değil.

UI-özgü olmayan görüntü görevleri. Belge okuma, grafik anlama veya diyagram analizi için genel görüntü-dil modeli daha iyi uyuyor. Computer Use, keyfi görüntü çalışması değil ekran durumu yorumlamada uzman.

Alternatiflere karşı

En doğrudan rakip, Claude ailesine entegre Anthropic'in bilgisayar kullanım yeteneği. Çalışmanın şekli benzer: ekran görüntüsü içeri, yapılandırılmış eylem dışarı. Fark operasyonel:

  • Anthropic'in bilgisayar kullanımı normal Claude model ailesi içinde yaşıyor — aynı yüzey, aynı kimlik doğrulama, aynı genel davranış.
  • Google'ın Computer Use Preview, biraz farklı prompt kurallarıyla ayrı bir model tanımlayıcısı.

Halihazırda Claude üzerindeysek, Anthropic seçeneği daha basit entegrasyon. Google yığınında halihazırda iseniz, 2.5 Computer Use Preview sizi aynı ekosistemde tutuyor.

Kalite ikisi arasında rekabetçi. Her ikisi de yoğun UI'larda zaman zaman yanlış okuma yapıyor. Her ikisi de temiz modern arayüzleri iyi işliyor. Her ikisi de çok küçük UI elemanlarında, düşük kontrastlı metinde ve içeriği örten diyaloglarda zorlanıyor. Belirli iş yükü benchmark'ları modelden çok uygulamaya göre daha fazla değişiyor.

Pratik kalıplar

Bu model üzerine inşa etmeden önce bilmeye değer birkaç şey:

  • Ajan döngüsü zaman zaman takılacak — yanlış şeyi tıklama, açılır pencereyi kaçırma, beklenen sonucu üretmeyen bir eylemi tekrarlama. Adım sayacı ve sıfırlama mekanizması oluşturun.
  • Ekran görüntüsü çözünürlüğü önemli. Çok düşük olursa model UI elemanlarını yanlış okuyor; çok yüksek olursa ilgisiz piksellerle context token'larını boşa harcıyorsunuz. Belirli uygulamanıza karşı test edin.
  • Eylem geçmişi yardımcı oluyor. Son birkaç eylemi prompt'a dahil etmek, modelin halihazırda başarısız olan bir şeyi yeniden denediği döngüleri azaltıyor.
  • Bazı görevler tek yüksek seviyeli talimat olarak modele verilmek yerine açık alt hedeflere bölünmekten yararlanıyor.

Benchmark'larda ne durumda

Bilgisayar kullanımı, gerçek uygulamalar o kadar çok değiştiği için temiz biçimde benchmark'lamak zor bir kategori. Görüntü-dil modeller genelindeki kategori bazındaki tablo /benchmarks/intelligence sayfasında, ama oradaki başlık rakamlar belirli bir masaüstü otomasyon iş yükündeki performansı her zaman tahmin etmiyor.

Özellikle ajantik-döngü performansı için, aday modelleri kendi görev setinizde çalıştırın. Gerçek uygulamalardaki modeller arası farklar, sentetik benchmark'larda gördüklerinizle nadiren örtüşüyor.

Dağıtım notları

Standart Google Gemini API; ama bilgisayar kullanım akışına özgü prompt kurallarıyla. Yapılandırılmış eylem çıktısı biçimi, genel Gemini prompt kılavuzundan ayrı belgelenmiş; modele özgü referansı inceleyin.

Bölgesel kullanılabilirlik Google'ın standart Vertex AI kalıbını izliyor. AB bölgeleri kurumsal sözleşmelerde mevcut. Hazır tüketici API erişimi bölge sabitlemiyor.

Modelin kendisi eylem yürütmüyor. Modelin yapılandırılmış eylem çıktısını gerçek OS düzeyinde etkileşime çeviren bir çerçeve gerekiyor. Bu için çeşitli açık kaynaklı çerçeveler mevcut; doğru tercih, hedefin web tarayıcıları mı, yerel masaüstü uygulamaları mı, yoksa her ikisi mi olduğuna bağlı.

Tercih kriteri

Gemini 2.5 Computer Use Preview'a şu durumlarda uzanın:

  • İş yükü API sunmayan bir UI kontrolünü kapsıyorsa.
  • Halihazırda Google yığınındasınız ve orada kalmak istiyorsunuz.
  • Geri alınamaz eylemler için ajan döngüsü insan gözetimiyle çalışıyorsa.
  • Prototip düzeyinde güvenilirlik kabul edilebilir — bu önizleme, GA değil.

Başka bir şey seçin:

  • Görev için bir API mevcutsa. API'yi çağırın.
  • Çalışma UI etkileşimi değil genel görüntü veya konuşmaysa.
  • GA düzeyi kararlılık ve istek sınırları gerekiyorsa.
  • Ajan donanımı oluşturmanın entegrasyon maliyeti, iş akışını otomatize etmenin değerini aşıyorsa.

Özet. Özelleşmiş kategori için özelleşmiş araç. İş yükü uyduğunda işini yapıyor. Uymadığında neredeyse her şey daha iyi tercih.

/live-test sayfasında gerçek bir UI otomasyon görevi üzerinde deneyin. Davranış, bir inşaata taahhüt vermeden önce görmeniz gerektirdiği kadar kendine özgü.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Computer Use Preview 10-2025 — illustration 2Gemini 2.5 Computer Use Preview 10-2025 — illustration 3
Son otomatik test
14 Haz 2026 · 04:55 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·24 Mayıs 2026