İçeriğe geç
Seviye C — Uzman
Çalıştığı yer:USYapıldığı yer:United States
Google Gemini

Gemini 3.1 Pro Preview Custom Tools

Seviye C — Uzman · 1.048576M token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Gemini 3.1 Pro Preview Custom Tools, Google'ın Gemini 3.1 Pro modelinin genişletilmiş araç kullanım yetenekleri içeren deneysel bir sürümüdür. Bu varyant, büyük dil modeli uygulamalarında gelişmiş fonksiyon çağırma ve harici araç entegrasyonunu keşfeden geliştiriciler ve araştırmacılar için tasarlanmıştır. Yapılandırılmış bir araç çağırma arayüzü aracılığıyla modelin özel API'ler, veritabanları ve harici servislerle etkileşim kurmasını sağlar; bu da onu karmaşık AI ajanları ve iş akışı otomasyon sistemleri oluşturmak için uygun kılar. Model, yaklaşık 1.048 milyon token'lık bir bağlam penceresine sahiptir; bu sayede son derece uzun konuşmaları, belgeleri veya çok adımlı muhakeme zincirlerini işleyebilir ve sürdürebilir. Bu genişletilmiş bağlam kapasitesi, özellikle uzun kod tabanlarının analizi, kapsamlı belge incelemesi veya uzun diyalog oturumları gerektiren uygulamalar için değerlidir. Model, gelişmiş araç kullanım işlevselliğinin yanı sıra standart metin üretim yeteneklerini de sunarak hem sohbet odaklı AI uygulamalarını hem de harici veri erişimi veya eylem yürütmesi gerektiren göreve yönelik uygulamaları destekler. Google'ın model yelpazesinde bu varyant, Gemini 3.1 Pro katmanının özel bir önizleme sürümü olarak konumlanır; standart üretim modelleri ile öncü deneysel sürümler arasında yer alır. Geliştiricilere, Gemini 3.1 Pro temelinin çekirdek muhakeme ve üretim yeteneklerini korurken Google'ın gelişen araç kullanım mimarisine erken erişim sunar. "Preview" ifadesi, bunun üretim dağıtımı yerine test ve geri bildirim amaçlı bir ön sürüm olduğunu belirtir.

Google altyapısıyla desteklenen bu model, geniş bilgi tabanını etkin biçimde kullanıyor.

Tokonomix benchmark özeti
Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme14 runs
109741807263103451342805-2705-31ms
Bölüm 02

Kalite puanları

Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.

43
Kod üretimi
27
Çok dilli
45
Akıl yürütme
Bölüm 03

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Gemini 3.1 Pro Preview Custom Tools
$2.00 1M giriş token başına
$12.00 1M çıkış token başına
≈ $0.0036 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$2.00
1M çıkış token başına$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Bölüm 04

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)156 / avg 140
18189

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 05

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Düşük gecikme, hızlı yanıt1M token bağlam penceresiAraç çağrısı (function calling)Metin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarı

Zayıf yönler

Karmaşık akıl yürütmede sınırlıÖnizleme: özellikler değişebilirİnternet erişimi bulunmuyor
Bölüm 06

Yetenekler

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaprompt cachingoutputTokenLimit: 65536max output tokens: 65536
Bölüm 07

Sık sorulan sorular

Metin üretimi, içerik oluşturma, soru-cevap ve özetleme görevlerini destekleyen geniş bir uygulama yelpazesi sunuyor.

Google Gemini ekosistemiyle entegre çalışan bu model kurumsal iş akışlarını hızlandırıyor.

Tokonomix benchmark özeti
Bölüm 08

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 09

Tokonomix kıyaslama kararları

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-545/100 · 76 runs
29 correct7 partial40 wrong38% accuracy
2026-06-14

New model debuts with extensive multimodal capabilities

Gemini 3.1 Pro Preview Custom Tools enters benchmarking with a comprehensive feature set spanning multiple input modalities and output formats. The model supports tools, vision, audio input, PDF processing, and structured output through both JSON mode and JSON schema capabilities. Reasoning and prompt caching features are also available. Without previous benchmark data for comparison, this represents the model's initial capability profile rather than performance changes. Users gain access to a versatile multimodal system that handles diverse input types including text, images, audio, and documents. The custom tools designation suggests enhanced function calling capabilities for agentic workflows. The preview status indicates this is a pre-release version that may undergo further refinement. As this is the first benchmark window with data, performance characteristics across these capabilities remain to be validated through continued testing. Organizations evaluating this model should conduct their own assessments for specific use cases, particularly given its preview nature. Future benchmark windows will establish performance trends and stability metrics across the newly available feature set.

Quality

Latency p50

Test runs

0

Multimodal input support added Structured output capabilities enabled Tool calling functions available Prompt caching now supported
Bölüm 10

Tam model profili

Gemini 3.1 Pro Preview Custom Tools — illustration 1
Gemini 3.1 Pro Preview Custom Tools: ajan döngüsü uzmanı

Not — ileriye dönük profil. Gemini 3.1 Pro Preview Custom Tools (gemini-3.1-pro-preview-customtools) bir önizleme anlık görüntüsüdür. Genel kullanıma sunulmadan önce davranış, yetenekler ve hız limitleri değişecektir.

Yapılandırılmış araç entegrasyonuna yoğun şekilde dayanan iş yükleri için tasarlanmış, 3.1 Pro Preview'un özelleştirilmiş bir varyantı. 1.048.576 token'lık bir bağlam penceresi. Metin artı görsel girişi. Temel 3.1 Pro Preview ile aynı altta yatan yetenek yüzeyi, artı üretim ajan döngüleri için ayarlanmış gelişmiş araç kullanım davranışı.

Üst düzey bir Gemini modeli üzerinde bir ajan sistemi inşa ettiyseniz ve kendinizi araç çağrısı çıktısı etrafında savunma amaçlı ayrıştırma katmanları yazarken bulduysanız, bu varyant sizin durumunuz için tasarlanmıştır.

"Custom Tools" gerçekte ne ekliyor

Custom Tools varyantı, araç entegrasyonu için özel eğitim ve çıkarım zamanı ayarlaması yapılmış aynı altta yatan modeldir. Temel 3.1 Pro Preview'dan farkları şu noktalarda ortaya çıkar:

  • Karmaşık şemalar altında daha güvenilir araç çağrısı yükleri. Temel 3.1 Pro Preview burada zaten güçlüdür; Custom Tools varyantı daha da güçlüdür.
  • Modelin bir araçtan gelen çıktıyı yorumlaması ve sonraki hangi aracı çağıracağına karar vermesi gereken uzun araç sonucu zincirlerinin daha iyi işlenmesi.
  • Bir araç beklenmedik bir sonuç döndürdüğünde veya tamamen başarısız olduğunda daha temiz hata kurtarma. Model, başarısızlık modunu tanıma ve ya ayarlama ile yeniden deneme ya da temiz bir şekilde yükselme olasılığı daha yüksektir.
  • Araç kullanım politikalarına daha iyi uyum — araçları ne zaman çağıracağı, kullanıcıya ne zaman soracağı, ne zaman reddedeceği, ne zaman erteleyeceği hakkındaki talimatlar.
  • Ajan birden fazla araç seçeneği arasında karar verirken daha tutarlı muhakeme görünürlüğü.

Temel 3.1 Pro Preview çoğu iş yükünü kapsar. Custom Tools varyantı, ajan döngüsü güvenilirliğindeki marjinal iyileştirmenin özelleştirilmiş modeli haklı çıkaracak kadar önemli olduğu iş yükleri içindir.

Neyi iyi yapıyor

Altta yatan 3.1 Pro Preview güçlü yönlerini miras alır. Derinlikte tutan dikkat kalitesi ile 1M bağlam penceresi. Güçlü çok modlu işleme. Üst düzey muhakeme derinliği. Yerel görsel girişi.

Bunun üzerine, araç kullanım cilası. Daha önce savunma amaçlı ayrıştırma katmanları, yeniden deneme donanımları veya dikkatli şema mühendisliği gerektiren üretim ajan döngüleri, bu varyant üzerinde genellikle kutunun dışından daha temiz bir şekilde çalışma eğilimindedir.

Gecikme profili temel 3.1 Pro Preview'a benzerdir. Custom Tools ayarlaması anlamlı bir gecikme ek yükü eklemez.

Neyi kötü yapıyor

Önizleme katmanı değerlendirmeleri geçerlidir. Hız limitleri, bölgesel kullanılabilirlik ve belirli davranışlar genel kullanıma sunulmadan önce değişebilir.

Araç entegrasyonuna yoğun şekilde dayanmayan iş yükleri için, Custom Tools varyantı temel 3.1 Pro Preview'a göre marjinal değer sağlar. Özelleştirilmiş ayarlama, araç ağırlıklı iş yükleri için tasarlanmıştır; sohbet şeklindeki veya çıkarım şeklindeki kullanım durumları için, temel varyant doğru başlangıç noktasıdır.

Pro katmanındaki çağrı başına maliyet anlamlıdır. Yüksek hacimli ajan döngüleri için, maliyet durumu güvenilirlik iyileştirmelerinin ölçekte harcamayı dengeleyip dengelemediğine bağlıdır.

Kendi sunucunuzda dağıtım mevcut değildir. Google, Gemini ağırlıklarını göndermez.

Nerede parlıyor

Custom Tools varyantının özelleştirilmiş konumlandırmasını hak ettiği birkaç iş yükü:

  • Görev başına birçok araç çağrısını düzenleyen ve zincir boyunca yüksek güvenilirlik gerektiren üretim ajan döngüleri.
  • Baskı altında şema uyumunun önemli olduğu, derinden iç içe geçmiş şemalara sahip karmaşık araç ekosistemleri.
  • Araç çıktılarının kendisinin karmaşık olduğu ve modelin sonraki adımı kararlaştırmak için bunları dikkatle yorumlaması gereken iş akışları.
  • Araçları ne zaman çağıracağı, ne zaman erteleyeceği, ne zaman yükselteceği konusunda katı araç kullanım politikalarına sahip ajan sistemleri — bu politikalara uyumun operasyonel tasarım için önemli olduğu durumlar.
  • Bir ajan döngüsü başarısızlığının maliyetinin, marjinal güvenilirlik iyileştirmesini özelleştirilmiş modeli haklı çıkaracak kadar yüksek olduğu kullanım durumları.

Nerede yanlış araç

Araçları yoğun şekilde kullanmayan iş yükleri. Temel 3.1 Pro Preview doğru başlangıç noktasıdır — aynı model yüzeyi, daha geniş uygulanabilirlik.

Bugün kararlı davranışa ihtiyaç duyan üretim iş yükleri. Temel 2.5 Pro, çoğu iş yükü için araç kullanımını sağlam bir şekilde kapsar; önizleme katmanındaki Custom Tools varyantı, üretime kritik ajan döngüleri için henüz doğru tercih değildir.

Yüksek hacimli ucuz sınıflandırma veya kısa istem işi. Üst düzey hesaplama, hangi varyant olursa olsun bu iş yükleri için yanlış şekilli bir harcamadır.

Metin artı görsel girişi dışındaki herhangi bir şey. Ses, işitsel, video farklı model aileleridir.

Alternatiflere kıyasla nasıl

Temel 3.1 Pro Preview'a karşı. Custom Tools varyantı, araç ağırlıklı iş yükleri için araç kullanım güvenilirliğinde marjinal bir iyileştirmedir. Araç ağırlıklı olmayan işler için, temel varyant doğru tercihtir.

Özel araç kullanım istem mühendisliği ile 2.5 Pro'ya karşı. 2.5 Pro'nun araç kullanım davranışı etrafında dikkatli istem mühendisliği ve savunma amaçlı ayrıştırmaya zaten yatırım yaptığınız iş yükleri için, geçiş matematiği Custom Tools varyantının çevredeki mimariyi anlamlı şekilde basitleştirmenize izin verip vermediğine bağlıdır.

Araç kullanımı etkinleştirilmiş Claude Opus'a karşı. Opus'un Anthropic tarzı reddetme duruşu ile kendi güçlü araç kullanım davranışı vardır. Opus tarzı dikkatli muhakemenin daha iyi uyduğu iş yükleri için, bu doğru tercihtir. Gemini'nin daha hızlı, daha doğrudan çıktısının daha iyi uyduğu iş yükleri için, Custom Tools varyantı daha ajan döngüsü odaklı seçimdir.

Yapılandırılmış çıktılar ve fonksiyon çağrısı ile OpenAI üst düzeyine karşı. Her iki ekosistem de araç kullanım güvenilirliğine yoğun yatırım yapmıştır. Seçim genellikle ham yeteneğe değil ekosistem uyumuna indirgenir.

Kategori düzeyindeki resim /benchmarks/leaderboard adresinde yer alır.

Pratik desenler

Custom Tools varyantı üzerine inşa etmeden önce bilmeye değer birkaç şey:

  • Şema tasarımı, model seçimi kadar önemlidir. Güçlü bir araç kullanım modeli bile, açık alan belgelendirmesi ile net, iyi tiplendirilmiş şemalardan faydalanır.
  • Sistem istemindeki araç açıklamaları gerçek ağırlık taşır. Belirsiz açıklamalar tutarsız araç seçimi üretir; örneklerle spesifik açıklamalar daha güvenilir davranış üretir.
  • Uzun ajan döngüleri hala açık adım sayaçları ve sıfırlama mekanizmalarından faydalanır. Güçlü modeller bile ara sıra yeniden deneme döngülerinde takılır; bunun için inşa edin.
  • Model, araç başarısızlıklarını temel varyanttan daha zarif bir şekilde işler, ancak aşağı akış sistemleri yine de ara sıra yanlış araç seçimleri beklemelidir. Önemli olan yerlerde doğrulama oluşturun.
  • Araç kullanımını görsel veya uzun bağlam muhakemesi ile karıştıran iş yükleri için, Custom Tools varyantı her iki boyutta da altta yatan 3.1 Pro Preview güçlü yönlerini miras alır.

Dağıtım notları

Standart Google Gemini API. Custom Tools varyantı, araç entegrasyonu için aynı parametre şekli ile temel 3.1 Pro Preview ile aynı yüzeyi kullanır.

Bölgesel kullanılabilirlik, Google'ın standart Vertex AI desenini takip eder. AB bölgeleri kurumsal sözleşmelerde mevcuttur. Kutusundan çıkan tüketici API erişimi bir bölgeyi sabitlemiyor.

Önizleme katmanı fiyatlandırması, uzun vadeli maliyet modellemesi için temel olmamalıdır. Genel kullanımdaki fiyatlandırma yapısı, önizleme katmanı oranlarından farklı olabilir.

Üretim geçiş planlaması için, Custom Tools davranışını belirli araç ekosisteминize karşı doğrulayın. Temel varyanta göre iyileştirmeler, araç ağırlıklı iş yüklerinde en açık şekilde ortaya çıkar; doğrulama bu spesifik senaryoları test etmelidir.

Seçmek

Gemini 3.1 Pro Preview Custom Tools'u şu durumlarda kullanın:

  • İş yükü, yoğun araç entegrasyonu olan bir üretim ajan döngüsüdür.
  • Temel 3.1 Pro Preview'un araç kullanım davranışı iyidir ancak marjinal güvenilirlik iyileştirmesine ihtiyacınız vardır.
  • Önizleme katmanı hız limitleri ve davranış değerlendirmeleri kabul edilebilirdir.
  • Ajan döngüsü başarısızlıklarının maliyeti, özelleştirilmiş modeli haklı çıkaracak kadar yüksektir.

Şu durumlarda başka bir şey seçin:

  • İş yükü araç entegrasyonuna yoğun şekilde dayanmıyor. Temel 3.1 Pro Preview'u kullanın.
  • Bugün üretim açısından kararlı davranışa ihtiyacınız var. Dikkatli araç kullanım istemi ile 2.5 Pro'yu kullanın.
  • İş yükü ölçekte maliyet duyarlıdır. Bir Flash varyantına geçin.
  • Kendi sunucunuzda barındırılan veya ince ayarlı dağıtıma ihtiyacınız var.

Özet. Araç ağırlıklı ajan iş yükleri için 3.1 Pro Preview'un özelleştirilmiş varyantı. Uzmanlaşmanın önemli olduğu belirli iş yükleri için, doğru tercihtir. Diğer her şey için, temel 3.1 Pro Preview veya 2.5 Pro daha iyi bir başlangıç noktasıdır.

Kendi ajan döngünüze karşı /live-test adresinde test edin. Farklar, sentetik kriterlere göre gerçek araç kullanım senaryolarında en açık şekilde ortaya çıkar.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Gemini 3.1 Pro Preview Custom Tools — illustration 2
Son otomatik test
14 Haz 2026 · 05:02 UTC · Test
P50 gecikme
6069 ms
P95 gecikme
Hatalar
0 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·26 Mayıs 2026