Naar inhoud
Tier C — Specialist
Draait in:USGemaakt in:United States
Google Gemini

Gemini 3.1 Pro Preview Custom Tools

Tier C — Specialist · 1.048576M tokens

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

Gemini 3.1 Pro Preview Custom Tools is een experimentele versie van Google's Gemini 3.1 Pro model die uitgebreide mogelijkheden voor tool-gebruik integreert. Deze variant is ontworpen voor ontwikkelaars en onderzoekers die geavanceerde functie-aanroepen en externe tool-integratie binnen large language model applicaties verkennen. Het stelt het model in staat om te interageren met aangepaste API's, databases en externe diensten via een gestructureerde tool-aanroep interface, waardoor het geschikt is voor het bouwen van complexe AI-agenten en workflow-automatiseringssystemen. Het model beschikt over een contextvenster van ongeveer 1,048 miljoen tokens, waardoor het extreem lange gesprekken, documenten of meerstapsredeneerketens kan verwerken en behouden. Deze uitgebreide contextcapaciteit is bijzonder waardevol voor applicaties die analyse van langdurige codebases, uitgebreide documentbeoordeling of verlengde dialoogsessies vereisen. Het model biedt standaard tekstgeneratiemogelijkheden naast zijn verbeterde tool-gebruik functionaliteit, en ondersteunt zowel conversationele AI-applicaties als taakgerichte implementaties die externe datatoegang of actie-uitvoering vereisen. Binnen Google's modelaanbod staat deze variant als een gespecialiseerde preview-release van de Gemini 3.1 Pro tier, gepositioneerd tussen standaard productiemodellen en geavanceerde experimentele releases. Het biedt ontwikkelaars vroege toegang tot Google's evoluerende tool-gebruik architectuur, terwijl het de kern redeneringen generatiemogelijkheden van de Gemini 3.1 Pro basis behoudt. De "Preview" aanduiding geeft aan dat dit een pre-release versie is bedoeld voor testen en feedback in plaats van productie-implementatie.

Gemini 3.1 Pro Preview Custom Tools is geoptimaliseerd voor snelheid en kostenefficiëntie bij hoge verwerkingsvolumes.

Tokonomix benchmark-samenvatting
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency14 runs
109741807263103451342805-2705-31ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

43
Code generatie
27
Meertaligheid
45
Redeneren
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Gemini 3.1 Pro Preview Custom Tools
$2.00 per 1M input-tokens
$12.00 per 1M output-tokens
≈ $0.0036 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$2.00
per 1M output-tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)156 / avg 140
18189

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Extreem snelle responstijdenLage kosten per queryHoog volume verwerkenGeschikt voor edge-toepassingenEenvoudige API-integratieMeertalige basisfunctionaliteit

Zwakke punten

Beperkter redeneer-vermogenMinder gedetailleerde analysesSlechter bij complexe opdrachtenKleiner contextvenster dan groot model
Sectie 06

Mogelijkheden

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaprompt cachingoutputTokenLimit: 65536max output tokens: 65536
Sectie 07

Veelgestelde vragen

Gemini 3.1 Pro Preview Custom Tools is ideaal voor hoog-volume toepassingen zoals classificatie, samenvatting, eenvoudige Q&A en chatbot-basisrespons waar snelheid en kosten prioriteit hebben.

De slimme keuze voor schaalbare toepassingen waarbij elke milliseconde en cent telt.

Tokonomix benchmark-samenvatting
Sectie 08

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 09

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-545/100 · 76 runs
29 correct7 partial40 wrong38% accuracy
2026-06-14

New model debuts with extensive multimodal capabilities

Gemini 3.1 Pro Preview Custom Tools enters benchmarking with a comprehensive feature set spanning multiple input modalities and output formats. The model supports tools, vision, audio input, PDF processing, and structured output through both JSON mode and JSON schema capabilities. Reasoning and prompt caching features are also available. Without previous benchmark data for comparison, this represents the model's initial capability profile rather than performance changes. Users gain access to a versatile multimodal system that handles diverse input types including text, images, audio, and documents. The custom tools designation suggests enhanced function calling capabilities for agentic workflows. The preview status indicates this is a pre-release version that may undergo further refinement. As this is the first benchmark window with data, performance characteristics across these capabilities remain to be validated through continued testing. Organizations evaluating this model should conduct their own assessments for specific use cases, particularly given its preview nature. Future benchmark windows will establish performance trends and stability metrics across the newly available feature set.

Quality

Latency p50

Test runs

0

Multimodal input support added Structured output capabilities enabled Tool calling functions available Prompt caching now supported
Sectie 10

Volledig modelprofiel

Gemini 3.1 Pro Preview Custom Tools — illustration 1
Gemini 3.1 Pro Preview Custom Tools: de agent-lus specialist

Let op — vooruitblikkend profiel. Gemini 3.1 Pro Preview Custom Tools (gemini-3.1-pro-preview-customtools) is een preview-snapshot. Gedrag, mogelijkheden en rate limits veranderen vóór algemene beschikbaarheid.

Een gespecialiseerde variant van de 3.1 Pro Preview gebouwd voor workloads die sterk leunen op gestructureerde tool-integratie. Een context window van 1.048.576 tokens. Tekst- én vision-input. Hetzelfde onderliggende mogelijkhedenoppervlak als de basis 3.1 Pro Preview, plus verbeterd tool-use-gedrag afgestemd voor productie-agent-lussen.

Als je een agent-systeem hebt gebouwd bovenop een top-tier Gemini-model en je hebt gemerkt dat je defensieve parsinglagen schrijft rondom tool-call-output, is deze variant gebouwd voor jouw situatie.

Wat "Custom Tools" werkelijk toevoegt

De Custom Tools-variant is hetzelfde onderliggende model met specifieke training en inferentie-tijdafstemming voor tool-integratie. De verschillen met de basis 3.1 Pro Preview zien er zo uit:

  • Betrouwbaardere tool-call-payloads onder complexe schema's. De basis 3.1 Pro Preview is al sterk hier; de Custom Tools-variant is sterker.
  • Betere verwerking van lange tool-resultatenketens waarbij het model output van één tool moet interpreteren om te beslissen welke tool daarna aan te roepen.
  • Schonere foutherstel als een tool een onverwacht resultaat teruggeeft of volledig faalt.
  • Verbeterde adherentie aan tool-use-beleid — instructies over wanneer tools aan te roepen, wanneer de gebruiker te vragen, wanneer te weigeren.
  • Consistentere zichtbaarheid van redenering wanneer de agent beslist tussen meerdere tool-opties.

De basis 3.1 Pro Preview dekt de meeste workloads. De Custom Tools-variant is voor workloads waarbij de marginale verbetering in agent-lus-betrouwbaarheid genoeg waarde heeft om het gespecialiseerde model te rechtvaardigen.

Wat het goed doet

Erft de onderliggende 3.1 Pro Preview-sterktes. Het 1M context window met aandachtskwaliteit die op diepte standhoudt. Sterke multimodale verwerking. Top-tier redeneerdiepte. Native vision-input.

Daarboven de tool-use-polish. Productie-agent-lussen die eerder defensieve parsinglagen, retry-harnesses of zorgvuldige schema-engineering vereisten werken doorgaans schoner out-of-the-box op deze variant.

Het latency-profiel is vergelijkbaar met de basis 3.1 Pro Preview. De Custom Tools-afstemming voegt geen betekenisvolle latency-overhead toe.

Wat het slecht doet

Preview-tier-overwegingen gelden. Rate limits, regionale beschikbaarheid en specifiek gedrag kunnen verschuiven.

Voor workloads die niet sterk op tool-integratie leunen, levert de Custom Tools-variant marginale meerwaarde ten opzichte van de basis 3.1 Pro Preview. De gespecialiseerde afstemming is gebouwd voor tool-zware workloads; voor chat-achtige of extractie-achtige use cases is de basisvariant het juiste startpunt.

Kosten-per-call op de Pro-tier zijn betekenisvol. Voor hoogvolume-agent-lussen hangt de kostencase af van of de betrouwbaarheidsverbeteringen de uitgave bij schaal compenseren.

Self-hosted deployment is niet beschikbaar. Google levert geen Gemini-weights.

Waar het uitblinkt

Workloads waarbij de Custom Tools-variant zijn gespecialiseerde positionering verdient:

  • Productie-agent-lussen die veel tool-calls per taak orchestreren en hoge betrouwbaarheid over de keten nodig hebben.
  • Complexe tool-ecosystemen met diep geneste schema's waarbij schema-adherentie onder druk telt.
  • Workflows waarbij tool-outputs zelf complex zijn en het model ze zorgvuldig moet interpreteren om te beslissen wat te doen.
  • Agent-systemen met strikte tool-use-beleidsregels — wanneer tools aan te roepen, wanneer te escaleren — waarbij adherentie aan die beleidsregels het operationele ontwerp bepaalt.
  • Use cases waarbij de kosten van een agent-lus-faling hoog genoeg zijn dat de marginale betrouwbaarheidsverbetering het gespecialiseerde model rechtvaardigt.

Wanneer het het verkeerde gereedschap is

Workloads die niet sterk op tools leunen. De basis 3.1 Pro Preview is het juiste startpunt — zelfde modeloppervlak, bredere toepasbaarheid.

Productie-workloads die vandaag stabiel gedrag nodig hebben. De basis 2.5 Pro dekt tool-use solide voor de meeste workloads.

Hoogvolume goedkope classificatie of korte-prompt-werk. Top-tier compute is de verkeerde kostvorm voor deze workloads.

Alles buiten tekst-plus-vision-input. Voice, audio, video zijn andere modelfamilies.

Vergelijking met alternatieven

Vergeleken met de basis 3.1 Pro Preview: marginale verbetering op tool-use-betrouwbaarheid voor tool-zware workloads. Voor niet-tool-zwaar werk is de basisvariant de juiste keuze.

Vergeleken met 2.5 Pro met aangepast tool-use-prompting: voor workloads waarbij je al geïnvesteerd hebt in zorgvuldige prompt-engineering en defensieve parsing rondom 2.5 Pro's tool-use-gedrag, hangt de migratierekensom af van of de Custom Tools-variant die omringende architectuur betekenisvol vereenvoudigt.

Vergeleken met Claude Opus met tool-use ingeschakeld: Opus heeft zijn eigen sterke tool-use-gedrag met de Anthropic-stijl weigerhouding. Voor workloads waarbij Opus-stijl zorgvuldige redenering beter past, is dat de juiste keuze. Voor workloads waarbij Gemini's snellere, directere output beter past, is de Custom Tools-variant de meer agent-lus-georiënteerde keuze.

Praktische patronen

Dingen de moeite waard om te weten voor je op de Custom Tools-variant bouwt:

  • Schema-ontwerp telt net zo hard als modelkeuze. Zelfs een sterk tool-use-model profiteert van duidelijke, goed-getypte schema's met expliciete velddocumentatie.
  • Tool-beschrijvingen in de system prompt hebben echte invloed. Vage beschrijvingen produceren inconsistente tool-selectie; specifieke beschrijvingen met voorbeelden produceren betrouwbaarder gedrag.
  • Lange agent-lussen profiteren nog steeds van expliciete staptellers en reset-mechanismen.
  • Het model verwerkt tool-fouten gracieuzer dan de basisvariant, maar downstream-systemen moeten nog steeds occasionele onjuiste tool-selecties verwachten.
  • Voor workloads die tool-use mixen met vision of langcontextredenering, erft de Custom Tools-variant de onderliggende 3.1 Pro Preview-sterktes op beide dimensies.

Deployment

Standaard Google Gemini API. De Custom Tools-variant gebruikt hetzelfde surface als de basis 3.1 Pro Preview, met dezelfde parameterstructuur voor tool-integratie.

Regionale beschikbaarheid volgt het standaard Vertex AI-patroon van Google. EU-regio's zijn beschikbaar op enterprise-contracten.

Valideer voor productie-migratieplanning het Custom Tools-gedrag tegen je specifieke tool-ecosysteem. De verbeteringen ten opzichte van de basisvariant zijn het meest zichtbaar in tool-zware workloads.

Wanneer je het kiest

Kies Gemini 3.1 Pro Preview Custom Tools als:

  • De workload een productie-agent-lus is met zware tool-integratie.
  • De basis 3.1 Pro Preview's tool-use-gedrag goed is maar je de marginale betrouwbaarheidsverbetering nodig hebt.
  • Preview-tier rate limits en gedragsoverwegingen acceptabel zijn.
  • De kosten van agent-lus-falingen hoog genoeg zijn om het gespecialiseerde model te rechtvaardigen.

Kies iets anders als:

  • De workload niet sterk op tool-integratie leunt. Gebruik de basis 3.1 Pro Preview.
  • Je vandaag productie-stabiel gedrag nodig hebt. Gebruik 2.5 Pro.
  • De workload kostgevoelig is bij schaal. Stap af naar een Flash-variant.
  • Je self-hosted of fine-tuned deployment nodig hebt.

Samenvatting: gespecialiseerde variant van 3.1 Pro Preview voor tool-zware agent-workloads. Voor de specifieke workloads waarbij de specialisatie ertoe doet, is het de juiste keuze. Voor al het andere is de basis 3.1 Pro Preview of 2.5 Pro het betere startpunt.

Test het op je eigen agent-lus op /live-test. De delta's zijn het duidelijkst in echte tool-use-scenario's.

Laatste technische beoordeling: 2026-05-22 — Tokonomix.ai

Gemini 3.1 Pro Preview Custom Tools — illustration 2
Laatste automatische test
14 jun 2026 · 05:02 UTC · Benchmark
P50 latency
6069 ms
P95 latency
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·24 mei 2026