Naar inhoud
Tier C — Specialist
Draait in:USGemaakt in:United States
Google Gemini

Gemini 3.1 Pro Preview

Tier C — Specialist · 1.048576M tokens

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

Gemini 3.1 Pro Preview is een groot taalmodel ontwikkeld door Google als onderdeel van de Gemini-modelfamilie. Dit model vertegenwoordigt een experimentele preview-release in de 3.1-generatie, gepositioneerd tussen Google's standaard productiemodellen en geavanceerde onderzoeksvarianten. Het is ontworpen voor algemene tekstgeneratietaken, waaronder natuurlijk taalbegrip, redeneren, contentcreatie en conversationele toepassingen. Het meest opvallende technische kenmerk van het model is het contextvenster van 1.048.576 tokens, wat neerkomt op ongeveer een miljoen tokens aan verwerkingscapaciteit. Deze uitgebreide contextlengte stelt het model in staat om aanzienlijke hoeveelheden informatie in een enkele interactie te verwerken, waardoor het geschikt is voor taken met lange documenten, uitgebreide codebases of gesprekken die significant historisch context vereisen. Het model biedt standaard tekstgeneratiecapaciteiten zonder multimodale functies zoals beeldverwerking of function calling. Binnen Google's modelaanbod fungeert Gemini 3.1 Pro Preview als een tussenliggend aanbod waarmee ontwikkelaars en onderzoekers nieuwere mogelijkheden kunnen testen voordat deze algemeen beschikbaar komen. Als preview-release kan het andere prestatiekenmerken vertonen dan stabiele productiemodellen en kan het onderhevig zijn aan wijzigingen of verbeteringen op basis van gebruikersfeedback. Het model is bedoeld voor gebruikers die grote contextvensters nodig hebben voor tekstgebaseerde toepassingen en bereid zijn om te werken met preview-technologie.

Gemini 3.1 Pro Preview biedt ontwikkelaars toegang tot experimentele mogelijkheden uit Google's nieuwste generatie, met een uitzonderlijk groot contextvenster van ruim een miljoen tokens.

Tokonomix modelanalyse
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency14 runs
1188277243575941752505-2705-31ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

50
Code generatie
29
Meertaligheid
15
Redeneren
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Gemini 3.1 Pro Preview
$2.00 per 1M input-tokens
$12.00 per 1M output-tokens
≈ $0.0036 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$2.00
per 1M output-tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)132 / avg 127
16795

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Contextvenster van 1 miljoen tokensExperimentele preview-functionaliteitGeschikt voor lange documentenUitgebreide conversatiegeschiedenisAnalyse van grote codebasesGeavanceerde tekstverwerkingDeel van Google's modelecosysteemToegang tot nieuwste innovaties

Zwakke punten

Preview-status, mogelijk instabielGeen multimodale mogelijkhedenGeen function calling beschikbaarTier C performance
Sectie 06

Mogelijkheden

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaprompt cachingoutputTokenLimit: 65536max output tokens: 65536
Sectie 07

Veelgestelde vragen

Als preview-release kan het model nog veranderen op basis van feedback en is de stabiliteit mogelijk lager dan bij productiemodellen. Google kan het gedrag, de prestaties of beschikbaarheid aanpassen zonder voorafgaande waarschuwing. Het is geschikt voor experimenteren en testen, maar productiekritische toepassingen verdienen extra aandacht.

Voor teams die bereid zijn te werken met preview-software krijgen ze toegang tot een van de grootste contextvensters op de markt, al ontbreken multimodale functies die inmiddels standaard worden bij vergelijkbare modellen.

Tokonomix redactie
Sectie 08

Beschikbaarheid

Beschikbaarheid

Hoe vaak dit model antwoordt als we het aanroepen — gemeten over echte API-aanvragen en live-tests in de afgelopen 30 dagen. Dit staat los van kwaliteit: deze cijfers laten alleen zien of het model reageert, niet hoe goed het antwoord is.

Afgelopen 7 dagen

100.0%

n=1

Afgelopen 30 dagen

100.0%

n=1

Mediane responstijd

16,761ms

n=1

Gebaseerd op 6 metingen in de afgelopen 30 dagen.

Technische details

Alleen echte API-aanroepen en live-testverzoeken tellen mee — interne probes en benchmarkruns zijn uitgesloten.

Aanroepen met een eigen API-sleutel (BYOK) zijn uitgesloten: die fouten zijn sleutelspecifiek en geen teken van modelneergang.

Mislukte aanroepen worden NIET meegeteld in kwaliteitsscores — kwaliteit wordt gemeten op geslaagde responses. Beschikbaarheid en kwaliteit zijn onafhankelijke signalen.

Mediane responstijd (p50) over geslaagde aanroepen met een vastgelegde duur. Uitschieters trekken de mediaan minder dan het gemiddelde.

Totaal aanroepen (30d)

1

OK-reacties (30d)

1

Totaal aanroepen (7d)

1

OK-reacties (7d)

1

Sectie 09

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-548/100 · 76 runs
30 correct8 partial38 wrong39% accuracy
2026-06-14

Gemini 3.1 Pro Preview adds multimodal capabilities without benchmarks

Gemini 3.1 Pro Preview has undergone a significant expansion in capabilities since the previous evaluation period. The model now supports a comprehensive suite of features including vision, audio input, PDF processing, reasoning modes, and structured output formats through both JSON mode and JSON schema. Tool calling and prompt caching have also been added to the platform's feature set. However, no benchmark performance data is available for either the current or previous evaluation windows, making it impossible to assess the model's actual performance on standard tasks or compare quality metrics across time. The addition of multimodal inputs represents a substantial architectural evolution, positioning the model to handle diverse use cases from document analysis to audio processing. Users should note that while the capability expansion is impressive on paper, the absence of benchmark results means performance characteristics remain unvalidated. For production deployments, organizations will need to conduct their own evaluations to understand how these new capabilities perform in practice and whether quality has been maintained, improved, or degraded during this significant feature expansion.

Quality

Latency p50

Test runs

0

Vision and audio input added PDF processing now supported Structured output modes available No benchmark data available
Sectie 10

Volledig modelprofiel

Gemini 3.1 Pro Preview — illustration 1
Gemini 3.1 Pro Preview: de top-tier van de volgende generatie

Let op — vooruitkijkend profiel. Gemini 3.1 Pro Preview (gemini-3.1-pro-preview) is een preview-snapshot. Gedrag, mogelijkheden en rate limits zullen veranderen vóór de algemene beschikbaarheid.

De top-tier inzending van de volgende generatie binnen Google's Gemini-familie. Een contextvenster van 1.048.576 tokens. Input bestaande uit tekst plus visie. Redeneerdiepte die de Pro-lijn vooruit duwt ten opzichte van de 2.5 Pro-generatie, terwijl het architectonische oppervlak waarop productieteams hebben gebouwd intact blijft.

De framing die bij deze preview past. 3.1 Pro is waar je naar grijpt wanneer 2.5 Pro het productiemodel is dat je vertrouwt, maar je een specifieke workload hebt waar kwaliteit de beperkende factor is geweest. De 3.1-generatie dicht een deel van die kloof. Of het dichten van die kloof migratie weg van een werkende 2.5 Pro-deployment rechtvaardigt, hangt af van jouw specifieke situatie.

Wat veranderde ten opzichte van 2.5 Pro

De 3.1 Pro-generatie levert verschillende verbeteringen op ten opzichte van 2.5 Pro:

  • Scherper redeneren bij meerstappen-taken. De gedachteketens blijven coherent tot dieper in de diepte, en het model verliest minder vaak het overzicht over tussenliggende randvoorwaarden in complexe problemen.
  • Betere attention-kwaliteit op diepte in lange contexten. Het 1M-venster was bruikbaar op 2.5 Pro; op 3.1 Pro is de synthesekwaliteit voorbij 400k tokens aan input merkbaar strakker.
  • Verbeterde naleving van structured-output op complexe geneste schema's. Payloads voor tool-use-aanroepen zijn betrouwbaarder.
  • Sterkere visie-kwaliteit op dichte documenten en complexe grafieken.
  • Een consistentere weigeringshouding met redenering die voldoende zichtbaar is om een false positive te kunnen debuggen.

Geen van deze punten is op zichzelf transformatief. Het samengestelde effect is een top-tier die meer doet van wat een top-tier zou moeten doen.

Wat het goed doet

De headline-combinatie blijft dezelfde als bij 2.5 Pro: een contextvenster van een miljoen tokens met attention-kwaliteit die standhoudt op diepte. De 3.1-generatie duwt beide dimensies vooruit.

Meerstappen-redenering is de meest zichtbare verbetering. Taken die 2.5 Pro aankon met zorgvuldige prompt engineering werken nu met eenvoudigere prompts. Taken die 2.5 Pro niet consistent kon landen leveren nu betrouwbaardere output.

De visie-kwaliteit is verbeterd ten opzichte van 2.5 Pro. Documentschermafbeeldingen, gescande PDF's, dashboardopnames, grafieken, diagrammen — worden met meer zorg behandeld op dichte of complexe bronnen. Tabelextractie is betrouwbaarder. Grafiekbeschrijvingen bevatten nauwkeurigere schattingen van orde van grootte.

De betrouwbaarheid van tool-use is sterk genoeg om productiewaardige agent-loops te bouwen zonder defensieve parsing te hoeven schrijven. De verbetering ten opzichte van 2.5 Pro is incrementeel in plaats van transformatief, maar op schaal telt het mee.

Wat het slecht doet

Overwegingen op preview-niveau zijn van toepassing. Rate limits, regionale beschikbaarheid en specifiek gedrag kunnen verschuiven vóór de algemene beschikbaarheid. Voor productieworkloads die vandaag stabiel gedrag nodig hebben, blijft 2.5 Pro de conservatievere keuze.

Latency op het Pro-niveau ligt hoger dan op de Flash-niveaus, zoals te verwachten. De 3.1-generatie verandert niets aan die fundamentele afweging; je betaalt voor redeneerdiepte in wall-clock-tijd.

De kostprijs per aanroep op het Pro-niveau is aanzienlijk. Voor workloads met hoog volume hangt de zaak om op Pro te blijven af van de vraag of jouw workload daadwerkelijk de top-tier-kwaliteit nodig heeft. Doorschakelen naar een Flash-variant is vaak de juiste keuze voor kostengevoelige use cases.

Self-hosted deployment staat niet op het menu. Google levert de Gemini-gewichten niet uit. Voor workloads die on-prem moeten draaien, is de open-weight survey op /usecases/local het juiste startpunt.

Hoe het zich verhoudt tot het veld

Tegenover eerdere Pro-snapshots — 2.5 Pro. De 3.1-preview is de natuurlijke upgrade voor nieuwe builds waarbij preview-niveau-gedrag acceptabel is. Voor bestaande productiedeployments op 2.5 Pro hangt de migratie-case af van de vraag of de verbeteringen ertoe doen voor jouw specifieke workload.

Tegenover de 3 Pro Preview-lijn. De 3 Pro Preview is de bredere Pro-tier-aanbieding binnen de 3.x-generatie; 3.1 Pro is een verfijning daarbovenop. Voor workloads die profiteren van de meest recente capaciteiten is 3.1 Pro de actuelere keuze. Voor workloads waarbij het specifieke gedrag van de 3 Pro Preview al gevalideerd is, is de migratie naar 3.1 een kleinere stap dan vanuit 2.5.

Tegenover Anthropic's top-tier. Claude Opus 4.7 biedt hetzelfde 1M-contextvenster met een andere redeneerstijl — voorzichtiger, expliciteter, langzamer. De keuze tussen Opus 4.7 en 3.1 Pro Preview komt neer op de vraag of je voorzichtig Opus-achtig redeneren wilt of snellere Gemini-achtige output met sterke multimodale verwerking.

Tegenover OpenAI's top-tier. GPT-5 concurreert op redenering en is vaak sneller op korte prompts. 3.1 Pro Preview wint op native multimodaliteit voorbij afbeeldingen en op het feit dat het 1M-contextvenster betekenisvol bruikbaar is voor synthese.

Het categoriebreed overzicht staat op /benchmarks/leaderboard en de scores per categorie op /benchmarks/intelligence.

Waar het het verkeerde gereedschap is

Productieworkloads die vandaag stabiel gedrag nodig hebben. Gebruik 2.5 Pro totdat de 3.x-lijn algemene beschikbaarheid bereikt.

Goedkope classificatie op hoog volume. Top-tier-compute is een verkeerd gevormde uitgave voor het versturen van miljoenen korte prompts. Schakel terug naar een Flash-variant.

Real-time spraakgesprekken. Geen native audio-input. De voice-pipeline-gids op /usecases/voice behandelt de juiste architectuur.

Codegeneratie waarbij best-in-class IDE-aansluiting belangrijker is dan redeneerdiepte. Het model is competent op code maar niet gespecialiseerd. De modelsurvey op /usecases/code behandelt de alternatieven.

Alles wat sub-seconde respons nodig heeft op grote inputs. Latency op diepte in het contextvenster is reëel; voor tijdgevoelige toepassingen past een kleiner model met caching mogelijk beter.

Hoe het verschilt van 3.1 Pro Preview Custom Tools

De Custom Tools-variant van 3.1 Pro Preview voegt gespecialiseerde tool-use-capaciteiten toe voor workloads die sterk leunen op gestructureerde tool-integratie. Voor workloads waar het standaard tool-use-gedrag volstaat, is deze basisvariant het juiste startpunt. Voor workloads die de gespecialiseerde tool-integratie nodig hebben, is de Custom Tools-variant de juiste keuze.

Deployment-notities

Standaard Google Gemini API. REST, streaming, tool-use, structured output — alles gedraagt zich zoals verwacht voor het capaciteitsoppervlak op Pro-niveau. De integratie met de bredere Vertex AI-tooling voor monitoring, logging en safety-controls is schoon.

Regionale beschikbaarheid volgt Google's standaard Vertex AI-patroon. EU-regio's zijn beschikbaar op enterprise-contracten. Standaard consumenten-API-toegang fixeert geen regio. Voor harde residency-eisen is de regionale documentatie van Vertex AI de juiste referentie.

Pricing op preview-niveau zou niet de basis moeten zijn voor lange-termijn kostenmodellering. De prijsstructuur bij algemene beschikbaarheid kan afwijken van de preview-tarieven.

Rate limits en gedragsstabiliteit zijn de belangrijkste operationele overwegingen tijdens de preview. Productiemigratieplannen moeten rekening houden met de mogelijkheid van gedragsveranderingen vóór de algemene beschikbaarheid.

Wanneer je ervoor kiest

Grijp naar Gemini 3.1 Pro Preview wanneer:

  • Je top-tier-capaciteiten van de volgende generatie verkent voor toekomstige productiedeployment.
  • De workload werd beperkt door 2.5 Pro op redeneerdiepte of lange-context-synthese.
  • Preview-niveau rate limits en gedragsoverwegingen acceptabel zijn voor jouw verkeersvorm.
  • Je al op de Google-stack zit.

Kies iets anders wanneer:

  • Je vandaag productie-stabiel gedrag nodig hebt. Gebruik 2.5 Pro.
  • De workload adequaat bediend zou worden door een Flash-variant. Schakel terug omwille van de kosten.
  • Het werk audio-native input, real-time voice of video vereist.
  • Je een weigeringsconsistentie nodig hebt die past bij de Anthropic Opus-stijl. Kijk naar Opus.

De samenvatting. Een sterke top-tier-snapshot van de volgende generatie die betekenisvol vooruitgaat ten opzichte van 2.5 Pro. Voor verkenning op preview-niveau en vooruitkijkend ontwerp is het het juiste startpunt. Voor productie-stabiele deployments vandaag blijft 2.5 Pro de conservatieve keuze totdat de 3.x-lijn algemene beschikbaarheid bereikt.

Draai dezelfde prompts door 2.5 Pro en 3.1 Pro Preview op /live-test. De verschillen worden het duidelijkst zichtbaar in directe vergelijking op je eigen workload.

Laatste technische review: 2026-05-22 — Tokonomix.ai

Gemini 3.1 Pro Preview — illustration 2
Laatste automatische test
14 jun 2026 · 04:55 UTC · Benchmark
P50 latency
6937 ms
P95 latency
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·26 mei 2026