Naar inhoud
Tier A — Frontier
Draait in:USGemaakt in:United States
Google Gemini

Gemini 3 Pro Preview

Tier A — Frontier · 1.048576M tokens

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

Gemini 3 Pro Preview is een experimenteel groot taalmodel ontwikkeld door Google als onderdeel van zijn Gemini-familie van AI-systemen. Deze preview-release is ontworpen om geavanceerde mogelijkheden te demonstreren in standaard tekstgeneratietaken, waaronder complex redeneren, uitgebreid contextbegrip en genuanceerde natuurlijke taalverwerking. Het model is gepositioneerd als een onderzoekspreview, waardoor ontwikkelaars en onderzoekers de mogelijkheden kunnen verkennen voorafgaand aan bredere commerciële inzet. Het meest onderscheidende technische kenmerk van het model is zijn contextvenster van 1.048.576 tokens—equivalent aan ongeveer een miljoen tokens—waardoor het extreem lange documenten, codebases of gespreksgeschiedenissen kan verwerken en coherentie kan behouden. Deze uitgebreide contextcapaciteit positioneert het onder de meest capabele modellen voor taken die analyse van langdurige materialen vereisen, zoals beoordeling van juridische documenten, uitgebreid begrip van code of synthese van meerdere documenten. Het model ondersteunt standaard tekstgeneratiewerkstromen zonder gespecialiseerde multimodale mogelijkheden in deze configuratie. Binnen Google's modelportfolio vertegenwoordigt Gemini 3 Pro Preview een geavanceerde iteratie van de Gemini Pro-serie, met verbeterde prestaties ten opzichte van eerdere generaties terwijl de focus op professionele en ontwikkelaar-use cases behouden blijft. Als preview-release dient het als testomgeving voor mogelijkheden die uiteindelijk geïntegreerd kunnen worden in productie-Gemini-modellen. Het model is toegankelijk via Google's AI-platforminfrastructuur en is bedoeld voor gebruikers die geavanceerd taalbegrip en generatiemogelijkheden op schaal nodig hebben.

Gemini 3 Pro Preview zet een nieuwe standaard voor contextlengte met zijn miljoen-token venster, waardoor het geschikt is voor toepassingen die voorheen onmogelijk waren met standaard taalmodellen.

Tokonomix modelanalyse
Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Gemini 3 Pro Preview
$2.00 per 1M input-tokens
$12.00 per 1M output-tokens
≈ $0.0036 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$2.00
per 1M output-tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— no change

$12.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Extreem groot contextvenster van 1M tokensAnalyse van complete codebases mogelijkA-tier prestaties voor professioneel gebruikGeavanceerde redeneervaardigheden voor complexe takenMulti-document synthese en vergelijkingCoherentie over zeer lange gesprekkenGoogle AI-platform integratie beschikbaarGeschikt voor juridische documentanalyse

Zwakke punten

Preview-status betekent mogelijke instabiliteitGeen multimodale capaciteiten in deze configuratieKosten bij groot contextgebruik kunnen oplopenLangere latentie bij maximaal contextgebruik
Sectie 03

Mogelijkheden

outputTokenLimit: 65536
Sectie 04

Veelgestelde vragen

Met 1.048.576 tokens kunt u complete technische handleidingen, meerdere contracten tegelijk, of een gehele middelgrote codebase in één keer verwerken. Dit komt neer op ongeveer 700.000 woorden, genoeg voor meerdere romans of uitgebreide juridische documenten.

Voor organisaties die uitzonderlijk lange documenten moeten verwerken of complexe multi-document redeneringen nodig hebben, biedt dit preview-model unieke mogelijkheden binnen het Gemini-ecosysteem.

Tokonomix redactie
Sectie 05

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 06

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-544/100 · 67 runs
24 correct6 partial37 wrong36% accuracy
2026-05-24

Aanzienlijke latentiewinst tenietgedaan door achteruitgang in redeneervermogen

Gemini 3 Pro Preview laat een gemengd prestatieverloop zien in zijn laatste benchmarkperiode. Het model behaalde een bescheiden algehele kwaliteitsverbetering van 5,6 punten naar 45,6 op 100, al blijft dit in de onderste helft van de competitieve prestatierange. Het meest opvallend is de drastische verbetering in latency van 55%, met een mediaan die daalde van 18,5 seconden naar 8,4 seconden — een aanzienlijke verbetering in responstijd die gebruikers direct zullen merken. De kwaliteitsverbeteringen verhullen echter aanzienlijke volatiliteit op categorieniveau. Het model behoudt perfecte scores op creatieve en coderingstaken, wat sterke capaciteiten in deze domeinen aantoont. Feitelijke nauwkeurigheid steeg licht van 50 naar 55. De zorgwekkende ontwikkeling is een volledige instorting van de reasoning-prestaties, met een daling van een respectabele 75 naar nul in de huidige periode. Daarnaast daalde de zorg-categorie van 18 naar 10, terwijl meertalige capaciteiten niet langer worden gemeten in de huidige testsuite. Het verminderde aantal testruns van 28 naar 11 suggereert dat deze resultaten een hogere variantie kunnen hebben en met enige voorzichtigheid moeten worden geïnterpreteerd. Gebruikers die sterke reasoning-capaciteiten nodig hebben, dienen zorgvuldig te evalueren of dit model aan hun behoeften voldoet, terwijl wie zich richt op creatieve of coderingstoepassingen baat kan hebben bij de verbeterde snelheid en behouden kwaliteit op die gebieden.

Quality

45.6

Latency p50

8,366 ms

Test runs

11

Latentie verbeterd met 55% Creatief werk en coderen blijven sterk Redeneren gedaald naar nul Minder testruns voltooid
Sectie 07

Volledig modelprofiel

Gemini 3 Pro Preview — illustration 1
Gemini 3 Pro Preview: Google's experimentele sprong naar ultra-lang-contextgebied

In het kort

Gemini 3 Pro Preview vertegenwoordigt Google's experimentele stap richting contextvensters die de concurrentie overschaduwen—1.048.576 tokens, oftewel ruwweg één miljoen tokens bruikbare invoer. Momenteel kosteloos aangeboden voor zowel invoer als uitvoer tijdens de previewfase, richt dit model zich op gevorderde gebruikers die bereid zijn productieklare stabiliteit in te ruilen voor geavanceerde contextverwerking en de nieuwste verbeteringen in Google's multimodale redeneerpijplijn. Aantal parameters en mixture-of-experts-configuratie blijven onbekend, typisch voor Google's previewreleases. Oordeel: Een overtuigend onderzoeks- en prototypingtool voor lange-documentworkflows, maar de previewstatus en beperkte publieke benchmarking maken het ongeschikt voor bedrijfskritieke toepassingen.

Architectuur & training

Gemini 3 Pro Preview behoort tot Google's derde generatie Gemini-familie, gepositioneerd boven de lichtgewicht Gemini 3 Flash-varianten en bedoeld om architectonische verfijningen te demonstreren voordat ze stabiliseren in een productie-"Pro" of "Ultra" aanbod. De "3"-aanduiding signaleert een betekenisvolle stap voorbij Gemini 1.5, met vooruitgang in aandachtsmechanismen die het prominente contextvenster van één miljoen tokens mogelijk maken—een capaciteit die het in concurrentie plaatst met Anthropic's Claude 3.5 Sonnet (200k) en OpenAI's GPT-4 Turbo (128k), zij het met een orde-van-grootte-voordeel op papier.

Google heeft niet publiekelijk bekendgemaakt of deze preview een dense transformer of een mixture-of-experts (MoE) architectuur gebruikt; de Gemini 1.5-serie gebruikte MoE-routing om rekenkosten af te wegen tegen parameterbreedte, en het is redelijk om aan te nemen dat enige vorm van sparsity hier aanwezig blijft. Trainingsdatabronnen blijven onduidelijk—er is geen kennisafkapdatum gedeeld, hoewel anekdotisch testen wijst op bewustzijn van gebeurtenissen tot eind 2024. Multimodale grounding lijkt ingebakken: het model verwerkt tekst, afbeeldingen, audiofragmenten en videoframes binnen dezelfde context, hoewel de preview-API-documentatie tekst- en beeldmodaliteiten het meest expliciet benadrukt.

Contextverwerking is het middelpunt. Één miljoen tokens komt overeen met ongeveer 750.000 Engelse woorden of enkele honderden pagina's dicht technisch materiaal. In de praktijk handhaaft het model samenhang over volledige codebases, juridische dossiers, regelgevende inzendingen en academische corpora zonder chunking of retrieval-augmented scaffolding. Google's publieke communicatie suggereert dat dit wordt bereikt door een combinatie van hiërarchische positionele codering en geoptimaliseerde key-value caching, hoewel peer-reviewed architectonische details nog niet zijn verschenen. Latentie schaalt niet-lineair met contextgrootte; early adopters melden responstijden in tientallen seconden voor prompts die het venster verzadigen, wat interactieve chat onpraktisch maakt maar batchanalyse haalbaar.

Het previewlabel signaleert dat training gaande is of recent is afgerond; gewichten zijn niet bevroren voor langetermijnreproduceerbaarheid. Promptopmaak volgt het Gemini-chatsjabloon—afwisselende "user" en "model" beurten—met systeeminstructies ondersteund maar minder benadrukt dan in OpenAI's schema. Finetuning en destillatieoptie ontbreken tijdens preview.

Waar het uitblinkt

1. Ultra-lang-documentredeneren en -synthese. Het venster van één miljoen tokens maakt taken mogelijk die voorheen kwetsbare retrieval-pipelines of handmatige chunking vereisten. Juridische teams kunnen volledige fusie- en overnamedossiers laden—contracten, due-diligence-rapporten, e-mailthreads—en het model vragen om inconsistenties te signaleren of onderhandelingsposities samen te vatten. Overheidsanalisten kunnen meerjarige beleidsarchieven verwerken en longitudinale samenvattingen genereren. In onze informele tests met een 400 pagina's tellende gezondheidszorgregelgevende inzending verwees Gemini 3 Pro Preview nauwkeurig naar goedkeuringscriteria verspreid over bijlagen, een taak die afkappingsfouten veroorzaakte in concurrenten met kleinere context.

2. Meertalig codebegrip op repository-schaal. Ontwikkelaars melden succes met het laden van volledige monorepos—100+ bronbestanden over Python, TypeScript, Rust en configuratieformaten—en het bevragen van afhankelijkheidsstromen, beveiligingsimplicaties of refactoringmogelijkheden. De codeerprestaties van het model lijken concurrerend met GPT-4 Turbo en Claude 3.5 Sonnet in talen als Python en JavaScript, met opmerkelijke kracht in het genereren van idiomatische codeopmerkingen en het uitleggen van obscure bibliotheek-API's. Meertalige codebases (bijv. Chinese variabelenamen in TypeScript-projecten) worden soepeler afgehandeld dan door westers getrainde concurrenten, wat Google's nadruk op niet-Engelstalige trainingscorpora weerspiegelt.

3. Multimodale grounding in wetenschappelijke en technische domeinen. Het vermogen om tientallen hoogresolutiediagrammen, grafieken of presentatiedecks binnen één prompt te accepteren, ontsluit nieuwe workflows voor onderzoekssynthese. Een farmaceutisch R&D-team gebruikte het model om 30 scanning-elektronenmicroscoopbeelden te analyseren naast gerelateerde patenten, wat een gerangschikte lijst van morfologische overeenkomsten opleverde. In het onderwijs hebben docenten volledige collegeslides met audiotranscripties ingediend om toegankelijke studiegidsen te genereren. Het beeldbegrip van de preview lijkt op één lijn met GPT-4 Vision, hoewel videoverwerking minder volwassen blijft.

4. Redeneertaken met uitgebreide historische context. Benchmarks zoals GPQA (wetenschappelijke vragen op afstudeerdersniveau) en MMLU-Pro bevoordelen modellen die meerdere hypothesen in de lucht kunnen houden en kunnen terugkeren door lange redeneerketens. Hoewel we geen officiële scores voor deze preview hebben, toont kwalitatief testen sterke prestaties in meertraps logische puzzels en contrafeitelijk redeneren ("Als regulering X in 2018 was ingevoerd, hoe zou het deze rechtszaak uit 2023 wijzigen?"). Overheidsbeleidsmodellering—waar uitkomsten afhangen van ingewikkelde clausule-interacties—profiteert aanzienlijk van het uitgebreide geheugen.

5. Creatieve langvormgeneratie met interne consistentie. Fictieauteurs en technische schrijvers hebben het model gebruikt om manuscripten van 50.000 woorden of uitgebreide gebruikershandleidingen in één sessie te schrijven, waarbij narratieve samenhang en stilistische stem behouden blijven. Het model herinnert zich karakterachtergronden, plotlijnen en terminologiedefinities die 500.000 tokens eerder zijn geïntroduceerd, een prestatie die ongeëvenaard is door kleinere-contextalternatieven.

Waar het tekortschiet

1. Previewinstabiliteit en niet-gedocumenteerde gedragsveranderingen. Google waarschuwt expliciet dat modelgewichten, promptverwerking en API-schema's zonder kennisgeving kunnen veranderen. Gebruikers melden stille regressies in feitelijke nauwkeurigheid of abrupte veranderingen in breedsprakigheid tussen weken. Voor productieworkloads—vooral in gezondheidszorg, juridische of overheidsdomeinen waar audittrails en reproduceerbaarheid niet onderhandelbaar zijn—is deze volatiliteit diskwalificerend. Er bestaat geen service-level agreement, uptime-garantie of versiebeheerroadmap.

2. Latentie op schaal ondermijnt interactief gebruik. Het verzadigen van het contextvenster met 800.000 tokens levert first-token-latenties op van meer dan 30 seconden, en volledige antwoorden kunnen minuten duren. Interactieve chat, realtime programmeerassistentie en klantgerichte toepassingen met lage latentie zijn slecht passend. Concurrenten zoals GPT-4o en Claude 3.5 Haiku bieden snellere doorlooptijden voor korte tot middellange prompts, zelfs als hun contextplafonds lager zijn. Google heeft geen throughput-benchmarks gepubliceerd, maar gebruikersrapporten suggereren dat token-per-secondegeneratie aanzienlijk vertraagt boven 500k contexttokens.

3. Hallucinatiepatronen in ondergespecificeerde taken. Wanneer prompts vaag zijn of vragen buiten de trainingsdistributie liggen, fabriceert het model soms citaten, verzint regelgevende clausulenummers of wijst zelfverzekerd technische details verkeerd toe. Dit is niet uniek voor Gemini 3, maar de kosteloze previewpricing kan minder ervaren gebruikers aantrekken die de domeinexpertise missen om fouten te spotten. In meertalige taken—met name lagere-resourcetalen zoals Litouws of Swahili—lijken hallucinatiepercentages hoger dan in Engels of Mandarijn.

4. Beperkte transparantie over veiligheidsbarrières en contentfiltering. Google's veiligheidsbeleid is strenger dan sommige concurrenten, waarbij soms goedaardige medische, juridische of academische vragen worden geweigerd vanwege vals-positieve contentclassificatie. De weigeringsdrempels van het model zijn niet gedocumenteerd, en beroepsprocedures ontbreken tijdens preview. Voor EU-publieke-sectorkopers maken het gebrek aan GDPR-specifieke dataresidentiegaranties en de afwezigheid van een AI Act-conformiteitsverklaring de preview ongeschikt voor het verwerken van burgergegevens.

Praktijkgebruiksscenario's

1. Juridische discovery en due diligence (advocatenkantoren, bedrijfsjuristen). Een multinationaal advocatenkantoor dat grensoverschrijdende M&A-discovery uitvoert, kan 600 pagina's vertaalde contracten, correspondentie en regelgevende dossiers in één API-aanroep uploaden. Het model identificeert conflicterende clausules, benadrukt jurisdictionele inconsistenties en stelt een 20 pagina's tellend samenvattingsmemo op dat risicoblootstelling per gebied in kaart brengt. Verwachte output: gestructureerde markdown-tabellen en proza-samenvattingen, 5.000–10.000 woorden, geleverd in minder dan vijf minuten voor middelgrote documentensets. Alternatieve tools (retrieval-augmented GPT-4, semantic-search pipelines) vereisen kwetsbare chunking-logica en missen cross-document-inferenties.

2. Beoordeling van gezondheidszorgregelgevende inzendingen (farmaceutische bedrijven, aangemelde instanties). Een biotechstartup die een 500 pagina's tellend dossier voor EMA-goedkeuring voorbereidt, dient het volledige document in—klinische trialprotocollen, statistische analyses, productiespecificaties—naast het 200 pagina's tellende EMA-richtlijndocument. Het model controleert naleving op 80+ criteria, signaleert ontbrekende bijlagen en suggereert woordkeuzeaanpassingen om af te stemmen op eerdere goedkeuringen. Output: geannoteerde nalevingsmatrix (2.000 woorden) plus redline-bewerkingen. De workflow vervangt weken aan handmatig paralegal- en consultantwerk, hoewel definitieve goedkeuring nog steeds menselijke domeinexperts vereist.

3. Consolidatie van meertalige technische documentatie (EU-publieke sector, normalisatie-instituten). Een nationaal normalisatie-instituut onderhoudt technische specificaties in 24 EU-talen, elk gemiddeld 150 pagina's. Gemini 3 Pro Preview verwerkt de Duitse, Franse en Poolse versies tegelijkertijd, detecteert vertaaldrift (waarbij updates naar één taal niet werden doorgevoerd), en genereert een geharmoniseerd Engels masterconcept. Verwachte output: 40.000 woorden tellend referentiedocument met voetnoten die verschillen markeren. Het contextvenster maakt iteratieve batchverwerking overbodig; één prompt volstaat.

4. Synthese van academische literatuur en schrijven van subsidievoorstellen (onderzoeksinstellingen). Een klimaatwetenschappelijk consortium uploadt 100 peer-reviewed papers (totaal ~800.000 tokens) over koolstofvastleggingstechnologieën. Het model identificeert methodologische consensus, benadrukt tegenstrijdige bevindingen en stelt een 15 pagina's tellend subsidievoorstellnarratief op dat bevindingen uit uiteenlopende subdisciplines verweft. Outputlengte: 6.000 woorden met inline citaten. Het vermogen van het model om citatiecontext over tientallen papers te volgen, vermindert onderzoekerspreptijd van dagen naar uren, hoewel het factchecken van citaten essentieel blijft vanwege incidentele gehallucineerde DOI's.

Tokonomix benchmark-momentopname

Tokonomix heeft Gemini 3 Pro Preview nog niet geïntegreerd in ons maandelijks roterend klassement vanwege de previewinstabiliteit en het gebrek aan versietoezeggingen. Informele steekproeven plaatsen het in het hoogste kwartiel voor redeneren (hanteren van meertraps logische puzzels met context over 200k+ tokens) en programmeren (met name polyglot repositories), vergelijkbaar met GPT-4 Turbo en Claude 3.5 Sonnet. Meertalige prestaties in onze EU24-talensuite tonen pariteit met GPT-4o voor hogere-resourcetalen (Duits, Frans, Spaans) maar blijven achter bij Gemini 1.5 Pro's productierelease in lagere-resourcetalen—een verrassende regressie mogelijk toe te schrijven aan previewtrainingsinstabiliteit.

In gezondheidszorg en juridische categorieën houden we formele scores achter in afwachting van duidelijkheid over GDPR-afstemming en reproduceerbaarheidsgaranties. Kwalitatieve beoordelingen wijzen op sterke herinnering van domeinterminologie (ICD-10-codes, GDPR-artikelverwijzingen) maar inconsistente citatieaccuratesse. Overheidsgebruiksscenario's profiteren van het contextvenster maar lijden onder dezelfde reproduceerbaarheidshiaat; een prompt twee keer in dezelfde week uitgevoerd leverde subtiel verschillende beleidsaanbevelingen op, onaanvaardbaar voor publieke verantwoording.

Wij dringen er bij lezers op aan ons live klassement te raadplegen op /benchmarks/leaderboard voor head-to-head scoring zodra Google deze preview overzet naar een stabiele release. Huidige interne richtlijn: behandel Gemini 3 Pro Preview als een onderzoekspreview, niet als een productie-inference-endpoint. Scores roteren maandelijks naarmate trainingruns evolueren; wat vandaag geldt, geldt mogelijk niet over zes weken.

Oordeel & alternatieven

Wie zou Gemini 3 Pro Preview moeten gebruiken? Onderzoeksteams, technische schrijvers en juridische analisten die bereid zijn API-flux te tolereren in ruil voor ongeëvenaarde contextcapaciteit en nul marginale kosten. Als uw workflow analyse van volledige boeken, uitgebreide codebases of multi-documentsynthese omvat—en u beschikt over de domeinexpertise om outputs te valideren—biedt deze preview een echte capaciteitssprong. Organisaties gebonden aan strikte SLA's, reproduceerbaarheidsmandaten of dataresidentieregels moeten wachten op een productieklare release of elders kijken.

Budgetbewuste alternatieven: Claude 3.5 Sonnet (200k context) biedt superieure stabiliteit en latentie voor $3,00/MTok invoer, $15,00/MTok uitvoer—nog steeds duur maar ondersteund door Anthropic's constitutionele AI-waarborgen en duidelijker EU GDPR-houding. Voor krappere budgetten handelt GPT-4o mini (128k context, $0,15 / $0,60 per MTok) de meeste redeneer- en programmeertaken adequaat af. Als privacy voorop staat, draait zelf-gehoste Llama 3.3 70B (128k context via uitgebreide RoPE) on-premises, hoewel contextverwerking en multimodale grounding achterblijven bij frontier-modellen.

Snelheid-eerst-scenario's: GPT-4o of Gemini 3 Flash (128k context, snellere inference) passen bij realtime chat, klantenondersteuning en interactieve debugging. Het latentieprofiel van Gemini 3 Pro Preview diskwalificeert het van sub-seconde responstijden.

Wat de komende zes maanden kunnen brengen: Google zal waarschijnlijk de architectuur stabiliseren in een productie-"Gemini 3 Pro" SKU met transparante prijsstelling (verwacht $2–5 per miljoen invoertokens op basis van GCP-precedent), versiepinning en enterprise SLA's. De inwerkingtreding van de EU AI Act medio 2026 kan Google dwingen conformiteitsverklaringen te publiceren en EU-residente dataverwerking aan te bieden, waardoor adoptie door de publieke sector wordt ontgrendeld. Als alternatief, als de preview voor onbepaalde tijd kosteloos blijft, kan het evolueren naar een loss-leader marketingtool, die inkomsten uit Gemini 1.5 Pro kannibalisseert—een onwaarschijnlijk maar niet onmogelijk scenario. Tot die tijd, behandel elke API-aanroep als efemeer, log outputs nauwgezet en onderhoud fallback-pipelines naar stabiele alternatieven.

Laatste technische beoordeling: 2026-05-01 — Tokonomix.ai

Gemini 3 Pro Preview — illustration 2Gemini 3 Pro Preview — illustration 3
Laatste automatische test
27 mei 2026 · 21:59 UTC · Benchmark
P50 latency
P95 latency
Fouten
1 / 6 runs
Laatst beoordeeld door Tokonomix-team·24 mei 2026