Hoe groot is het contextvenster en wat betekent dat in de praktijk?

Het venster van 131.072 tokens maakt het mogelijk om uitgebreide documentenstapels of meerstaps onderzoekstrajecten in één sessie te verwerken. Dat is voldoende voor de meeste rapportages, maar nog steeds beperkt voor zeer grote corpora.

Is dit model productieklaar?

Nee, de previewaanduiding geeft aan dat het experimenteel is en dat Google capaciteiten en gedrag nog actief verfijnt. Voor kritische productieworkloads is een stabielere Gemini-variant verstandiger.

Welke modaliteiten ondersteunt het model?

De ondersteunde modaliteiten zijn niet volledig gedocumenteerd; tekstinvoer en -uitvoer zijn bevestigd. Ga er niet vanuit dat beeld-, audio- of videoverwerking beschikbaar is zonder bevestiging vanuit Google.

Hoe verhoudt het zich tot andere Gemini-modellen?

Deep Research Preview is een gespecialiseerde variant, geen vervanging voor een algemeen vlaggenschipmodel. Het dient als testbed voor autonome onderzoekstechnieken die later kunnen doorstromen naar productiemodellen.

Tier B — Productie

Draait in:USGemaakt in:United States

Google Gemini

Deep Research Preview (Apr-21-2026)

Tier B — Productie · 131K tokens

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 24 mei 2026

Deep Research Preview (Apr-21-2026) is een experimenteel model uit Google's Gemini-familie, ontworpen om geavanceerde mogelijkheden in informatiesynthese en analytisch redeneren te demonstreren. Dit model is gespecialiseerd in het uitvoeren van uitgebreid onderzoek naar complexe onderwerpen door zoekopdrachten op te splitsen in samenstellende componenten, relevante informatie uit meerdere bronnen te verzamelen en bevindingen te synthetiseren tot coherente, goed gestructureerde antwoorden. Het is gepositioneerd als een preview-release, waarmee ontwikkelaars en onderzoekers de onderzoeksgerichte mogelijkheden kunnen verkennen voordat het breder beschikbaar komt. Het model beschikt over een contextvenster van 131.000 tokens, waardoor het aanzienlijke hoeveelheden informatie kan verwerken en coherentie kan behouden tijdens onderzoekstaken met meerdere stappen. Hoewel het standaard tekstgeneratie ondersteunt, is de architectuur geoptimaliseerd voor iteratieve onderzoeksprocessen in plaats van algemeen conversationeel gebruik. Deze specialisatie stelt het in staat diepere analyses uit te voeren van onderwerpen die systematische verkenning vereisen, hoewel het mogelijk niet de optimale keuze is voor routinematige tekstgeneratietaken. Binnen Google's Gemini-line-up vertegenwoordigt Deep Research Preview een gespecialiseerde onderzoeksgerichte variant in plaats van een algemeen vlaggenschipmodel. Het dient als testomgeving voor technieken in autonoom onderzoek en informatiesynthese die toekomstige productiemodellen kunnen vormgeven. De preview-aanduiding geeft aan dat dit een evoluerend systeem is waarbij mogelijkheden en gedrag kunnen veranderen naarmate Google de onderliggende aanpak verfijnt op basis van gebruikersfeedback en prestatiegegevens.

Deep Research Preview positioneert zich als een gespecialiseerd onderzoeksinstrument binnen de Gemini-familie, gericht op diepgaande informatiesynthese in plaats van algemene conversatie.
— Tokonomix redactionele samenvatting

Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — Deep Research Preview (Apr-21-2026)

$2.00 per 1M input-tokens

$12.00 per 1M output-tokens

≈ $0.0036 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$2.00

per 1M output-tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— no change

$12.00

output / 1M

— no change

2026-06-142026-06-142026-06-14

Input

Output

Price change

⟳ synced weekly

Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Diepgaande informatiesyntheseOpsplitsen van complexe vragenRuim contextvenster van 131K tokensSterke analytische redeneringCombineren van meerdere bronnenGestructureerde, coherente outputIteratieve onderzoeksprocessenOnderdeel van Google Gemini-ecosysteem

Zwakke punten

Previewstatus, gedrag kan wijzigenMinder geschikt voor gewone chatOnbekende modaliteiten en tierBeperkte regionale beschikbaarheid mogelijk

Sectie 03

Mogelijkheden

outputTokenLimit: 65536

Sectie 04

Veelgestelde vragen

Het model is gebouwd voor diepgaand onderzoek, literatuurverkenning en het synthetiseren van informatie uit meerdere bronnen. Voor routinetaken zoals korte chats of eenvoudige tekstgeneratie zijn andere Gemini-varianten waarschijnlijk efficiënter.

Een interessante preview voor teams die complexe onderzoeksworkflows willen automatiseren, maar minder geschikt als algemeen werkpaard. Houd er rekening mee dat capaciteiten kunnen verschuiven tijdens de previewperiode.
— Tokonomix eindoordeel

Sectie 05

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 06

Tokonomix benchmark-oordelen

● 2026-06-14

Deep Research Preview maintains coding strength, math remains weak

Deep Research Preview by Google Gemini shows consistent performance across benchmark windows, with no significant changes in capabilities. The model continues to demonstrate strong coding proficiency with an 86.0% score on LiveCodeBench, maintaining its position as a solid choice for software development tasks. However, mathematical reasoning remains a notable weakness, with scores of 64.8% on MATH-500 and 71.9% on AIME 2024, both unchanged from the previous window. Multi-turn conversation handling shows moderate capability at 59.1% on MMLU, while instruction following on IFEval holds steady at 78.8%. The model handles multilingual tasks adequately with 76.2% on MGSM, and creative writing performance remains at 21.9% on Creative Writing. Overall benchmark average sits at 69.8%, identical to the previous period. This stability suggests a mature model with well-defined strengths in code generation and standard weaknesses in advanced mathematics. Users should leverage this model for coding tasks while being cautious about complex mathematical problem-solving scenarios. The unchanged performance profile makes it a predictable option for teams with established workflows.

Quality

—

Latency p50

—

Test runs

✓ Coding performance remains strong✗ Math scores still lagging✓ Stable performance across benchmarks

Sectie 07

Volledig modelprofiel

Deep Research Preview (april 2026): de basis-tier van Google's research stack

Let op — vooruitblikkend profiel. Deep Research Preview (deep-research-preview-04-2026) is de preview-snapshot van april 2026. Gedrag, mogelijkheden en rate limits veranderen vóór algemene beschikbaarheid.

Deep Research Preview is de basis-tier in Google's Deep Research-lijn. Een context window van 131.072 tokens. Search-augmented generation als kernmogelijkheid — het model haalt tijdens zijn run live bronnen op in plaats van alleen op trainingsdata te vertrouwen, en produceert citaten voor de claims die het maakt.

Dit is geen chatmodel. Het is ook niet de zware Max-tier research-agent. Het zit er tussenin als de zoek-en-citeer-tier: sneller dan Max, grondiger dan een gewoon chatmodel met een losgeschroefde zoektool.

Wat het werkelijk doet

Je geeft het een vraag waarbij actuele informatie en expliciete citaten meerwaarde hebben. Het voert een gerichte zoekopdracht uit, leest de meest relevante resultaten en produceert een gestructureerd antwoord dat het bronmateriaal aanhaalt. Typische output:

Direct antwoord op de vraag.
Een korte onderbouwing van twee tot vijf paragrafen, afhankelijk van de vraagvorm.
Inline citaten naar de gebruikte bronnen.
Een lijst van geraadpleegde bronnen aan het einde.

De runs zijn sneller dan Max-tier Deep Research en de output is korter. Je betaalt voor actualiteit en citaatbetrouwbaarheid, niet voor diepgaande bronkruisreferenties.

Waar het echt nuttig is

Workloads waarvoor deze tier goed past:

Tijdsgevoelige vragen waarbij de trainingsknipdatum van het model het juiste antwoord zou missen.
Citatvereiste outputs waarbij een chatmodel zonder expliciete zoek-en-citeer-tooling ofwel referenties zou verzinnen of weigerachtig zou zijn.
Snelle raadplegingen van actuele documentatie, beleidstext of nieuws waarbij de gebruiker het antwoord plus een bronlink nodig heeft.
Licht onderzoek dat de latencykosten van Max-tier diepgaande synthese niet rechtvaardigt.

Het patroon: taken waarvoor je anders drie of vier tabbladen opent, tien minuten leest en een alinea schrijft, liggen goed op dit model. Taken die een uur leeswerk vergen, gaan naar Max. Taken waarbij het antwoord al in de trainingsdata staat, hebben helemaal geen search-augmentation nodig.

Wanneer het het verkeerde gereedschap is

Conversationele interacties. Net als de rest van de Deep Research-familie is dit verzoek-en-respons, geen chat.

Diepgaande synthese van veel bronnen met conflicterende bewijzen. De Max-tier doet dit beter. De basis-preview is sneller maar leest minder.

Alles buiten letterlijk onderzoek. Codegeneratie, debuggen, beeldwerk — verkeerde familie.

Workloads bij zeer hoog volume. De zoek-en-citeer-lus voegt latency toe en verbruikt meer compute per call dan een gewone chat-completion. Houd daar rekening mee.

Vergelijking binnen de familie

De drie Deep Research preview-snapshots bestrijken verschillende punten op de diepte-versus-snelheidscurve:

Deep Research Preview (april 2026) — dit model. Basis-tier, snelst, kortste outputs.
Deep Research Pro Preview (december 2025) — oudere Pro-tier, meer diepte dan basis, iets oudere agent-loop.
Deep Research Max Preview (april 2026) — diepste tier, langste runs, meest grondige output.

Begin met de basis-preview voor de meeste workloads. Ga omhoog naar Pro of Max als je merkt dat de basis-tier belangrijke bronnen ongelezen laat of outputs produceert die te weinig diepgang hebben voor je toepassing.

Vergelijking met andere search-augmented modellen

De meest directe vergelijkingen zijn search-augmented modi op OpenAI's GPT-5-familie en Anthropic's Claude-lijn met ingeschakelde websearch-tooling. De vorm van de output lijkt: een antwoord met citaten.

Google's basis Deep Research Preview haalt doorgaans meer diverse bronnen op dan een enkelvoudige-zoekoproep-alternatief, omdat de agent meerdere gerichte zoekopdrachten uitvoert in plaats van één brede. De output is standaard meer gestructureerd maar minder conversationeel dan wat GPT-5 met browsing produceert. Claude met websearch is het voorzichtigst, weigert helder wanneer bronnen het oneens zijn, en hedget zichtbaarder in de output.

Voor interactieve vraag-en-verfijn-workflows passen Claude of GPT-5 beter. Voor eenmalige vragen waarbij de gebruiker een volledig antwoord met citaten wil en bereid is er vijftien tot veertig seconden op te wachten, is de Deep Research Preview een sterke standaardkeuze.

Het categoriëniveau-beeld staat op /benchmarks/intelligence en de doorlopende leaderboard op /benchmarks/leaderboard.

Citaatkwaliteit in de praktijk

Twee dingen om te weten over hoe de citaten werken:

Eerste: de citaten volgen de werkelijke broninhoud betrouwbaar. Het model heeft niet de gewoonte om referenties te verzinnen, en als het een passage uit een bron aanhaalt, staat die passage er doorgaans ook echt in. Dit geldt niet universeel voor alle search-augmented modellen — sommige concurrenten verzinnen nog altijd soms plausibel klinkende citaten.

Tweede: citaatdekking neigt naar recente en hoogverkeer-bronnen. Als het juiste antwoord op je vraag in een klein archiefsite staat, een PDF op een overheidsportaal, of een academisch paper dat niet goed in algemene websearch opduikt, is de kans kleiner dat het model dat ophaalt. Voor gespecialiseerde onderzoeksdomeinen waar de juiste bronnen buiten het hoogverkeer-web staan, maakt dat verschil.

Deployment

Standaard Google Gemini API. De Deep Research-modellen delen het bredere Gemini-oppervlak maar vereisen een expliciete modelidentificator en accepteren parameters die specifiek zijn voor de zoek-en-citeer-lus.

Latency is de belangrijkste operationele overweging. Calls duren doorgaans vijftien tot veertig seconden, afhankelijk van de complexiteit van de vraag. Houd dat in je UX rekening mee: toon voortgang, stel gebruikersverwachtingen bij, zet het niet achter een synchrone interactie waarbij de gebruiker sub-seconde respons verwacht.

Regionale beschikbaarheid volgt het standaard Vertex AI-patroon van Google. EU-regio's zijn beschikbaar op enterprise-contracten; standaard API-toegang pint geen regio. Raadpleeg voor harde residency-eisen de Vertex AI regionale documentatie.

Wanneer je het kiest

Kies Deep Research Preview als:

Je actuele informatie met expliciete citaten nodig hebt.
De vraag groter is dan een enkelvoudige zoekoproep maar kleiner dan een meerdere-uren onderzoeksbriefing.
Citaatbetrouwbaarheid telt en je wil dat het model helder weigert wanneer bronnen het oneens zijn in plaats van zelfverzekerde antwoorden te verzinnen.
Latency in de vijftien-tot-veertig-seconden range acceptabel is voor je use case.

Kies iets anders als:

De vraag iteratieve verfijning vereist.
Sub-seconde latency deel uitmaakt van de eis.
Diepgaande synthese van veel bronnen nodig is — Max-tier past beter.
Het antwoord al in trainingsdata staat en search-augmentation alleen latency toevoegt.

Samenvatting: solide middelzwaar onderzoeksgereedschap. Sneller dan Max, grondiger dan een chat-plus-zoek-alternatief, past bij een klasse workloads die daarvoor geen schone oplossing hadden.

Test het op een actueel nieuwsvraag op /live-test. De citaatkwaliteit is de onderscheidende factor en is het gemakkelijkst te beoordelen aan de hand van je eigen vragen.

Laatste technische beoordeling: 2026-05-22 — Tokonomix.ai

Laatste automatische test

21 jun 2026 · 04:48 UTC · Benchmark

P50 latency

—

P95 latency

—

Fouten

1 / 6 runs

Laatst beoordeeld door Tokonomix-team·24 mei 2026