La fenêtre de 131k tokens suffit-elle pour des dossiers documentaires ?

Oui pour la plupart des dossiers analytiques, rapports et bases de connaissances internes. Pour des corpus massifs, il faudra mettre en place une stratégie de chunking ou de RAG en amont.

Peut-on l'intégrer en production aujourd'hui ?

Sa désignation « Preview » indique une API et un comportement susceptibles d'évoluer. Il est recommandé pour le prototypage et les évaluations internes, mais pas pour des charges critiques sans plan de repli.

Quelles modalités d'entrée et de sortie sont supportées ?

Les capacités précises ne sont pas documentées publiquement à ce stade. Une vérification directe via la documentation Google et des tests ciblés est nécessaire avant tout engagement technique.

Tier B — Production

Fonctionne en :USCréé en :United States

Google Gemini

Deep Research Preview (Apr-21-2026)

Q: Comment se compare-t-il aux autres modèles Gemini ?

Il s'agit d'une variante spécialisée plutôt que d'un modèle phare généraliste. Il sert de banc d'essai pour des techniques de recherche autonome qui pourront ensuite être intégrées aux modèles de production.

Tier B — Production · 131K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 24 mai 2026

Deep Research Preview (21 avr. 2026) est un modèle expérimental de la famille Gemini de Google, conçu pour démontrer des capacités avancées en synthèse d'informations et raisonnement analytique. Ce modèle se spécialise dans la réalisation de recherches approfondies sur des sujets complexes en décomposant les requêtes en composants constitutifs, en collectant des informations pertinentes provenant de multiples sources, et en synthétisant les résultats en réponses cohérentes et bien structurées. Il est positionné comme une version préliminaire, permettant aux développeurs et chercheurs d'explorer ses capacités orientées recherche avant une disponibilité plus large. Le modèle dispose d'une fenêtre de contexte de 131 000 tokens, lui permettant de traiter et maintenir la cohérence à travers des quantités substantielles d'informations durant des tâches de recherche en plusieurs étapes. Bien qu'il prenne en charge la génération de texte standard, son architecture est optimisée pour les processus d'investigation itératifs plutôt que pour un usage conversationnel général. Cette spécialisation lui permet d'effectuer des analyses plus approfondies sur des sujets nécessitant une exploration systématique, bien qu'il ne soit pas forcément le choix optimal pour des tâches routinières de génération de texte. Au sein de la gamme Gemini de Google, Deep Research Preview représente une variante spécialisée orientée recherche plutôt qu'un modèle phare polyvalent. Il sert de banc d'essai pour des techniques de recherche autonome et de synthèse d'informations susceptibles d'informer les futurs modèles de production. La désignation préliminaire indique qu'il s'agit d'un système évolutif où les capacités et comportements peuvent changer à mesure que Google affine l'approche sous-jacente en fonction des retours utilisateurs et des données de performance.

Deep Research Preview se positionne comme un laboratoire vivant pour la recherche autonome chez Google, privilégiant la profondeur analytique à la polyvalence conversationnelle.
— Synthèse éditoriale Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Deep Research Preview (Apr-21-2026)

$2.00 par 1M de tokens d'entrée

$12.00 par 1M de tokens de sortie

≈ $0.0036 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$2.00

par 1M de tokens de sortie$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— no change

$12.00

output / 1M

— no change

2026-06-142026-06-142026-06-14

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Synthèse documentaire approfondieDécomposition de requêtes complexesFenêtre de contexte de 131k tokensRaisonnement analytique itératifAgrégation multi-sources cohérenteExploration systématique des sujetsRéponses structurées et argumentéesAccès anticipé aux techniques Gemini

Faiblesses

Statut préliminaire instablePeu adapté au conversationnel courantModalités et disponibilité régionale flouesDate de coupure des connaissances non précisée

Section 03

Capacités

outputTokenLimit: 65536

Section 04

Questions fréquentes

Il vise les tâches de recherche structurée : revues de littérature, analyses comparatives, synthèses techniques sur des corpus volumineux. Pour du chat généraliste ou des intégrations à faible latence, un modèle Gemini standard sera plus approprié.

Un modèle à réserver aux flux de recherche structurés plutôt qu'aux usages généralistes : sa valeur réside dans la rigueur de synthèse, pas dans la rapidité de réponse.
— Verdict Tokonomix

Section 05

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

● 2026-06-14

Deep Research Preview maintains coding strength, math remains weak

Deep Research Preview by Google Gemini shows consistent performance across benchmark windows, with no significant changes in capabilities. The model continues to demonstrate strong coding proficiency with an 86.0% score on LiveCodeBench, maintaining its position as a solid choice for software development tasks. However, mathematical reasoning remains a notable weakness, with scores of 64.8% on MATH-500 and 71.9% on AIME 2024, both unchanged from the previous window. Multi-turn conversation handling shows moderate capability at 59.1% on MMLU, while instruction following on IFEval holds steady at 78.8%. The model handles multilingual tasks adequately with 76.2% on MGSM, and creative writing performance remains at 21.9% on Creative Writing. Overall benchmark average sits at 69.8%, identical to the previous period. This stability suggests a mature model with well-defined strengths in code generation and standard weaknesses in advanced mathematics. Users should leverage this model for coding tasks while being cautious about complex mathematical problem-solving scenarios. The unchanged performance profile makes it a predictable option for teams with established workflows.

Quality

—

Latency p50

—

Test runs

✓ Coding performance remains strong✗ Math scores still lagging✓ Stable performance across benchmarks

Section 07

Profil complet du modèle

Deep Research Preview (avril 2026) : le niveau base de la pile de recherche de Google

Note — profil prospectif. Deep Research Preview (deep-research-preview-04-2026) est l'instantané de préversion d'avril 2026. Le comportement, les capacités et les limites de taux évolueront avant la disponibilité générale.

Deep Research Preview est le niveau base de la ligne Deep Research de Google. Une fenêtre de contexte de 131 072 tokens. La génération augmentée par la recherche comme capacité principale — le modèle tire des sources en direct pendant son exécution plutôt que de s'appuyer uniquement sur ses données d'entraînement, et produit des citations pour les affirmations qu'il fait.

Ce n'est pas un modèle de chat. Ce n'est pas non plus le lourd agent de recherche du niveau Max. Il se situe au milieu comme niveau recherche-et-citation — plus rapide que Max, plus complet qu'un modèle de chat standard avec un outil de recherche ajouté.

Ce qu'il fait concrètement

Vous lui soumettez une question qui bénéficie d'informations actuelles et de citations explicites. Il effectue une recherche web ciblée, lit les résultats les plus pertinents et produit une réponse structurée qui cite le matériel source. Sortie typique :

Réponse directe à la question.
Un bref récapitulatif de support, deux à cinq paragraphes selon la forme de la question.
Citations en ligne vers les sources utilisées.
Une liste des sources consultées à la fin.

Les exécutions sont plus rapides que le niveau Max de Deep Research et la sortie est plus courte. Vous payez pour la fraîcheur et la fiabilité des citations, pas pour une synthèse cross-sources profonde.

Où il est réellement utile

Quelques charges de travail où ce niveau s'adapte bien :

Questions sensibles au temps où la coupure d'entraînement du modèle manquerait la bonne réponse.
Sorties nécessitant des citations où un modèle de chat sans outillage explicite de recherche-et-citation inventerait des références ou refuserait de s'engager.
Recherches rapides sur de la documentation actuelle, des textes de politique ou des actualités où l'utilisateur a besoin de la réponse plus un lien vers la source.
Recherche légère qui ne justifie pas le coût de latence d'une synthèse profonde du niveau Max.

Le schéma. Les tâches où vous ouvririez autrement trois ou quatre onglets, liriez dix minutes et écririez un paragraphe correspondent bien à ce modèle. Les tâches nécessitant une heure de lecture devraient aller vers Max. Les tâches où la réponse est déjà dans les données d'entraînement n'ont pas besoin d'augmentation par la recherche.

Quand ce n'est pas le bon outil

Les interactions conversationnelles. Comme le reste de la famille Deep Research, c'est requête-et-réponse, pas chat.

La synthèse profonde sur de nombreuses sources avec des preuves contradictoires. Le niveau Max gère cela mieux. La base preview est plus rapide mais fait moins de lecture.

Tout en dehors de la recherche littérale. Génération de code, débogage, traitement d'images — mauvaise famille entièrement.

Les charges de travail à très grand volume. La boucle recherche-et-citation ajoute de la latence et consomme plus de compute par appel qu'une simple complétion de chat.

Comment il se compare au sein de la famille

Les trois instantanés de préversion Deep Research couvrent différents points sur la courbe profondeur-versus-vitesse :

Deep Research Preview (avril 2026) — ce modèle. Niveau base, le plus rapide, sorties les plus courtes.
Deep Research Pro Preview (décembre 2025) — niveau Pro plus ancien, plus de profondeur que la base, boucle agentique un peu plus ancienne.
Deep Research Max Preview (avril 2026) — niveau le plus profond, exécutions les plus longues, sortie la plus complète.

Commencez par la base preview pour la plupart des charges de travail. Montez vers Pro ou Max quand vous constatez que la base preview laisse des sources importantes non lues ou produit des sorties manquant de la profondeur nécessaire.

Comment il se compare aux autres modèles augmentés par la recherche

Les comparaisons les plus directes sont les modes augmentés par la recherche sur la famille GPT-5 d'OpenAI et la ligne Claude d'Anthropic avec l'outillage de recherche web activé. La forme de la sortie est similaire : une réponse avec citations.

La base Deep Research Preview de Google tend à trouver des sources plus diversifiées qu'une alternative à appel de recherche unique parce que l'agent effectue plusieurs recherches ciblées plutôt qu'une seule large. La sortie est plus structurée par défaut mais moins conversationnelle que ce que GPT-5 avec navigation produit. Claude avec recherche web est le plus prudent, refuse clairement quand les sources divergent, et tend à être plus explicitement hésitant dans la sortie.

Pour les flux de travail interactifs de question-et-raffinement, Claude ou GPT-5 conviennent mieux. Pour les questions en un coup où l'utilisateur veut une réponse complète avec citations et est prêt à attendre quinze à quarante secondes, Deep Research Preview est un bon choix par défaut.

Le tableau par catégorie est sur /benchmarks/intelligence et le classement en temps réel sur /benchmarks/leaderboard.

Qualité des citations en pratique

Deux choses à savoir sur le comportement des citations :

Premièrement, les citations correspondent au contenu réel de la source de façon fiable. Le modèle n'a pas l'habitude de fabriquer des références, et quand il cite un passage d'une source, le passage est généralement présent dans cette source. Ce n'est pas universel parmi les modèles augmentés par la recherche.

Deuxièmement, la couverture des citations penche vers les sources récentes et à fort trafic. Si la bonne réponse à votre question se trouve dans un petit site d'archive, un PDF sur un portail gouvernemental, ou un article académique qui ne ressort pas bien dans la recherche web générale, le modèle est moins susceptible de le trouver.

Notes de déploiement

API Google Gemini standard. Les modèles Deep Research partagent la surface Gemini mais nécessitent un identifiant de modèle explicite.

La latence est la principale considération opérationnelle. Les appels prennent généralement quinze à quarante secondes selon la complexité de la question. Prévoyez cela dans votre UX — montrez la progression, définissez les attentes des utilisateurs.

La disponibilité régionale suit le schéma Vertex AI standard de Google. Les régions UE sont disponibles sur les contrats Enterprise.

Quand l'adopter

Choisissez Deep Research Preview quand :

Vous avez besoin d'informations actuelles avec des citations explicites.
La question est plus grande qu'une simple recherche ponctuelle mais plus petite qu'un briefing de recherche de plusieurs heures.
La fiabilité des citations compte et vous voulez que le modèle refuse clairement quand les sources divergent.
Une latence de quinze à quarante secondes est acceptable pour votre cas d'usage.

Choisissez autre chose quand :

La question nécessite un échange interactif pour se raffiner.
Une latence inférieure à la seconde est requise.
La question nécessite une synthèse profonde sur de nombreuses sources — le niveau Max convient mieux.
La réponse est déjà dans les données d'entraînement et la recherche augmentée ajoute de la latence sans valeur.

En résumé. Un outil de recherche de poids moyen solide. Plus rapide que Max, plus complet qu'une alternative chat-plus-recherche, il s'adapte à une bande de charges de travail qui n'avaient pas de réponse propre avant la sortie de cette famille.

Testez-le sur une question d'actualité à /live-test. La qualité des citations est le différenciateur et est la plus facile à évaluer sur vos propres questions.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

21 juin 2026 · 04:48 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·24 mai 2026