Peut-on l'utiliser en production dès aujourd'hui ?

Non, il s'agit d'une préversion d'octobre 2025 destinée à l'expérimentation. Les contrats SLA, la stabilité de l'API et le comportement du modèle peuvent évoluer sans préavis.

La fenêtre de 131 072 tokens suffit-elle pour des sessions agentiques longues ?

Oui pour la plupart des scénarios d'automatisation, qui combinent instructions, historique d'actions et descriptions d'écran. Pour des sessions très longues, il reste prudent de résumer ou de tronquer l'historique afin d'éviter la saturation.

Quelles précautions de sécurité prévoir lors de son intégration ?

Comme tout agent capable d'agir sur une machine, il faut le confiner dans un environnement isolé (sandbox, VM dédiée), restreindre les permissions et journaliser chaque action. Un humain dans la boucle reste recommandé pour les opérations sensibles.

Comment se positionne-t-il face aux autres approches agentiques de Google ?

Il occupe une niche spécialisée dans la gamme Gemini, centrée sur l'interaction avec des interfaces plutôt que sur la génération de texte. Les modèles Gemini généralistes restent préférables pour les usages conversationnels ou multimodaux classiques.

Tier B — Production

Fonctionne en :USCréé en :United States

Google Gemini

Gemini 2.5 Computer Use Preview 10-2025

Tier B — Production · 131K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 22 mai 2026·Dernière relecture 24 mai 2026

Gemini 2.5 Computer Use Preview 10-2025 est un modèle de langage expérimental de Google conçu pour permettre aux agents IA d'interagir avec les interfaces informatiques de manière similaire aux utilisateurs humains. Ce modèle va au-delà de la génération de texte standard en intégrant des capacités de compréhension et de génération d'instructions liées aux tâches de contrôle informatique, telles que la navigation dans les interfaces utilisateur, le clic sur des boutons, le remplissage de formulaires et l'exécution de flux de travail multi-étapes à travers les applications. Il représente l'exploration par Google de systèmes IA agentiques capables d'effectuer des tâches nécessitant à la fois la compréhension du langage et l'interaction avec l'environnement numérique. Le modèle dispose d'une fenêtre de contexte de 131 000 tokens, lui permettant de traiter des quantités substantielles d'informations au sein d'une seule session. Bien qu'il prenne en charge les tâches standard de génération de texte, sa caractéristique distinctive est la fonctionnalité d'utilisation informatique, qui lui permet d'interpréter des captures d'écran, de comprendre les éléments d'interface et de générer les actions appropriées pour accomplir les objectifs spécifiés par l'utilisateur. Cela le positionne comme un outil d'automatisation, de test et de recherche sur les capacités des agents IA plutôt que principalement comme un modèle conversationnel ou de génération de contenu. Au sein de la gamme Gemini de Google, cette version preview occupe une niche spécialisée axée sur l'avancement des capacités d'interaction informatique. En tant que modèle preview publié en octobre 2025, il sert de plateforme de recherche et développement pour les développeurs et organisations explorant les applications d'agents autonomes. Le modèle permet aux utilisateurs d'expérimenter le contrôle informatique piloté par IA pendant que Google continue d'affiner la technologie pour un déploiement plus large.

Gemini 2.5 Computer Use Preview 10-2025 marque l'entrée de Google dans la course aux agents capables de piloter une interface graphique comme le ferait un humain.
— Synthèse éditoriale Tokonomix

Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Gemini 2.5 Computer Use Preview 10-2025

$1.25 par 1M de tokens d'entrée

$10.00 par 1M de tokens de sortie

≈ $0.0028 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$1.25

par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Contrôle d'interfaces utilisateurNavigation multi-étapes guidéeInterprétation de captures d'écranRemplissage automatisé de formulairesFenêtre de contexte de 131k tokensOrientation agentique assuméeOrchestration entre applicationsPlateforme idéale pour la R&D

Faiblesses

Statut préversion expérimentaleDisponibilité régionale limitéePeu adapté au dialogue généralisteDate de connaissance non documentée

Section 03

Capacités

toolssource: litellmvisionoutputTokenLimit: 65536max output tokens: 64000

Section 04

Questions fréquentes

Il vise les agents autonomes qui doivent piloter des interfaces graphiques : automatisation de tâches bureautiques, tests de bout en bout, scraping interactif et workflows multi-applications. Ce n'est pas un modèle pensé pour la rédaction longue ou le chat client.

Un modèle de recherche prometteur pour l'automatisation d'interfaces, mais à réserver aux prototypes encadrés tant qu'il reste en préversion.
— Verdict Tokonomix

Section 05

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

● 2026-07-26

Gemini 2.5 Computer Use maintains tool and vision capabilities

Gemini 2.5 Computer Use Preview continues to offer both tool integration and vision capabilities without measurable changes in this benchmark window. The model maintains its core functionality for computer interaction tasks, allowing it to process visual inputs and utilize external tools as part of its operational framework. No performance regressions or improvements were detected across the evaluated metrics, suggesting stable model behavior between benchmark periods. Users can expect consistent performance for tasks requiring multimodal understanding and tool orchestration. The model remains in preview status, indicating ongoing development and potential future refinements. Organizations considering this model for computer use automation should note the stability of its current capabilities while remaining aware of its preview designation. The absence of benchmark fluctuations suggests reliable behavior for integration into existing workflows, though users should continue monitoring for updates as Google iterates on this specialized model variant.

Quality

—

Latency p50

—

Test runs

✓ Tool capabilities maintained✓ Vision support stable

Section 07

Profil complet du modèle

Gemini 2.5 Computer Use Preview (oct. 2025) : le spécialiste du contrôle de bureau

Note — profil prospectif. Gemini 2.5 Computer Use Preview (gemini-2.5-computer-use-preview-10-2025) est un instantané de préversion. Le comportement, les capacités et les limites de taux évolueront avant la disponibilité générale. Les observations ci-dessous reflètent un modèle en cours de développement.

Ce n'est pas un modèle de chat grand public. Gemini 2.5 Computer Use Preview est le spécialiste de Google pour le contrôle agentique de bureau — regarder une capture d'écran, décider quoi cliquer, saisir dans des champs, faire défiler une interface. C'est la réponse de Google à la catégorie plus large qu'Anthropic a aidé à populariser avec ses propres modèles de contrôle informatique.

La fenêtre de 131 072 tokens est plus que suffisante pour la boucle typique de contrôle de bureau : un prompt système décrivant la tâche, une ou deux captures d'écran de l'état actuel, un historique d'actions, et la sortie de prochaine-action du modèle. L'entrée texte-plus-vision est la bonne primitive pour le travail.

Ce qu'il fait concrètement

Le modèle est entraîné à prendre un état d'écran et produire des actions structurées. Un appel typique ressemble à :

Entrée : une capture d'écran de l'état actuel de l'écran, plus une description de l'objectif global et l'historique des actions effectuées jusqu'à présent.
Sortie : une prochaine action structurée — des coordonnées à cliquer, des touches à saisir, une direction de défilement, ou un signal "tâche terminée".

La boucle agentique exécute ce schéma dans un cycle serré : agir, capturer la nouvelle capture d'écran, décider la prochaine action. Le cadre autour du modèle gère l'interaction réelle avec le système d'exploitation — le modèle est le cerveau, pas les mains.

Où il est réellement utile

Quelques charges de travail où les modèles de contrôle informatique spécialisés surpassent réellement les modèles vision-langage génériques pour la même tâche :

L'automatisation de bureau répétitive où l'interface n'a pas d'API propre. Remplir des formulaires dans des applications bureau legacy, extraire des données d'outils internes, automatiser des workflows dans des logiciels tiers sans surface d'automatisation.
Les tests QA pour les applications bureau et web où le harnais de test doit exercer l'interface comme un utilisateur le ferait.
L'outillage d'accessibilité nécessitant de comprendre l'état de l'interface à des fins d'assistance.
Les workflows agentiques où une partie de la tâche est "aller interagir avec cette application web" plutôt que d'appeler son API.

Le schéma. Les tâches où une personne dirait "je ferais juste ça dans l'interface, ça prendrait cinq minutes" correspondent bien aux modèles de contrôle informatique. Les tâches pour lesquelles un appel API existe déjà n'ont pas besoin de ce niveau.

Quand ce n'est pas le bon outil

La conversation générale. Ce n'est pas un modèle de chat. L'entraînement et les patterns de prompting sont orientés vers la sortie d'actions structurées, pas le dialogue libre.

Tout ce qui a une API propre. Si la tâche est "envoyer un email", n'ayez pas le modèle naviguer vers une interface webmail — appelez une API email. Les modèles de contrôle informatique sont le bon choix quand aucune API n'existe, pas quand une existe.

Les actions critiques en matière de sécurité sans revue humaine. Le modèle fait des erreurs — mauvais clics, mauvais champs, mauvaises lectures occasionnelles de l'état de l'écran. Pour les workflows qui touchent de l'argent réel, des données réelles, ou quoi que ce soit d'irréversible, la boucle agentique nécessite un humain au milieu.

Les appels courts à volume élevé. La boucle agentique est par sa nature multi-étapes. Prévoyez cela opérationnellement. Ce n'est pas un modèle à mettre derrière un chatbot.

Comment il se compare aux alternatives

Le concurrent le plus direct est la capacité de contrôle informatique d'Anthropic intégrée dans la famille Claude. La forme du travail est similaire : capture d'écran en entrée, action structurée en sortie. La différence est opérationnelle :

Le contrôle informatique d'Anthropic vit dans la famille de modèles Claude ordinaire.
Le Computer Use Preview de Google est un identifiant de modèle séparé avec des conventions de prompting quelque peu différentes.

Pour les charges de travail déjà sur Claude, l'option Anthropic est l'intégration la plus simple. Pour celles déjà sur la pile Google, le 2.5 Computer Use Preview vous garde dans le même écosystème.

La qualité est compétitive entre les deux. Les deux font des mauvaises lectures occasionnelles sur les interfaces denses. Les deux gèrent bien les interfaces modernes propres. Les deux peinent avec les très petits éléments d'interface, le texte à faible contraste et les dialogues qui chevauchent le contenu.

Patterns pratiques

Quelques points à savoir avant de construire sur ce modèle :

La boucle agentique va parfois se bloquer — cliquer au mauvais endroit, rater une popup, répéter une action qui n'a pas produit le résultat attendu. Construisez un compteur d'étapes et un mécanisme de réinitialisation.
La résolution des captures d'écran compte. Trop basse et le modèle lit mal les éléments d'interface ; trop haute et vous gaspillez des tokens de contexte sur des pixels non pertinents.
L'historique d'actions aide. Inclure les dernières actions dans le prompt réduit les boucles où le modèle retente quelque chose qui a déjà échoué.
Certaines tâches bénéficient d'être décomposées en sous-objectifs explicites plutôt que confiées au modèle comme une seule instruction de haut niveau.

Notes de déploiement

API Google Gemini standard mais avec des conventions de prompting spécifiques au flux de contrôle informatique. Le format de sortie d'action structuré est documenté séparément du guide général de prompting Gemini.

La disponibilité régionale suit le schéma Vertex AI standard de Google. Les régions UE sont disponibles sur les contrats Enterprise.

Le modèle lui-même n'exécute pas les actions. Vous avez besoin d'un harnais autour de lui qui traduit la sortie d'action structurée du modèle en interaction réelle au niveau du SE. Plusieurs frameworks open-source existent pour cela.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Dernier test automatisé

21 juin 2026 · 04:48 UTC · Benchmark

Latence P50

—

Latence P95

—

Erreurs

1 / 6 exécutions

Dernière revue par Équipe Tokonomix·24 mai 2026