
Note — profil prospectif. Gemini 2.5 Computer Use Preview (
gemini-2.5-computer-use-preview-10-2025) est un instantané de préversion. Le comportement, les capacités et les limites de taux évolueront avant la disponibilité générale. Les observations ci-dessous reflètent un modèle en cours de développement.
Ce n'est pas un modèle de chat grand public. Gemini 2.5 Computer Use Preview est le spécialiste de Google pour le contrôle agentique de bureau — regarder une capture d'écran, décider quoi cliquer, saisir dans des champs, faire défiler une interface. C'est la réponse de Google à la catégorie plus large qu'Anthropic a aidé à populariser avec ses propres modèles de contrôle informatique.
La fenêtre de 131 072 tokens est plus que suffisante pour la boucle typique de contrôle de bureau : un prompt système décrivant la tâche, une ou deux captures d'écran de l'état actuel, un historique d'actions, et la sortie de prochaine-action du modèle. L'entrée texte-plus-vision est la bonne primitive pour le travail.
Ce qu'il fait concrètement
Le modèle est entraîné à prendre un état d'écran et produire des actions structurées. Un appel typique ressemble à :
- Entrée : une capture d'écran de l'état actuel de l'écran, plus une description de l'objectif global et l'historique des actions effectuées jusqu'à présent.
- Sortie : une prochaine action structurée — des coordonnées à cliquer, des touches à saisir, une direction de défilement, ou un signal "tâche terminée".
La boucle agentique exécute ce schéma dans un cycle serré : agir, capturer la nouvelle capture d'écran, décider la prochaine action. Le cadre autour du modèle gère l'interaction réelle avec le système d'exploitation — le modèle est le cerveau, pas les mains.
Où il est réellement utile
Quelques charges de travail où les modèles de contrôle informatique spécialisés surpassent réellement les modèles vision-langage génériques pour la même tâche :
- L'automatisation de bureau répétitive où l'interface n'a pas d'API propre. Remplir des formulaires dans des applications bureau legacy, extraire des données d'outils internes, automatiser des workflows dans des logiciels tiers sans surface d'automatisation.
- Les tests QA pour les applications bureau et web où le harnais de test doit exercer l'interface comme un utilisateur le ferait.
- L'outillage d'accessibilité nécessitant de comprendre l'état de l'interface à des fins d'assistance.
- Les workflows agentiques où une partie de la tâche est "aller interagir avec cette application web" plutôt que d'appeler son API.
Le schéma. Les tâches où une personne dirait "je ferais juste ça dans l'interface, ça prendrait cinq minutes" correspondent bien aux modèles de contrôle informatique. Les tâches pour lesquelles un appel API existe déjà n'ont pas besoin de ce niveau.
Quand ce n'est pas le bon outil
La conversation générale. Ce n'est pas un modèle de chat. L'entraînement et les patterns de prompting sont orientés vers la sortie d'actions structurées, pas le dialogue libre.
Tout ce qui a une API propre. Si la tâche est "envoyer un email", n'ayez pas le modèle naviguer vers une interface webmail — appelez une API email. Les modèles de contrôle informatique sont le bon choix quand aucune API n'existe, pas quand une existe.
Les actions critiques en matière de sécurité sans revue humaine. Le modèle fait des erreurs — mauvais clics, mauvais champs, mauvaises lectures occasionnelles de l'état de l'écran. Pour les workflows qui touchent de l'argent réel, des données réelles, ou quoi que ce soit d'irréversible, la boucle agentique nécessite un humain au milieu.
Les appels courts à volume élevé. La boucle agentique est par sa nature multi-étapes. Prévoyez cela opérationnellement. Ce n'est pas un modèle à mettre derrière un chatbot.
Comment il se compare aux alternatives
Le concurrent le plus direct est la capacité de contrôle informatique d'Anthropic intégrée dans la famille Claude. La forme du travail est similaire : capture d'écran en entrée, action structurée en sortie. La différence est opérationnelle :
- Le contrôle informatique d'Anthropic vit dans la famille de modèles Claude ordinaire.
- Le Computer Use Preview de Google est un identifiant de modèle séparé avec des conventions de prompting quelque peu différentes.
Pour les charges de travail déjà sur Claude, l'option Anthropic est l'intégration la plus simple. Pour celles déjà sur la pile Google, le 2.5 Computer Use Preview vous garde dans le même écosystème.
La qualité est compétitive entre les deux. Les deux font des mauvaises lectures occasionnelles sur les interfaces denses. Les deux gèrent bien les interfaces modernes propres. Les deux peinent avec les très petits éléments d'interface, le texte à faible contraste et les dialogues qui chevauchent le contenu.
Patterns pratiques
Quelques points à savoir avant de construire sur ce modèle :
- La boucle agentique va parfois se bloquer — cliquer au mauvais endroit, rater une popup, répéter une action qui n'a pas produit le résultat attendu. Construisez un compteur d'étapes et un mécanisme de réinitialisation.
- La résolution des captures d'écran compte. Trop basse et le modèle lit mal les éléments d'interface ; trop haute et vous gaspillez des tokens de contexte sur des pixels non pertinents.
- L'historique d'actions aide. Inclure les dernières actions dans le prompt réduit les boucles où le modèle retente quelque chose qui a déjà échoué.
- Certaines tâches bénéficient d'être décomposées en sous-objectifs explicites plutôt que confiées au modèle comme une seule instruction de haut niveau.
Notes de déploiement
API Google Gemini standard mais avec des conventions de prompting spécifiques au flux de contrôle informatique. Le format de sortie d'action structuré est documenté séparément du guide général de prompting Gemini.
La disponibilité régionale suit le schéma Vertex AI standard de Google. Les régions UE sont disponibles sur les contrats Enterprise.
Le modèle lui-même n'exécute pas les actions. Vous avez besoin d'un harnais autour de lui qui traduit la sortie d'action structurée du modèle en interaction réelle au niveau du SE. Plusieurs frameworks open-source existent pour cela.
Dernière vérification technique : 2026-05-22 — Tokonomix.ai

