Aller au contenu
Fonctionne en :USCréé en :United States
Google Gemini

Gemini 2.5 Computer Use Preview 10-2025

131K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Gemini 2.5 Computer Use Preview 10-2025 est un modèle de langage expérimental de Google conçu pour permettre aux agents IA d'interagir avec les interfaces informatiques de manière similaire aux utilisateurs humains. Ce modèle va au-delà de la génération de texte standard en intégrant des capacités de compréhension et de génération d'instructions liées aux tâches de contrôle informatique, telles que la navigation dans les interfaces utilisateur, le clic sur des boutons, le remplissage de formulaires et l'exécution de flux de travail multi-étapes à travers les applications. Il représente l'exploration par Google de systèmes IA agentiques capables d'effectuer des tâches nécessitant à la fois la compréhension du langage et l'interaction avec l'environnement numérique. Le modèle dispose d'une fenêtre de contexte de 131 000 tokens, lui permettant de traiter des quantités substantielles d'informations au sein d'une seule session. Bien qu'il prenne en charge les tâches standard de génération de texte, sa caractéristique distinctive est la fonctionnalité d'utilisation informatique, qui lui permet d'interpréter des captures d'écran, de comprendre les éléments d'interface et de générer les actions appropriées pour accomplir les objectifs spécifiés par l'utilisateur. Cela le positionne comme un outil d'automatisation, de test et de recherche sur les capacités des agents IA plutôt que principalement comme un modèle conversationnel ou de génération de contenu. Au sein de la gamme Gemini de Google, cette version preview occupe une niche spécialisée axée sur l'avancement des capacités d'interaction informatique. En tant que modèle preview publié en octobre 2025, il sert de plateforme de recherche et développement pour les développeurs et organisations explorant les applications d'agents autonomes. Le modèle permet aux utilisateurs d'expérimenter le contrôle informatique piloté par IA pendant que Google continue d'affiner la technologie pour un déploiement plus large.

Gemini 2.5 Computer Use Preview 10-2025 marque l'entrée de Google dans la course aux agents capables de piloter une interface graphique comme le ferait un humain.

Synthèse éditoriale Tokonomix
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Gemini 2.5 Computer Use Preview 10-2025
$1.25 par 1M de tokens d'entrée
$10.00 par 1M de tokens de sortie
≈ $0.0028 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$1.25
par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Contrôle d'interfaces utilisateurNavigation multi-étapes guidéeInterprétation de captures d'écranRemplissage automatisé de formulairesFenêtre de contexte de 131k tokensOrientation agentique assuméeOrchestration entre applicationsPlateforme idéale pour la R&D

Faiblesses

Statut préversion expérimentaleDisponibilité régionale limitéePeu adapté au dialogue généralisteDate de connaissance non documentée
Section 03

Capacités

toolssource: litellmvisionoutputTokenLimit: 65536max output tokens: 64000
Section 04

Questions fréquentes

Il vise les agents autonomes qui doivent piloter des interfaces graphiques : automatisation de tâches bureautiques, tests de bout en bout, scraping interactif et workflows multi-applications. Ce n'est pas un modèle pensé pour la rédaction longue ou le chat client.

Un modèle de recherche prometteur pour l'automatisation d'interfaces, mais à réserver aux prototypes encadrés tant qu'il reste en préversion.

Verdict Tokonomix
Section 05

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

2026-06-14

Gemini 2.5 Computer Use maintains tool and vision capabilities

Gemini 2.5 Computer Use Preview continues to offer tool integration and vision capabilities in this benchmark window, maintaining the features introduced in the previous period. No benchmark performance data is available for either the current or previous windows, making it impossible to assess quantitative changes in model quality, speed, or accuracy across tasks. The model remains positioned as Google's offering for computer use automation scenarios, leveraging both visual understanding and tool execution to interact with digital environments. Without concrete performance metrics, users should approach this model with caution and conduct their own testing for their specific use cases. The lack of benchmark data means there is no empirical evidence of improvements or regressions in areas like instruction following, task completion rates, or error handling. Organizations considering this model for production deployments should establish their own evaluation frameworks and success criteria, as public benchmarks have not yet provided insight into how this model performs relative to alternatives or how its capabilities have evolved over time.

Quality

Latency p50

Test runs

0

Maintains tool capabilities Maintains vision capabilities
Section 07

Profil complet du modèle

Gemini 2.5 Computer Use Preview 10-2025 — illustration 1
Gemini 2.5 Computer Use Preview (oct. 2025) : le spécialiste du contrôle de bureau

Note — profil prospectif. Gemini 2.5 Computer Use Preview (gemini-2.5-computer-use-preview-10-2025) est un instantané de préversion. Le comportement, les capacités et les limites de taux évolueront avant la disponibilité générale. Les observations ci-dessous reflètent un modèle en cours de développement.

Ce n'est pas un modèle de chat grand public. Gemini 2.5 Computer Use Preview est le spécialiste de Google pour le contrôle agentique de bureau — regarder une capture d'écran, décider quoi cliquer, saisir dans des champs, faire défiler une interface. C'est la réponse de Google à la catégorie plus large qu'Anthropic a aidé à populariser avec ses propres modèles de contrôle informatique.

La fenêtre de 131 072 tokens est plus que suffisante pour la boucle typique de contrôle de bureau : un prompt système décrivant la tâche, une ou deux captures d'écran de l'état actuel, un historique d'actions, et la sortie de prochaine-action du modèle. L'entrée texte-plus-vision est la bonne primitive pour le travail.

Ce qu'il fait concrètement

Le modèle est entraîné à prendre un état d'écran et produire des actions structurées. Un appel typique ressemble à :

  • Entrée : une capture d'écran de l'état actuel de l'écran, plus une description de l'objectif global et l'historique des actions effectuées jusqu'à présent.
  • Sortie : une prochaine action structurée — des coordonnées à cliquer, des touches à saisir, une direction de défilement, ou un signal "tâche terminée".

La boucle agentique exécute ce schéma dans un cycle serré : agir, capturer la nouvelle capture d'écran, décider la prochaine action. Le cadre autour du modèle gère l'interaction réelle avec le système d'exploitation — le modèle est le cerveau, pas les mains.

Où il est réellement utile

Quelques charges de travail où les modèles de contrôle informatique spécialisés surpassent réellement les modèles vision-langage génériques pour la même tâche :

  • L'automatisation de bureau répétitive où l'interface n'a pas d'API propre. Remplir des formulaires dans des applications bureau legacy, extraire des données d'outils internes, automatiser des workflows dans des logiciels tiers sans surface d'automatisation.
  • Les tests QA pour les applications bureau et web où le harnais de test doit exercer l'interface comme un utilisateur le ferait.
  • L'outillage d'accessibilité nécessitant de comprendre l'état de l'interface à des fins d'assistance.
  • Les workflows agentiques où une partie de la tâche est "aller interagir avec cette application web" plutôt que d'appeler son API.

Le schéma. Les tâches où une personne dirait "je ferais juste ça dans l'interface, ça prendrait cinq minutes" correspondent bien aux modèles de contrôle informatique. Les tâches pour lesquelles un appel API existe déjà n'ont pas besoin de ce niveau.

Quand ce n'est pas le bon outil

La conversation générale. Ce n'est pas un modèle de chat. L'entraînement et les patterns de prompting sont orientés vers la sortie d'actions structurées, pas le dialogue libre.

Tout ce qui a une API propre. Si la tâche est "envoyer un email", n'ayez pas le modèle naviguer vers une interface webmail — appelez une API email. Les modèles de contrôle informatique sont le bon choix quand aucune API n'existe, pas quand une existe.

Les actions critiques en matière de sécurité sans revue humaine. Le modèle fait des erreurs — mauvais clics, mauvais champs, mauvaises lectures occasionnelles de l'état de l'écran. Pour les workflows qui touchent de l'argent réel, des données réelles, ou quoi que ce soit d'irréversible, la boucle agentique nécessite un humain au milieu.

Les appels courts à volume élevé. La boucle agentique est par sa nature multi-étapes. Prévoyez cela opérationnellement. Ce n'est pas un modèle à mettre derrière un chatbot.

Comment il se compare aux alternatives

Le concurrent le plus direct est la capacité de contrôle informatique d'Anthropic intégrée dans la famille Claude. La forme du travail est similaire : capture d'écran en entrée, action structurée en sortie. La différence est opérationnelle :

  • Le contrôle informatique d'Anthropic vit dans la famille de modèles Claude ordinaire.
  • Le Computer Use Preview de Google est un identifiant de modèle séparé avec des conventions de prompting quelque peu différentes.

Pour les charges de travail déjà sur Claude, l'option Anthropic est l'intégration la plus simple. Pour celles déjà sur la pile Google, le 2.5 Computer Use Preview vous garde dans le même écosystème.

La qualité est compétitive entre les deux. Les deux font des mauvaises lectures occasionnelles sur les interfaces denses. Les deux gèrent bien les interfaces modernes propres. Les deux peinent avec les très petits éléments d'interface, le texte à faible contraste et les dialogues qui chevauchent le contenu.

Patterns pratiques

Quelques points à savoir avant de construire sur ce modèle :

  • La boucle agentique va parfois se bloquer — cliquer au mauvais endroit, rater une popup, répéter une action qui n'a pas produit le résultat attendu. Construisez un compteur d'étapes et un mécanisme de réinitialisation.
  • La résolution des captures d'écran compte. Trop basse et le modèle lit mal les éléments d'interface ; trop haute et vous gaspillez des tokens de contexte sur des pixels non pertinents.
  • L'historique d'actions aide. Inclure les dernières actions dans le prompt réduit les boucles où le modèle retente quelque chose qui a déjà échoué.
  • Certaines tâches bénéficient d'être décomposées en sous-objectifs explicites plutôt que confiées au modèle comme une seule instruction de haut niveau.

Notes de déploiement

API Google Gemini standard mais avec des conventions de prompting spécifiques au flux de contrôle informatique. Le format de sortie d'action structuré est documenté séparément du guide général de prompting Gemini.

La disponibilité régionale suit le schéma Vertex AI standard de Google. Les régions UE sont disponibles sur les contrats Enterprise.

Le modèle lui-même n'exécute pas les actions. Vous avez besoin d'un harnais autour de lui qui traduit la sortie d'action structurée du modèle en interaction réelle au niveau du SE. Plusieurs frameworks open-source existent pour cela.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Gemini 2.5 Computer Use Preview 10-2025 — illustration 2Gemini 2.5 Computer Use Preview 10-2025 — illustration 3
Dernier test automatisé
14 juin 2026 · 04:55 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026