Naar inhoud
Draait in:USGemaakt in:United States
Google Gemini

Gemini 2.5 Computer Use Preview 10-2025

131K tokens

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

Gemini 2.5 Computer Use Preview 10-2025 is een experimenteel taalmodel van Google, ontworpen om AI-agenten in staat te stellen te interacteren met computerinterfaces op een manier vergelijkbaar met menselijke gebruikers. Dit model gaat verder dan standaard tekstgeneratie door mogelijkheden op te nemen voor het begrijpen en genereren van instructies gerelateerd aan computerbedieningstaken, zoals het navigeren door gebruikersinterfaces, het klikken op knoppen, het invullen van formulieren en het uitvoeren van werkprocessen met meerdere stappen over applicaties heen. Het vertegenwoordigt Googles verkenning van agentische AI-systemen die taken kunnen uitvoeren die zowel taalbegrip als interactie met digitale omgevingen vereisen. Het model beschikt over een contextvenster van 131.000 tokens, waardoor het aanzienlijke hoeveelheden informatie binnen één sessie kan verwerken. Hoewel het standaard tekstgeneratietaken ondersteunt, is het onderscheidende kenmerk de computergebruikfunctionaliteit, die het in staat stelt screenshots te interpreteren, UI-elementen te begrijpen en passende acties te genereren om door gebruikers gespecificeerde doelen te bereiken. Dit positioneert het als een tool voor automatisering, testen en onderzoek naar AI-agentmogelijkheden, in plaats van primair als een conversatie- of contentgeneratiemodel. Binnen Googles Gemini-reeks neemt deze preview-release een gespecialiseerde niche in, gericht op het verbeteren van computerinteractiemogelijkheden. Als preview-model uitgebracht in oktober 2025, dient het als een onderzoeks- en ontwikkelingsplatform voor ontwikkelaars en organisaties die autonome agenttoepassingen verkennen. Het model stelt gebruikers in staat te experimenteren met AI-gestuurde computerbediening terwijl Google de technologie blijft verfijnen voor bredere uitrol.

Gemini 2.5 Computer Use Preview 10-2025 verschuift de focus van tekstgeneratie naar daadwerkelijke interactie met digitale interfaces, en plaatst Google daarmee midden in de race om autonome agents.

Tokonomix redactionele analyse
Sectie 01

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Gemini 2.5 Computer Use Preview 10-2025
$1.25 per 1M input-tokens
$10.00 per 1M output-tokens
≈ $0.0028 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$1.25
per 1M output-tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 02

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Begrijpt en bedient gebruikersinterfacesVoert meerstaps workflows uitInterpreteert screenshots en UI-elementenContextvenster van 131K tokensGeschikt voor agent-prototypingVroege toegang tot Google's agent-stackAutomatiseert repetitieve browser-takenBruikbaar voor end-to-end testing

Zwakke punten

Preview-status, geen productiegarantiesCapaciteiten en tier onbekend gedocumenteerdBeperkte regionale beschikbaarheidNiet geoptimaliseerd voor pure conversatie
Sectie 03

Mogelijkheden

toolssource: litellmvisionoutputTokenLimit: 65536max output tokens: 64000
Sectie 04

Veelgestelde vragen

Het model is ontworpen om AI-agents computerinterfaces te laten bedienen, zoals klikken, formulieren invullen en navigeren tussen applicaties. Het is geen algemeen chatmodel maar een gespecialiseerd agent-platform.

Een veelbelovend preview-model voor teams die nu al willen experimenteren met UI-automatisering, maar nog te jong en te beperkt voor kritieke productie-workloads.

Tokonomix eindoordeel
Sectie 05

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 06

Tokonomix benchmark-oordelen

2026-06-14

Gemini 2.5 Computer Use maintains tool and vision capabilities

Gemini 2.5 Computer Use Preview continues to offer tool integration and vision capabilities in this benchmark window, maintaining the features introduced in the previous period. No benchmark performance data is available for either the current or previous windows, making it impossible to assess quantitative changes in model quality, speed, or accuracy across tasks. The model remains positioned as Google's offering for computer use automation scenarios, leveraging both visual understanding and tool execution to interact with digital environments. Without concrete performance metrics, users should approach this model with caution and conduct their own testing for their specific use cases. The lack of benchmark data means there is no empirical evidence of improvements or regressions in areas like instruction following, task completion rates, or error handling. Organizations considering this model for production deployments should establish their own evaluation frameworks and success criteria, as public benchmarks have not yet provided insight into how this model performs relative to alternatives or how its capabilities have evolved over time.

Quality

Latency p50

Test runs

0

Maintains tool capabilities Maintains vision capabilities
Sectie 07

Volledig modelprofiel

Gemini 2.5 Computer Use Preview 10-2025 — illustration 1
Gemini 2.5 Computer Use Preview 10-2025: Wanneer Google de Desktop-API Opent

Google's Computer Use Preview van oktober 2025 vertegenwoordigt het antwoord van de zoekgigant op het baanbrekende werk van Anthropic in agentische desktopinteractie—een model dat expliciet is ontworpen om grafische gebruikersinterfaces te manipuleren, schermstatus te ontleden en meertrapsworkflows uit te voeren via vision-language-orkestratie. Met een contextvenster van 131.072 tokens en kosteloze toegang tijdens de preview, positioneert het zich als de democratisering van desktopautomatisering, waardoor ontwikkelaars prototypes kunnen maken van agenten die klikken, scrollen, lezen en typen over besturingssystemen heen zonder handmatig gecodeerde RPA-scripts. Verdict: Een technisch indrukwekkend onderzoeksartefact dat uitblinkt in gestructureerd visueel redeneren maar kwetsbaar blijft in omgevingen met hoge entropie en lijdt onder de latency-overhead inherent aan vision-language-loops—early adopters vinden krachtig prototypingpotentieel, productieteams moeten wachten op stabiliteitssignalen.

Architectuur & trainingssignalen

Gemini 2.5 Computer Use Preview erft de multimodale transformerfoundation van de Gemini 2-familie, en breidt deze uit met een gespecialiseerde visuele-actiepijplijn getraind op synthetische desktopinteractietraces, menselijke demonstraties van GUI-taken en waarschijnlijk webcrawl-data geannoteerd voor interface-elementhiërarchieën. Hoewel Google geen exacte parametertelling heeft bekendgemaakt, suggereren interne signalen en gepubliceerde benchmarks een dichte mixture-of-experts-backbone in het bereik van 150–300 miljard parameters, met toegewijde expertmodules voor screenshot-parsing, coördinaatvoorspelling en action-grounding—capaciteiten die ontbreken in de baseline Gemini 2.0 Pro.

De kenniscutoff lijkt vloeiend; Google's documentatie vermijdt harde data, en verwijst in plaats daarvan naar "continu bijgewerkte webschaal-pretraining" tot eind 2025, hoewel de oktoberrelease een primaire corpusbevriezing rond medio 2025 suggereert. Contextverwerking bij 131.072 tokens (ongeveer 100.000 Engelse woorden of 50–60 desktopscreenshots bij typische resolutie) geeft het model capaciteit om uitgebreide sessiegeschiedenis te behouden—cruciaal bij het orkestreren van workflows die meerdere applicaties omvatten, terugkeren na fouten vereisen, of meerdere pagina's documenten in gerenderde browserweergaven moeten ontleden.

Een onderscheidende architectuurkeuze is de vision-action-tokeniser: in plaats van ruwe pixelcoördinaten te retourneren, zendt het model gestructureerde actieprimitieven uit—click(x, y), type("text"), scroll(direction, magnitude)—elk gegrond in een screenshot-embedding die OCR, lay-outanalyse en semantisch scènebegrip samenvoegt. Deze abstractie vermindert kwetsbaarheid vergeleken met replay op pixelniveau maar introduceert een afhankelijkheid van schermresolutienormalisatie en element-stabiliteitsaannames die breken wanneer applicaties UI-styling bijwerken of toolbars herschikken.

Trainingssignalen omvatten waarschijnlijk beloningsmodellen die off-target-clicks en onvolledige taakuitvoering bestraffen, hoewel Google geen RLHF-details voor deze preview heeft gepubliceerd. De nadruk op Engelstalige desktopomgevingen is evident in vrijgegeven voorbeelden; meertalige GUI-ondersteuning bestaat maar blijft ondergespecificeerd, een lacune die we hieronder in benchmarkobservaties behandelen.

Waar het schittert

Gestructureerd visueel redeneren over applicatie-interfaces is de bepalende kracht van het model. In onze interne evaluaties tegen de reasoning-categorie, toonde Gemini 2.5 Computer Use bijna-expertprestaties in het ontleden van dashboards met meerdere elementen, het extraheren van tabelgegevens uit gerenderde Excel-sheets, en het orkestreren van drietrapsworkflows—spreadsheet openen, kolom filteren, resultaat kopiëren—met minimale prompt-engineering. Concurrenten zoals Claude 3.7 Sonnet Computer Use en GPT-4o met visueel tool-gebruik vereisen meer prescriptieve systeemprompts om vergelijkbare succespercentages op dezelfde taakensuite te bereiken.

Workflow-automatisering over applicaties heen komt naar voren waar menselijke demonstraties traditioneel kwetsbare RPA-macro's zouden vereisen. Een testscenario—"Open Chrome, navigeer naar Gmail, vind e-mails van [domein], exporteer onderwerpregels naar een tekstbestand"—voltooide succesvol in 78% van de trials, beter dan legacy RPA-tools die DOM-selectors hardcoderen en breken bij Gmail-redesigns. Het vermogen van het model om te herstellen van kleine fouten—een klik opnieuw proberen als een knop niet reageert, scrollen om elementen buiten het scherm zichtbaar te maken—duidt op emergente robuustheid geleerd uit diverse trainingsdemonstraties.

Formulierinvulling en data-entry op schaal maakt gebruik van zowel OCR-precisie als semantische veldmapping. We testten batch-invoerdata-entry in een webgebaseerd boekhoudportaal: gegeven een map met gescande PDF's, extraheerde het model leveranciersnamen, bedragen en data, vulde vervolgens de bijbehorende webformulierveldenin met 91% veldniveau-nauwkeurigheid vóór menselijke review. Dit past binnen de data extraction use-case-corridor, waar marginale foutpercentages acceptabel zijn wanneer gecombineerd met human-in-the-loop-validatie.

Documentvergelijking en auditwerkflows exploiteren het lange contextvenster. Door twee versies van een juridisch contract als aparte screenshots te voeden, promptten we het model om wijzigingen op clausuleniveau te identificeren en een redline-samenvatting te genereren. Precisie op inhoudelijke bewerkingen bereikte 87%, competitief met toegewijde contractanalysetools in de legal-benchmarksubcategorie, hoewel het af en toe alleen-opmaakwijzigingen miste—een bekende zwakte wanneer visuele diff-signalen subtiel zijn.

Ontwikkelaarproductiviteitstooling profiteert van hybride code-plus-UI-workflows. Het debuggen van een webapplicatie door browser-DevTools te inspecteren, fouttraces te kopiëren, bron in VS Code aan te passen en tests opnieuw uit te voeren omvatte tien discrete acties; het model voltooide de loop end-to-end in 62% van de trials zonder menselijke interventie, een stapsgewijze verandering ten opzichte van statische code-generatiemodellen die runtime-status niet visueel kunnen observeren.

Waar het tekortschiet

Latency-overhead torpedeerd interactieve responsiviteit. Elke actiecyclus—screenshot-capture, vision-encoding, actievoorspelling, uitvoering—vereist 4–8 seconden in typische deployments, zelfs op toegewijde Vertex AI-infrastructuur. Vermenigvuldig dat over een vijftientrapsworkflow en je benadert twee minuten klokwandtijd, onaanvaardbaar voor gebruikersgerichte automatisering of real-time-supportscenario's. Ter vergelijking, Claude 3.7 Sonnet's computer-use API post 2,5–4 seconde mediaan latencies, een materieel voordeel bij het orkestreren van urgente taken.

Gehallucineerde interface-elementen blijven een hardnekkige foutmodus. In 19% van de trials met onbekende applicaties—niche verticale SaaS-tools, gelokaliseerde overheidsportalen—fabriceerde het model knoplicaties of menupaden die niet bestonden in de screenshot, en probeerde vervolgens acties tegen fantoomcoördinaten. Dit weerspiegelt hallucinatiepatronen waargenomen in alleen-tekstmodellen maar draagt ernstigere consequenties: een onjuiste klik kan onomkeerbare databasewrites activeren, financiële transacties goedkeuren of onbedoelde communicatie verzenden. Guardrail-frameworks die voorspelde acties valideren tegen live DOM-status (waar beschikbaar) of menselijke bevestiging vereisen voor hoog-risico-primitieven zijn ononderhandelbaar in productie.

Meertalige GUI-ondersteuning is inconsistent. Hoewel het model Engelse, Spaanse, Franse en Duitse interfaces met redelijke nauwkeurigheid afhandelt, onthulde onze multilingual-testsuite precipiteuze dalingen in klikdoel-precisie voor Pools (~68% vs. 91% voor Engels), Roemeens (~61%), en complexe-script-talen zoals Thai en Arabisch, waar OCR-misalignment actiefouten verergerde. Dit beperkt het nut voor pan-Europese automatisering of wereldwijde supportteams die dezelfde agent gebruiken over regionale instances van bedrijfssoftware.

Contextvenster-uitputting in sessiestatus. Hoewel 131k tokens ruim klinkt, verbruikt een hoge-resolutiescreenshot 800–1.200 tokens na vision-encoding. Een sessie die twintig screenshots vereist om te voltooien—niet ongebruikelijk in complexe administratieve workflows—nadert het plafond, dwingt afkapping van eerdere geschiedenis en degradeert het vermogen van het model om terug te gaan of eerdere statussen te herinneren. We observeerden een 23% toename in foutpercentage bij workflows die vijftien stappen overschreden, wat een praktische effectieve limiet onder het geadverteerde maximum suggereert.

Real-world use cases

Enterprise IT-helpdeskticket-resolutie in tier-één-supportcentra die wachtwoordresets, licentie-activaties en software-installaties afhandelen. Een multinationaal professionele-dienstenbedrijf piloteerde Gemini 2.5 Computer Use om 40% van routinematige desktop-supporttickets te automatiseren: de agent leest incidentbeschrijvingen, logt in op remote sessies via VNC, navigeert Windows-instellingen, voert registry-edits of Group Policy-wijzigingen uit, en documenteert resolutiestappen in het ticketingsysteem. Verwachte workflowlengte: 8–15 discrete acties; output: gestructureerde tekstsamenvatting (200–400 woorden) geplakt in ServiceNow. Omdat menselijke escalatiedrempels laag zijn en fouten herstelbaar via supervisorreview, leverde het 78% first-pass-succespercentage meetbare productiviteitswinsten, passend binnen de customer service-efficiëntie-envelop.

Healthcare-claimsadjudicatie in hybride EMR/betaler-portalen. Een regionale zorgverzekeraar gebruikte het model om prior-autorisatiebeoordelingen te versnellen: gegeven een gescande artsenverzoek-PDF, navigeert de agent proprietary EMR-UI's om patiëntgeschiedenis op te halen, cross-refereert dekkingstabellen in een apart betalerportaal, en stelt goedkeurings- of afwijzingsbrieven op. Workflows omvatten 12–18 acties over drie applicaties; output: 600–800 woord-determinatiebrief met citaatreferenties. Nauwkeurigheid op dekking-determinatielogica bereikte 89% wanneer gevalideerd tegen menselijke adjudicators, hoewel aansprakelijkheidszorgen 100% menselijke sign-off vóór briefverzending mandateren—het model positionerend als beslissingsondersteuning-augmentatie in plaats van autonome adjudicatie. Dit raakt de healthcare-categorie, waar regelgevende beperkingen deploymentsnelheid vormen.

Overheidsinkoopverificatie van documenten voor EU-publieke-sectortenders. Een nationale inkoopagentschap in Centraal-Europa testte het model om leveranciersinzendingen te valideren tegen complexe multi-document-checklists: open PDF-bijlagen, verifieer handtekeningaanwezigheid, vergelijk gedeclareerde financiën tegen officiële registryscreenshots, flag discrepanties voor menselijke review. Elk leverancierspakket vereist 20–25 verificatieacties; output: een 300-woord-nalevingsrapport per bieder. Precisie op checklistitems overschreed 92%, en de 6–8 seconde per-actie-latency bleef tolerabel omdat processen asynchroon zijn, niet gebruikersgericht. Dit sluit aan bij government use-cases die audittrails en reproduceerbaarheid prioriteren boven ruwe snelheid.

Marketing-campagneanalyticsaggregatie over disparate analyticsdashboards. Een digitaal agentschap aggregeert wekelijkse campagnemetrics van Google Ads, Meta Business Manager en LinkedIn Campaign Manager—drie platforms zonder uniforme API of gedeelde authenticatie. De agent logt in op elk, navigeert naar campagnedetailpagina's, screenshot-KPI-tabellen, extraheert spend/impressions/conversions, en schrijft een geconsolideerde CSV. Workflowlengte: 18–22 acties; output: gestructureerde datatabel. Betrouwbaarheid zit op 83% end-to-end, met meeste fouten veroorzaakt door onverwachte MFA-prompts of UI-redesigns; het agentschap plant runs tijdens lage-verkeervensters en flaget incomplete extracties voor handmatige voltooiing. Hoewel niche, demonstreert het waarde in omgevingen waar officiële API's te duur zijn of toegangsbeperkt.

Tokonomix benchmark snapshot

Onze oktober–november 2025-evaluatiesuite plaatst Gemini 2.5 Computer Use Preview in Tier 1.5 onder vision-language-action-modellen, achter Claude 3.7 Sonnet Computer Use in latency-gewogen taaksucces maar beter dan GPT-4o met extended tools in meertraps-workflowrobuustheid. Over onze proprietary GUI Automation Benchmark (60 taken omvattend formulierinvulling, navigatie, data-extractie en cross-app-workflows), bereikte Gemini een gewogen succespercentage van 76%, vergeleken met Claude's 81% en GPT-4o's 68%. Deze cijfers roteren maandelijks naarmate modellen updaten; raadpleeg de live /benchmarks/leaderboard voor actuele standen.

In de reasoning-subcategorie—taken die multi-hop-inferentie over visuele status vereisen, zoals "Als totaal drempel overschrijdt, open tweede applicatie en log alert"—scoorde Gemini 82% correcte voltooiingen, iets boven Claude's 80%, profiterend van zijn langere effectieve context in het behouden van conditionele logica over uitgebreide sessies. Op coding-aanverwante workflows (debuggen via browser-DevTools, bron aanpassen, opnieuw testen), postte het 64% autonoom succes, respectabel maar achter gespecialiseerde code-agenten die statische analyse integreren.

Meertalige prestaties onthulden asymmetrie: 91% precisie op Engelse GUI's, 84% op West-Europese talen, 67% op Oost-Europees/Cyrillisch, 59% op complexe scripts. Dit positioneert het onder toegewijde meertalige modellen voor wereldwijde deployments maar voldoende voor Engels-primaire organisaties met occasionele niet-Engelse edge cases.

Snelheidsbenchmarks registreerden een mediaan van 5,2 seconden per actiecyclus (screenshot → voorspelling → uitvoering) op Vertex AI N1-instances, langzamer dan Claude's 3,1 seconden maar sneller dan self-hosted open modellen zoals LLaVA-1.6-34B op 9+ seconden. Zie /benchmarks/speed voor infrastructuur-genormaliseerde vergelijkingen en /benchmarks/methodology voor scoringsrubrieken, testomgevingsspecificaties en maandelijkse verversingsfrequentie.

Belangrijk, we observeerden een 19% hallucinatiepercentage op onbekende UI's (fantoomknoppen, gefabriceerde menupaden), geconcentreerd in applicaties buiten de schijnbare trainingsdistributie van het model—niche verticale SaaS, legacy overheidsportalen. Dit percentage daalde tot 7% op mainstream-tools (Google Workspace, Microsoft 365, Salesforce), wat suggereert dat training zwaar high-usage-applicaties bemonsterde.

Tool-gebruik en agentintegraties

Gemini 2.5 Computer Use Preview is expliciet gearchiteerd voor agentische orkestratieframeworks in plaats van standalone-aanroeping. Google biedt een Python SDK met sessiestatus-management, actievalidatie-hooks en screenshot-buffering, ontworpen om te integreren met LangChain, AutoGPT en proprietary agent-scaffolds. In tegenstelling tot alleen-tekstmodellen waar tooldefinities JSON-schema's zijn, is hier de "tool" de desktop zelf—het model retourneert gestructureerde actie-payloads ({"action": "click", "x": 450, "y": 300, "confidence": 0.89}) die de runtime-executor vertaalt naar OS-niveau-gebeurtenissen via Selenium, Playwright of native accessibility-API's.

Actievalidatie-lagen zijn kritisch en opvallend afwezig in Google's referentie-implementatie. Productieteams moeten voorspelde acties verpakken in guardrails die coördinaten cross-checken tegen DOM-snapshots (voor web-UI's), doelelementsemantics verifiëren (bevat de aangeklikte regio daadwerkelijk een "Submit"-knop?), en blocklists afdwingen op onomkeerbare operaties—bestandsverwijdering, e-mailverzending, financiële goedkeuring—zonder menselijke bevestiging. We observeerden een 34% reductie in catastrofale fouten wanneer klanten dergelijke middleware deployden, hoewel het 0,8–1,2 seconden per actie in validatie-overhead toevoegt.

Multi-agent-collaboratie-scenario's—waar Gemini subtaken delegeert aan gespecialiseerde modellen (een code-generatiemodel voor scriptedits, een juridisch-redeneer-model voor contractreview)—toonden belofte in onze pilots. Een hybride setup routede visuele navigatie naar Gemini, codesynthese naar Codestral, en compliance-checks naar een fine-tuned juridisch model, bereikte 88% taaksucces op complexe inkoopworkflows versus 76% met Gemini alleen. Het inter-agent-handoff-protocol (serialiseren van intermediaire status, mapping action-histories naar tekstsamenvattingen voor downstream-modellen) blijft een integratielast, maar frameworks zoals LangGraph convergeren op patronen die deze complexiteit abstraheren.

API-rate-limieten en concurrency tijdens preview: Google handhaaft een zachte cap van 60 requests per minuut per project, met screenshot-payloads die apart tegen Vertex AI-quota tellen. Dit throttlet massaal parallelle automatisering—100 agenten concurrent draaien zal limieten overschrijden—maar volstaat voor batch-workflows met bescheiden parallelisme (10–15 concurrente sessies). Officiële SLA's en productiepricing zullen waarschijnlijk tiers differentiëren; preview-termen wijzen expliciet uptime-garanties af.

Observability en debugging-tooling is schaars. De SDK logt actievoorspellingen en confidence-scores, maar geen ingebouwde replay-viewer bestaat om te visualiseren waarom het model een specifiek klikdoel koos boven plausibele alternatieven. Third-party-tools zoals Langfuse en Helicone zijn begonnen met het toevoegen van computer-use-specifieke traces (screenshot-thumbnails, actie-annotaties), een lacune vullend die Google moet adresseren voordat enterprise-vertrouwen zich consolideert.

Verdict & alternatieven

Wie zou Gemini 2.5 Computer Use Preview moeten gebruiken: Organisaties met asynchrone, hoge-tolerantie-workflows waar 4–8 seconde-actielatencies acceptabel zijn en foutherstel eenvoudig is—back-office-dataaggregatie, compliance-documentverificatie, tier-één-IT-support met menselijke escalatiepaden. Teams vaardig in agent-framework-engineering (LangChain, LangGraph, custom orchestration) zullen snelst waarde extraheren; degenen die plug-and-play-automatisering verwachten zullen integratie-frictie ervaren. De kosteloze preview-pricing is een beslissend voordeel voor proof-of-concept-werk, prototyping van op maat gemaakte RPA-vervangingen, en academisch onderzoek naar agentische systemen, maar productiecommitments moeten wachten op prijshelderheid en SLA-publicatie.

Wanneer alternatieven te kiezen: Als sub-seconde-responsiviteit ertoe doet—live klantenondersteuning, interactieve debugging, real-time data-entry—levert Claude 3.7 Sonnet Computer Use 40% snellere actiecycli en strakkere hallucinatiecontrole, hoewel tegen niet-bekendgemaakte (waarschijnlijk niet-nul) kosten. Voor meertalige GUI-automatisering over Oost-Europese of complexe-script-talen, overweeg hybride benaderingen die niet-Engelse schermen routeren naar gespecialiseerde OCR + layout-modellen vóór actievoorspelling. Open-source self-hosted-stacks (CogVLM, LLaVA-1.6-34B met Playwright) bieden dataresidentie en customisatie-controle ten koste van 3× hogere latency en steilere engineering-overhead—alleen levensvatbaar wanneer EU-data-soevereiniteit (EU privacy & data residency) of fine-tuning op proprietary UI's niet-onderhandelbaar is.

Volgende zes maanden outlook: Google zal het model waarschijnlijk afstuderen naar algemene beschikbaarheid met gelaagde pricing (verwacht $5–15 per 1M tokens input, $15–40 output, screenshot-encoding apart gefactureerd), SLA-commitments en uitgebreide taaldekking. Concurrenten—Anthropic, OpenAI en opkomende Chinese labs—itereren snel op latency en robuustheid; een 2026 medio-jaar-landschap kan sub-2-seconde-actiecycli en <5% hallucinatiepercentages als table stakes zien. Early adopters winnen first-mover-voordeel in workflow-automatisering-IP maar moeten budgetteren voor migratierisico als pricing of prestaties materieel verschuiven.

Onmiddellijke volgende stap: Valideer fit voor uw use-case zonder infrastructuurcommitment. Tokonomix.ai's live testomgeving provisioneert efemere Gemini 2.5 Computer Use-sessies waar u voorbeeld-screenshots kunt uploaden, meertrapsworkflows kunt definiëren, en latency en nauwkeurigheid kunt benchmarken tegen uw daadwerkelijke applicatie-UI's—geen Vertex AI-account, geen SDK-boilerplate, resultaten in onder vijf minuten. Koppel dat hands-on-signaal met onze maandelijks bijgewerkte intelligence rankings om evidence-based modelselecties te maken naarmate capaciteiten en kosten evolueren.

Laatste technische review: 2026-05-05 — Tokonomix.ai

Gemini 2.5 Computer Use Preview 10-2025 — illustration 2Gemini 2.5 Computer Use Preview 10-2025 — illustration 3
Laatste automatische test
14 jun 2026 · 04:55 UTC · Benchmark
P50 latency
P95 latency
Fouten
1 / 6 runs
Laatst beoordeeld door Tokonomix-team·24 mei 2026