Ist das Modell produktionsreif?

Nein. Als Preview-Release vom Oktober 2025 dient es primär Forschungs- und Entwicklungszwecken. Verhalten, Verfügbarkeit und API-Vertrag können sich ohne Vorankündigung ändern.

Wie groß ist das Kontextfenster und reicht das für komplexe Agenten-Sessions?

Mit 131.072 Token bietet das Modell ausreichend Kapazität, um längere Aktionshistorien, Screenshots und Anweisungen innerhalb einer Sitzung zu verarbeiten. Für sehr lange autonome Läufe empfiehlt sich dennoch eine externe Zustandsverwaltung.

Welche Sicherheitsaspekte sollten beim Einsatz berücksichtigt werden?

Da das Modell Aktionen auf echten Oberflächen auslösen kann, sind Sandboxing, Berechtigungsgrenzen und menschliche Freigaben für kritische Schritte unverzichtbar. Ein ungeschützter Einsatz birgt Risiken durch unerwartete UI-Zustände oder Prompt Injection.

Wie integriert man das Modell in bestehende Automatisierungs-Pipelines?

Die Anbindung erfolgt über die Gemini-API von Google, typischerweise kombiniert mit einer Browser- oder Desktop-Automatisierungsschicht, die Screenshots liefert und Aktionen ausführt. Frameworks für Tool-Use und Agent-Orchestrierung erleichtern die Integration deutlich.

Tier B — Produktion

Läuft in:USErstellt in:United States

Google Gemini

Gemini 2.5 Computer Use Preview 10-2025

Tier B — Produktion · 131K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 24. Mai 2026

Gemini 2.5 Computer Use Preview 10-2025 ist ein experimentelles Sprachmodell von Google, das KI-Agenten ermöglichen soll, mit Computerschnittstellen ähnlich wie menschliche Nutzer zu interagieren. Das Modell geht über die übliche Textgenerierung hinaus und integriert Fähigkeiten zum Verstehen und Erzeugen von Anweisungen für Computer-Steuerungsaufgaben, etwa das Navigieren in Benutzeroberflächen, das Anklicken von Schaltflächen, das Ausfüllen von Formularen sowie das Ausführen mehrstufiger Workflows in verschiedenen Anwendungen. Es steht für Googles Erkundung agentenbasierter KI-Systeme, die sowohl Sprachverständnis als auch Interaktion mit digitalen Umgebungen erfordern. Das Modell verfügt über ein Kontextfenster von 131.000 Token und kann damit umfangreiche Informationen innerhalb einer Sitzung verarbeiten. Während es standardmäßige Textgenerierungsaufgaben unterstützt, liegt sein Alleinstellungsmerkmal in der Computer-Use-Funktionalität: Es interpretiert Screenshots, erkennt UI-Elemente und erzeugt passende Aktionen, um vom Nutzer vorgegebene Ziele zu erreichen. Damit positioniert es sich eher als Werkzeug für Automatisierung, Tests und Forschung zu KI-Agentenfähigkeiten als primär für Konversation oder Content-Erstellung. Innerhalb der Gemini-Produktreihe von Google besetzt diese Preview-Version eine spezialisierte Nische mit Fokus auf die Weiterentwicklung von Computerinteraktionsfähigkeiten. Als im Oktober 2025 veröffentlichtes Preview-Modell dient es Entwicklern und Organisationen als Forschungs- und Entwicklungsplattform für Anwendungen mit autonomen Agenten. Nutzer können damit KI-gesteuerte Computer-Steuerung erproben, während Google die Technologie für einen breiteren Einsatz weiter verfeinert.

Ein experimenteller Vorstoß von Google in die Welt agentischer KI-Systeme, der Sprachverständnis mit konkreter Interaktion auf Benutzeroberflächen verbindet.
— Tokonomix Editorial Review

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Gemini 2.5 Computer Use Preview 10-2025

$1.25 pro 1M Input-Tokens

$10.00 pro 1M Output-Tokens

≈ $0.0028 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$1.25

pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Direkte Steuerung von BenutzeroberflächenMehrstufige Workflow-NavigationInterpretation von Screenshots und UI-ElementenGeeignet für agentische Automatisierung131k Token KontextfensterForschungsplattform für autonome AgentenAnwendungsübergreifende AktionskettenEingebettet in das Google-Gemini-Ökosystem

Schwächen

Preview-Status ohne ProduktionsgarantienCapabilities und Tier nicht offiziell dokumentiertNicht primär für klassische Chat-Aufgaben optimiertRegionale Verfügbarkeit eingeschränkt

Abschnitt 03

Fähigkeiten

toolssource: litellmvisionoutputTokenLimit: 65536max output tokens: 64000

Abschnitt 04

Häufig gestellte Fragen

Es richtet sich an Entwickler, die KI-Agenten bauen, welche autonom mit Benutzeroberflächen interagieren – etwa Formulare ausfüllen, Buttons klicken oder mehrstufige Aufgaben in Browsern und Anwendungen ausführen. Reine Textaufgaben lassen sich besser mit anderen Gemini-Varianten lösen.

Für Teams, die autonome Browser- und UI-Agenten erforschen, ist dieses Preview ein vielversprechender Baustein – produktionsreif ist es jedoch noch nicht.
— Tokonomix Verdict

Abschnitt 05

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

● 2026-07-26

Gemini 2.5 Computer Use maintains tool and vision capabilities

Gemini 2.5 Computer Use Preview continues to offer both tool integration and vision capabilities without measurable changes in this benchmark window. The model maintains its core functionality for computer interaction tasks, allowing it to process visual inputs and utilize external tools as part of its operational framework. No performance regressions or improvements were detected across the evaluated metrics, suggesting stable model behavior between benchmark periods. Users can expect consistent performance for tasks requiring multimodal understanding and tool orchestration. The model remains in preview status, indicating ongoing development and potential future refinements. Organizations considering this model for computer use automation should note the stability of its current capabilities while remaining aware of its preview designation. The absence of benchmark fluctuations suggests reliable behavior for integration into existing workflows, though users should continue monitoring for updates as Google iterates on this specialized model variant.

Quality

—

Latency p50

—

Test runs

✓ Tool capabilities maintained✓ Vision support stable

Abschnitt 07

Vollständiges Modellprofil

Gemini 2.5 Computer Use Preview (Okt. 2025): der Desktop-Steuerungs-Spezialist

Hinweis — zukunftsgerichtetes Profil. Gemini 2.5 Computer Use Preview (gemini-2.5-computer-use-preview-10-2025) ist ein Preview-Snapshot. Verhalten, Fähigkeiten und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern. Betrachten Sie die folgenden Beobachtungen als Momentaufnahme eines sich entwickelnden Modells.

Dies ist kein Allzweck-Chat-Modell. Gemini 2.5 Computer Use Preview ist Googles Spezialist für agentische Desktop-Steuerung — einen Screenshot betrachten, entscheiden, was geklickt werden soll, in Felder tippen, durch eine Benutzeroberfläche scrollen. Es ist Googles Antwort auf die breitere Kategorie, die Anthropic mit eigenen Computer-Use-Modellen popularisiert hat.

Das Kontextfenster von 131.072 Token ist mehr als genug für den typischen Desktop-Steuerungs-Loop: ein System-Prompt, der die Aufgabe beschreibt, ein oder zwei Screenshots des aktuellen Zustands, ein Aktionsverlauf und die nächste Aktionsausgabe des Modells. Text-plus-Vision-Eingabe ist das richtige Grundelement für die Arbeit.

Was es tatsächlich tut

Das Modell ist trainiert, den Bildschirmzustand zu nehmen und strukturierte Aktionen zu produzieren. Ein typischer Aufruf sieht etwa so aus:

Eingabe: ein Screenshot des aktuellen Bildschirmzustands plus eine Beschreibung des Gesamtziels und der bisher durchgeführten Aktionen.
Ausgabe: eine strukturierte nächste Aktion — Koordinaten zum Klicken, zu tippende Tasten, eine Scroll-Richtung oder ein „Aufgabe abgeschlossen"-Signal.

Der Agent-Loop führt dieses Muster in einem engen Zyklus aus: agieren, neuen Screenshot aufnehmen, nächste Aktion entscheiden. Das Framework um das Modell herum übernimmt die eigentliche Interaktion mit dem Betriebssystem — das Modell ist das Gehirn, nicht die Hände.

Wo es wirklich nützlich ist

Einige Workloads, bei denen spezialisierte Computer-Use-Modelle generische Vision-Language-Modelle bei derselben Aufgabe übertreffen:

Repetitive Desktop-Automatisierung, bei der die Benutzeroberfläche keine saubere API hat. Formulare in Legacy-Desktop-Anwendungen ausfüllen, Daten aus internen Tools scrapen, Workflows in Drittanbieter-Software automatisieren, die keine Automatisierungsoberfläche liefert.
QA-Tests für Desktop- und Webanwendungen, bei denen der Test-Harness die Benutzeroberfläche so ausüben muss, wie es ein Nutzer tun würde.
Barrierefreiheitswerkzeuge, die den UI-Zustand für assistive Zwecke verstehen müssen.
Agentische Workflows, bei denen ein Teil der Aufgabe „geh mit dieser Webanwendung interagieren" ist, statt ihre API aufzurufen.

Das Muster: Aufgaben, bei denen eine Person sagen würde „Ich würde das einfach in der Benutzeroberfläche erledigen, das dauert fünf Minuten", passen sauber auf Computer-Use-Modelle. Aufgaben, bei denen bereits ein API-Aufruf existiert, brauchen diese Stufe nicht — die API aufrufen.

Wann es das falsche Werkzeug ist

Allgemeines Gespräch. Dies ist kein Chat-Modell. Die Trainings- und Prompt-Muster sind auf strukturierte Aktionsausgabe ausgerichtet, nicht auf freien Dialog.

Alles mit einer sauberen API. Wenn die Aufgabe „eine E-Mail senden" ist, sollte das Modell nicht zu einer Webmail-Oberfläche navigieren — eine E-Mail-API aufrufen. Computer-Use-Modelle sind die richtige Wahl, wenn keine API existiert, nicht wenn eine vorhanden ist.

Sicherheitskritische Aktionen ohne menschliche Überprüfung. Das Modell macht Fehler — falsche Klicks, falsche Felder, gelegentliche Fehllesungen des Bildschirmzustands. Für Workflows, die echtes Geld, echte Daten oder irgendetwas Irreversibles berühren, braucht der Agent-Loop einen Menschen in der Mitte.

Hochvolumige kurze Aufrufe. Der Agent-Loop ist von Natur aus mehrstufig. Das operationell einplanen. Dies ist kein Modell für einen Chatbot.

Vision-Aufgaben, die nicht spezifisch UI-geprägt sind. Für Dokumentenlesevorgänge, Diagrammverständnis oder Analyse von Abbildungen passt ein allgemeines Vision-Language-Modell besser. Computer Use ist auf Bildschirmzustandsinterpretation spezialisiert, nicht auf beliebige Vision-Arbeit.

Vergleich mit Alternativen

Der direkteste Konkurrent ist Anthropics Computer-Use-Fähigkeit, die in die Claude-Familie eingebaut ist. Die Form der Arbeit ist ähnlich: Screenshot rein, strukturierte Aktion raus. Der Unterschied ist operationell:

Anthropics Computer-Use lebt in der regulären Claude-Modellfamilie — gleiche Oberfläche, gleiche Authentifizierung, gleiches allgemeines Verhalten.
Googles Computer Use Preview ist ein separater Modellbezeichner mit etwas anderen Prompt-Konventionen.

Für Workloads, die bereits auf Claude sind, ist die Anthropic-Option die einfachere Integration. Für Workloads, die bereits auf Googles Stack sind, hält die 2.5-Computer-Use-Preview im gleichen Ökosystem.

Qualität ist zwischen den beiden wettbewerbsfähig. Beide machen gelegentliche Fehllesungen auf dichten Benutzeroberflächen. Beide behandeln saubere moderne Interfaces gut. Beide kämpfen mit sehr kleinen UI-Elementen, kontrastarmen Texten und Dialogen, die Inhalte überlagern. Spezifische Workload-Benchmarks variieren stärker nach Anwendung als nach Modell.

Praktische Muster

Einiges, was man vor dem Aufbau auf diesem Modell wissen sollte:

Der Agent-Loop wird manchmal stecken bleiben — falsch klicken, ein Popup verpassen, eine Aktion wiederholen, die nicht das erwartete Ergebnis produziert hat. Einen Schrittzähler und einen Reset-Mechanismus einbauen.
Screenshot-Auflösung ist wichtig. Zu niedrig und das Modell liest UI-Elemente falsch; zu hoch und man verschwendet Kontext-Token auf irrelevante Pixel. Gegen die spezifische Anwendung testen.
Aktionsverlauf hilft. Die letzten paar Aktionen im Prompt einzuschließen reduziert Loops, bei denen das Modell etwas erneut versucht, das bereits fehlgeschlagen ist.
Einige Aufgaben profitieren davon, in explizite Teilziele aufgeteilt zu werden, statt dem Modell als eine einzige hochrangige Anweisung übergeben zu werden.

Benchmarks

Computer Use ist eine schwer sauber zu benchmarkende Kategorie, weil echte Anwendungen so stark variieren. Das Kategorie-Bild über Vision-Language-Modelle finden Sie auf /benchmarks/intelligence, aber die Schlagzeilen-Zahlen dort sagen nicht immer die Performance bei einem spezifischen Desktop-Automatisierungs-Workload vorher.

Für agentische Loop-Performance: Kandidatenmodelle gegen das eigene Aufgabenset laufen lassen. Die Deltas zwischen Modellen bei echten Anwendungen entsprechen selten dem, was man in synthetischen Benchmarks sieht.

Deployment-Hinweise

Standard-Google-Gemini-API, aber mit Prompt-Konventionen, die spezifisch für den Computer-Use-Flow sind. Das strukturierte Aktionsausgabe-Format ist separat vom allgemeinen Gemini-Prompt-Leitfaden dokumentiert; die modellspezifische Referenz konsultieren.

Regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region.

Das Modell selbst führt keine Aktionen aus. Man braucht einen Harness darum herum, der die strukturierte Aktionsausgabe des Modells in tatsächliche OS-Level-Interaktion übersetzt. Mehrere Open-Source-Frameworks existieren hierfür; die richtige Wahl hängt davon ab, ob das Ziel Webbrowser, native Desktop-Apps oder beides ist.

Wann Sie es einsetzen sollten

Greifen Sie zu Gemini 2.5 Computer Use Preview, wenn:

Der Workload die Steuerung einer Benutzeroberfläche umfasst, die keine API anbietet.
Sie bereits auf dem Google-Stack sind und dort bleiben wollen.
Der Agent-Loop mit menschlicher Aufsicht für irreversible Aktionen läuft.
Preview-Tier-Zuverlässigkeit akzeptabel ist — dies ist Preview, keine GA.

Wählen Sie etwas anderes, wenn:

Eine API für die Aufgabe existiert. Die API aufrufen.
Die Arbeit allgemeine Vision oder Konversation statt UI-Interaktion ist.
GA-Tier-Stabilität und Ratenlimits benötigt werden.
Die Integrationskosten für den Aufbau des Agent-Harness den Wert der Automatisierung des Workflows überwiegen.

Zusammenfassung: Spezialisiertes Werkzeug für eine spezialisierte Kategorie. Wenn der Workload passt, erledigt es die Arbeit. Wenn nicht, ist fast alles andere die bessere Wahl.

Testen Sie es mit einer echten UI-Automatisierungsaufgabe unter /live-test. Das Verhalten ist markant genug, dass man es sehen sollte, bevor man mit einem Aufbau beginnt.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

21. Juni 2026 · 04:48 UTC · Benchmark

P50-Latenz

—

P95-Latenz

—

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026