
Hinweis — zukunftsgerichtetes Profil. Gemini 2.5 Computer Use Preview (
gemini-2.5-computer-use-preview-10-2025) ist ein Preview-Snapshot. Verhalten, Fähigkeiten und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern. Betrachten Sie die folgenden Beobachtungen als Momentaufnahme eines sich entwickelnden Modells.
Dies ist kein Allzweck-Chat-Modell. Gemini 2.5 Computer Use Preview ist Googles Spezialist für agentische Desktop-Steuerung — einen Screenshot betrachten, entscheiden, was geklickt werden soll, in Felder tippen, durch eine Benutzeroberfläche scrollen. Es ist Googles Antwort auf die breitere Kategorie, die Anthropic mit eigenen Computer-Use-Modellen popularisiert hat.
Das Kontextfenster von 131.072 Token ist mehr als genug für den typischen Desktop-Steuerungs-Loop: ein System-Prompt, der die Aufgabe beschreibt, ein oder zwei Screenshots des aktuellen Zustands, ein Aktionsverlauf und die nächste Aktionsausgabe des Modells. Text-plus-Vision-Eingabe ist das richtige Grundelement für die Arbeit.
Was es tatsächlich tut
Das Modell ist trainiert, den Bildschirmzustand zu nehmen und strukturierte Aktionen zu produzieren. Ein typischer Aufruf sieht etwa so aus:
- Eingabe: ein Screenshot des aktuellen Bildschirmzustands plus eine Beschreibung des Gesamtziels und der bisher durchgeführten Aktionen.
- Ausgabe: eine strukturierte nächste Aktion — Koordinaten zum Klicken, zu tippende Tasten, eine Scroll-Richtung oder ein „Aufgabe abgeschlossen"-Signal.
Der Agent-Loop führt dieses Muster in einem engen Zyklus aus: agieren, neuen Screenshot aufnehmen, nächste Aktion entscheiden. Das Framework um das Modell herum übernimmt die eigentliche Interaktion mit dem Betriebssystem — das Modell ist das Gehirn, nicht die Hände.
Wo es wirklich nützlich ist
Einige Workloads, bei denen spezialisierte Computer-Use-Modelle generische Vision-Language-Modelle bei derselben Aufgabe übertreffen:
- Repetitive Desktop-Automatisierung, bei der die Benutzeroberfläche keine saubere API hat. Formulare in Legacy-Desktop-Anwendungen ausfüllen, Daten aus internen Tools scrapen, Workflows in Drittanbieter-Software automatisieren, die keine Automatisierungsoberfläche liefert.
- QA-Tests für Desktop- und Webanwendungen, bei denen der Test-Harness die Benutzeroberfläche so ausüben muss, wie es ein Nutzer tun würde.
- Barrierefreiheitswerkzeuge, die den UI-Zustand für assistive Zwecke verstehen müssen.
- Agentische Workflows, bei denen ein Teil der Aufgabe „geh mit dieser Webanwendung interagieren" ist, statt ihre API aufzurufen.
Das Muster: Aufgaben, bei denen eine Person sagen würde „Ich würde das einfach in der Benutzeroberfläche erledigen, das dauert fünf Minuten", passen sauber auf Computer-Use-Modelle. Aufgaben, bei denen bereits ein API-Aufruf existiert, brauchen diese Stufe nicht — die API aufrufen.
Wann es das falsche Werkzeug ist
Allgemeines Gespräch. Dies ist kein Chat-Modell. Die Trainings- und Prompt-Muster sind auf strukturierte Aktionsausgabe ausgerichtet, nicht auf freien Dialog.
Alles mit einer sauberen API. Wenn die Aufgabe „eine E-Mail senden" ist, sollte das Modell nicht zu einer Webmail-Oberfläche navigieren — eine E-Mail-API aufrufen. Computer-Use-Modelle sind die richtige Wahl, wenn keine API existiert, nicht wenn eine vorhanden ist.
Sicherheitskritische Aktionen ohne menschliche Überprüfung. Das Modell macht Fehler — falsche Klicks, falsche Felder, gelegentliche Fehllesungen des Bildschirmzustands. Für Workflows, die echtes Geld, echte Daten oder irgendetwas Irreversibles berühren, braucht der Agent-Loop einen Menschen in der Mitte.
Hochvolumige kurze Aufrufe. Der Agent-Loop ist von Natur aus mehrstufig. Das operationell einplanen. Dies ist kein Modell für einen Chatbot.
Vision-Aufgaben, die nicht spezifisch UI-geprägt sind. Für Dokumentenlesevorgänge, Diagrammverständnis oder Analyse von Abbildungen passt ein allgemeines Vision-Language-Modell besser. Computer Use ist auf Bildschirmzustandsinterpretation spezialisiert, nicht auf beliebige Vision-Arbeit.
Vergleich mit Alternativen
Der direkteste Konkurrent ist Anthropics Computer-Use-Fähigkeit, die in die Claude-Familie eingebaut ist. Die Form der Arbeit ist ähnlich: Screenshot rein, strukturierte Aktion raus. Der Unterschied ist operationell:
- Anthropics Computer-Use lebt in der regulären Claude-Modellfamilie — gleiche Oberfläche, gleiche Authentifizierung, gleiches allgemeines Verhalten.
- Googles Computer Use Preview ist ein separater Modellbezeichner mit etwas anderen Prompt-Konventionen.
Für Workloads, die bereits auf Claude sind, ist die Anthropic-Option die einfachere Integration. Für Workloads, die bereits auf Googles Stack sind, hält die 2.5-Computer-Use-Preview im gleichen Ökosystem.
Qualität ist zwischen den beiden wettbewerbsfähig. Beide machen gelegentliche Fehllesungen auf dichten Benutzeroberflächen. Beide behandeln saubere moderne Interfaces gut. Beide kämpfen mit sehr kleinen UI-Elementen, kontrastarmen Texten und Dialogen, die Inhalte überlagern. Spezifische Workload-Benchmarks variieren stärker nach Anwendung als nach Modell.
Praktische Muster
Einiges, was man vor dem Aufbau auf diesem Modell wissen sollte:
- Der Agent-Loop wird manchmal stecken bleiben — falsch klicken, ein Popup verpassen, eine Aktion wiederholen, die nicht das erwartete Ergebnis produziert hat. Einen Schrittzähler und einen Reset-Mechanismus einbauen.
- Screenshot-Auflösung ist wichtig. Zu niedrig und das Modell liest UI-Elemente falsch; zu hoch und man verschwendet Kontext-Token auf irrelevante Pixel. Gegen die spezifische Anwendung testen.
- Aktionsverlauf hilft. Die letzten paar Aktionen im Prompt einzuschließen reduziert Loops, bei denen das Modell etwas erneut versucht, das bereits fehlgeschlagen ist.
- Einige Aufgaben profitieren davon, in explizite Teilziele aufgeteilt zu werden, statt dem Modell als eine einzige hochrangige Anweisung übergeben zu werden.
Benchmarks
Computer Use ist eine schwer sauber zu benchmarkende Kategorie, weil echte Anwendungen so stark variieren. Das Kategorie-Bild über Vision-Language-Modelle finden Sie auf /benchmarks/intelligence, aber die Schlagzeilen-Zahlen dort sagen nicht immer die Performance bei einem spezifischen Desktop-Automatisierungs-Workload vorher.
Für agentische Loop-Performance: Kandidatenmodelle gegen das eigene Aufgabenset laufen lassen. Die Deltas zwischen Modellen bei echten Anwendungen entsprechen selten dem, was man in synthetischen Benchmarks sieht.
Deployment-Hinweise
Standard-Google-Gemini-API, aber mit Prompt-Konventionen, die spezifisch für den Computer-Use-Flow sind. Das strukturierte Aktionsausgabe-Format ist separat vom allgemeinen Gemini-Prompt-Leitfaden dokumentiert; die modellspezifische Referenz konsultieren.
Regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region.
Das Modell selbst führt keine Aktionen aus. Man braucht einen Harness darum herum, der die strukturierte Aktionsausgabe des Modells in tatsächliche OS-Level-Interaktion übersetzt. Mehrere Open-Source-Frameworks existieren hierfür; die richtige Wahl hängt davon ab, ob das Ziel Webbrowser, native Desktop-Apps oder beides ist.
Wann Sie es einsetzen sollten
Greifen Sie zu Gemini 2.5 Computer Use Preview, wenn:
- Der Workload die Steuerung einer Benutzeroberfläche umfasst, die keine API anbietet.
- Sie bereits auf dem Google-Stack sind und dort bleiben wollen.
- Der Agent-Loop mit menschlicher Aufsicht für irreversible Aktionen läuft.
- Preview-Tier-Zuverlässigkeit akzeptabel ist — dies ist Preview, keine GA.
Wählen Sie etwas anderes, wenn:
- Eine API für die Aufgabe existiert. Die API aufrufen.
- Die Arbeit allgemeine Vision oder Konversation statt UI-Interaktion ist.
- GA-Tier-Stabilität und Ratenlimits benötigt werden.
- Die Integrationskosten für den Aufbau des Agent-Harness den Wert der Automatisierung des Workflows überwiegen.
Zusammenfassung: Spezialisiertes Werkzeug für eine spezialisierte Kategorie. Wenn der Workload passt, erledigt es die Arbeit. Wenn nicht, ist fast alles andere die bessere Wahl.
Testen Sie es mit einer echten UI-Automatisierungsaufgabe unter /live-test. Das Verhalten ist markant genug, dass man es sehen sollte, bevor man mit einem Aufbau beginnt.
Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

