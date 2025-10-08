Einige KI-Unternehmen arbeiten daran, ihren Tools die Fertigkeit zu verleihen, Browser oder ganze Computer zu steuern. Weil mit der Nutzung von KI-Agenten im Browser aber auch Sicherheitsrisiken einhergehen können, müssen die Modelle vor der Veröffentlichung auf Herz und Nieren geprüft werden. Jetzt zeigt auch Google ein erstes Modell, das solche Fertigkeiten mit sich bringt. In ersten Demovideos ist Gemini 2.5 Computer Use zu sehen, das selbstständig Browser steuern kann.

Gemini als Browser-Assistent: Was die KI jetzt schon kann

Durch das Modell sollen KI-Agenten in der Lage sein, „mit einem User-Interface zu interagieren“. Dazu werden die Anfragen von Nutzer:innen analysiert und in kleinere Aufgaben heruntergebrochen. Das Modell nimmt im Anschluss Screenshots des Bildschirms auf, analysiert diese und kann dadurch den Cursor an die richtige Position bewegen und Texteingaben vornehmen.

In einem Beispiel hat Google der KI folgende Aufgabe gestellt: Auf einem Brainstorming-Board, das auf einer eigenen Website gehostet wird, sollen chaotische Notizzettel in passende Kategorien sortiert werden. Während das Video den Browser links zeigt, seht ihr rechts ein weiteres Fenster, in dem die Gedankengänge des Gemini-Modells nachvollzogen werden können. Im ersten Schritt öffnet die KI den Browser und ruft die angegebene URL über die Adressleiste direkt auf. Jeder Schritt erfordert einen Screenshot, um die Orientierung zu behalten und ein Ziel für die Eingaben zu finden.

Auf der Website „sieht“ Gemini 2.5 Computer Use dann durch die Screenshots die einzelnen Notizzettel und die Kategorien, in die sie sortiert werden sollen. Zunächst analysiert die KI die Zettel ganzheitlich und ordnet sie in „Gedanken“ den Kategorien zu. Erst im nächsten Schritt wird jeder Zettel einzeln in eine Kategoriespalte gezogen und dann noch einmal per Screenshot sichergestellt, dass die korrekte Position gefunden wurde. Am Ende überprüft Gemini noch einmal das Gesamtergebnis, bevor der Abschluss der Aufgabe an die User:innen gemeldet wird.

Diese Einschränkungen hat das Gemini-Modell noch

Das neue Modell ist zunächst nur für Entwickler:innen über Google AI Studio und Vertex AI verfügbar. Wie The Verge berichtet, gibt es aber auch schon jetzt einen Weg, die KI privat in Aktion zu sehen. Auf der Website Browserbase läuft Gemini 2.5 Computer Use schon. Ihr könnt der KI dort mit vorgefertigten Prompts sagen, dass sie Hacker News nach neuen Diskussionen durchsuchen oder die aktuellen Kryptopreise abfragen soll. Alternativ könnt ihr auch eigene Prompts ausprobieren.

Dabei solltet ihr euch aber nicht wundern, wenn die Aufgabe etwas langsamer gelöst wird als in den Beispielvideos von Google. Das Unternehmen weist darauf hin, dass die Clips auf dreifache Geschwindigkeit angehoben wurden. Bis zu einem möglichen Release für End-User:innen dürfte also noch etwas Optimierungspotenzial bestehen.

Zudem betont Google, dass Gemini 2.5 Computer Use trotz seines Namens bisher nicht dazu in der Lage wäre, einen kompletten PC zu steuern. Aktuell beschränkt sich das Repertoire der KI auf 13 Aktionen, wie das Öffnen des Browsers, das Vor- und Zurückspringen auf einer Website oder Drag-and-drop. Dennoch würde Gemini schon jetzt führende Alternativen in ersten Web- und Mobile-Benchmarks schlagen. Ob sich diese Behauptungen bewahrheiten, werden erste Tests von Entwickler:innen zeigen.