Wer KI abseits vom Web-Interface von ChatGPT im Browser einsetzen will, hat dazu mittlerweile eine Reihe von Möglichkeiten. Opera hat entsprechende Features etwa direkt in den Browser integriert und fasst euch so beispielsweise auf Wunsch Inhalte zusammen oder verfasst einen Tweet für euch. Mit einer entsprechenden KI-Erweiterung stehen euch solche Funktionen auch in Chrome oder Firefox zur Verfügung.
Die Fähigkeiten von KI sind damit aber längst nicht ausgereizt. Denn am Ende können moderne KI-Modelle deutlich mehr, als nur simple Texte zu generieren. Wie wäre es beispielsweise, wenn euch KI zeitaufwendige Arbeiten im Web abnehmen könnte? Genau diesem Problem haben sich mittlerweile auch eine Reihe von Open-Source-Projekten verschrieben.
Einmal eingerichtet können die für euch Websites besuchen, und dort mit dem Inhalt interagieren. Sie könnten euch also beispielsweise Informationen zu einer geplanten Reise verschaffen oder Online-Formulare ausfüllen.
Skyvern-AI: Umfangreiche KI-Automation als Open-Source-Lösung und Cloud-Angebot
Eine recht ausgereifte Lösung zur Automation von Web-Arbeiten ist Skyvern-AI. Die Software steht unter der freien AGPL-3.0-Lizenz. Unterstützt wird auch hier eine Reihe von KI-Modellen. Darunter auch OpenAIs GPT-4o oder Anthropics Claude 3. Zukünftig soll Skyvern-AI durch die Integration des KI-Tools Ollama auch um selbstgehostete KI-Modelle erweitert werden können.
Die Installation erfolgt über einen Docker-Container. Außerdem bieten die Skyvern-Macher:innen aber auch eine Cloud-Variante ihres Tools an. Hier belaufen sich die Kosten auf 0,10 US-Dollar pro besuchter Website. Dafür spart ihr euch dann aber den Verwaltungsaufwand.
Interessanterweise versteht sich Skyvern-AI sogar auf den Umgang mit dem Passwortmanager Bitwarden und beherrscht mehrere 2FA-Methoden. Damit wird auch die Interaktion mit Websites ermöglicht, die einen Login erfordern.
Web-Automation mit Browser-Use
Ein noch recht neues Projekt zur Web-Automation per KI nennt sich Browser-Use. Die Software haben die beiden Entwickler Magnus Müller und Gregor Žunič innerhalb von nur fünf Tagen entwickelt. Das Ergebnis dieser Mühen haben sie anschließend unter der MIT-Lizenz auf GitHub veröffentlicht.
Da Browser-Use auf dem KI-Toolkit Langchain aufbaut, seid ihr frei in der Auswahl des zugrundeliegenden KI-Modells. Browser-Use kann mit mehreren Tabs arbeiten und erkennt interaktive Elemente automatisch. Für komplexere Aufgaben könnt ihr mehrere KI-Agenten hintereinander schalten, die dann nacheinander die jeweils gestellten Aufgaben abarbeiten.
Lokale KI: Mit diesen 5 Tools kein Problem
Cerebellum: Ein einfacher KI-Agent für das Web
Ein weiteres Beispiel für eine quelloffene KI-Lösung, die mit dem Web interagieren kann, ist Cerebellum. Die Software steht unter der MIT-Lizenz und war nach Angaben der Macher auch von Skyvern inspiriert. Der Funktionsumfang ist im direkten Vergleich allerdings überschaubar.
Derzeit unterstützt Cerebellum nur ein KI-Modell: Claude 3.5 Sonnet. Neben der Software selbst benötigt ihr den Selenium Webdriver, der wiederum die Schnittstelle zu eurem Browser darstellt. Eine Installationsanleitung und ein Demo-Video findet ihr in dem GitHub-Repository des Projekts.