Du willst KI-Bots von deiner Website fernhalten? Achte auf diese wichtigen Dinge

News

Dutzende KI-Bots sind für die Betreiber großer Sprachmodelle wie OpenAI, Google oder Anthropic online auf der Jagd nach Daten für das Training. Website-Betreiber:innen können den Bots den Zutritt verwehren – müssen aber auf ein paar Dinge achten.

Von Jörn Brien

30.07.2024, 12:18 Uhr • 2 Min.

KI-Bots Website — KI-Bots wie jene von Anthropic verwirren Website-Betreiber. (Bild: gguy/Shutterstock)

Um ihre großen Sprachmodelle und Chatbots wie ChatGPT oder Claude zu trainieren, greifen viele KI-Firmen auf sogenannte Web-Scraping-Bots zurück. Diese sollen in großem Umfang die für das Training notwendigen Daten, etwa Texte und Bilder, von Websites holen.

KI-Bots blockieren – nur wenige tun es

Dem Clouddienstleister Cloudflare zufolge sollen verschiedene KI-Bots im Juni 2024 auf knapp 400.000 Internetangebote zugegriffen haben, die Cloudflare nutzen. Weniger als drei Prozent dieser Websites sollen aktiv dafür gesorgt haben, die KI-Bots zu blockieren.

Empfehlungen der Redaktion

News

Microsoft droht Partnern: Wer KI-Chatbots mit Bing-Daten trainiert, fliegt

MIT Technology Review Feature

Arbeiten für KI: So wenig verdienen Clickworker

News

Anthropic lässt euch jetzt eigene KI-Agenten für Claude bauen

Welche Ausmaße „Besuche“ von KI-Bots haben können, zeigen folgende Beispiele. So berichtete die Reparaturplattform iFixit, dass ein Anthropic-Crawler innerhalb nur eines Tages fast eine Million Mal auf die Website zugegriffen habe. Bei dem Code-Dokumentenserver Read the Docs soll ein Crawler an einem Tag Files im Umfang von zehn Terabyte durchsucht haben.

Vorgaben in der robots.txt-Datei

Wer KI-Bots davon abhalten will, auf die eigene Website zuzugreifen, kann dies etwa in der robots.txt-Datei regeln. Das Problem: Viele Websites blockieren darin die falschen KI-Bots, wie 404 Media berichtet.

Aufgefallen ist das den Betreiber:innen der Website Dark Visitors, die Hunderte Web-Crawler und ‑Scraper analysieren und die daraus gewonnenen Erkenntnisse Website-Betreiber:innen zur Verfügung stellen. Den Expert:innen zufolge ändert sich die Bot-Welt so rasend schnell, dass es kaum möglich sei, den Überblick zu behalten.

So sollen etwa Apple und Meta in den vergangenen Wochen neue Bots auf die Suche nach frischen Daten geschickt haben. Website-Betreiber:innen, die ihnen den Zugang verweigern wollen, müssten entsprechend ihre robots.txt-Datei ändern.

Oft nicht existierende KI-Bots blockiert

Da deren Inhalte oft einfach von Website zu Website kopiert und häufig nicht regelmäßig aktualisiert werden, kommt es laut Dark Visitors dazu, dass etwa im Fall Anthropic nicht oder nicht mehr existierende KI-Bots blockiert werden, nicht aber der aktuelle. Davon betroffen sollen auch große Webangebote wie reuters.com oder die Plattformen des Konzerns Condé Nast sein. Sie blockieren die Bots „Anthropic-AI“ und „Claude-Web“, aber nicht den aktuellen „Claudebot“.

Im Fall von Perplexity sollen etwa das Wall Street Journal und weitere große Newsseiten danebenliegen. Sie blockieren zwar einen Bot namens „Perplexity-AI“, aber nicht den aktuellen Crawler „Perplexitybot“. Zudem wird Perplexity vorgeworfen, die Vorgaben der robots.txt-Datei umgangen zu haben.

Expert:innen bemängeln entsprechend, dass die Last der KI-Bot-Blockierung allein auf den Schultern der Website-Betreiber:innen liege. Sie müssten alle – ständig wechselnden – KI-Bots im Blick haben und darauf setzen, dass sich die KI-Firmen an die Vorgaben halten.

Macht der KI-Hype das Internet kaputt?

Weil das insgesamt nicht sehr praktikabel ist, dürften Contentanbieter:innen ihre Inhalte vermehrt hinter Paywalls verstecken – was weder für Internetnutzer:innen noch für KI-Chatbot-Entwickler:innen eine positive Entwicklung sein dürfte. Reddit etwa hat erst vor Kurzem sämtliche Suchmaschinen und KI-Bots außer Google ausgesperrt. KI-Bots werden nur noch nach Bezahlung hereingelassen.

Website-Betreiber:innen, die sich absichern wollen, können auf eine Anti-Bot-Lösung von Cloudflare oder auf ähnliche Bot-Management-Tools zurückgreifen. Darüber hinaus können Captchas eine gute Möglichkeit sein, Bots fernzuhalten.

Googles neue KI-Suche geht nach hinten los Quelle: (Bild: Koshiro K/Shutterstock)

Auch möglich ist es, per Rate-Limiting die maximale Anzahl von Zugriffen zu begrenzen und so zu verhindern, dass automatisierte Bot-Anfragen die Website-Leistung schmälern. Ist der IP-Bereich von KI-Bots bekannt, können diese auch per .htaccess-Datei oder Firewall von einem Besuch auf der eigenen Website ausgeschlossen werden.

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Google Künstliche Intelligenz

Verpasse keine News zu Marketing 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren