Du willst KI-Bots von deiner Website fernhalten? Achte auf diese wichtigen Dinge
Um ihre großen Sprachmodelle und Chatbots wie ChatGPT oder Claude zu trainieren, greifen viele KI-Firmen auf sogenannte Web-Scraping-Bots zurück. Diese sollen in großem Umfang die für das Training notwendigen Daten, etwa Texte und Bilder, von Websites holen.
KI-Bots blockieren – nur wenige tun es
Dem Clouddienstleister Cloudflare zufolge sollen verschiedene KI-Bots im Juni 2024 auf knapp 400.000 Internetangebote zugegriffen haben, die Cloudflare nutzen. Weniger als drei Prozent dieser Websites sollen aktiv dafür gesorgt haben, die KI-Bots zu blockieren.
Welche Ausmaße „Besuche“ von KI-Bots haben können, zeigen folgende Beispiele. So berichtete die Reparaturplattform iFixit, dass ein Anthropic-Crawler innerhalb nur eines Tages fast eine Million Mal auf die Website zugegriffen habe. Bei dem Code-Dokumentenserver Read the Docs soll ein Crawler an einem Tag Files im Umfang von zehn Terabyte durchsucht haben.
Vorgaben in der robots.txt-Datei
Wer KI-Bots davon abhalten will, auf die eigene Website zuzugreifen, kann dies etwa in der robots.txt-Datei regeln. Das Problem: Viele Websites blockieren darin die falschen KI-Bots, wie 404 Media berichtet.
Aufgefallen ist das den Betreiber:innen der Website Dark Visitors, die Hunderte Web-Crawler und ‑Scraper analysieren und die daraus gewonnenen Erkenntnisse Website-Betreiber:innen zur Verfügung stellen. Den Expert:innen zufolge ändert sich die Bot-Welt so rasend schnell, dass es kaum möglich sei, den Überblick zu behalten.
So sollen etwa Apple und Meta in den vergangenen Wochen neue Bots auf die Suche nach frischen Daten geschickt haben. Website-Betreiber:innen, die ihnen den Zugang verweigern wollen, müssten entsprechend ihre robots.txt-Datei ändern.
Oft nicht existierende KI-Bots blockiert
Da deren Inhalte oft einfach von Website zu Website kopiert und häufig nicht regelmäßig aktualisiert werden, kommt es laut Dark Visitors dazu, dass etwa im Fall Anthropic nicht oder nicht mehr existierende KI-Bots blockiert werden, nicht aber der aktuelle. Davon betroffen sollen auch große Webangebote wie reuters.com oder die Plattformen des Konzerns Condé Nast sein. Sie blockieren die Bots „Anthropic-AI“ und „Claude-Web“, aber nicht den aktuellen „Claudebot“.
Im Fall von Perplexity sollen etwa das Wall Street Journal und weitere große Newsseiten danebenliegen. Sie blockieren zwar einen Bot namens „Perplexity-AI“, aber nicht den aktuellen Crawler „Perplexitybot“. Zudem wird Perplexity vorgeworfen, die Vorgaben der robots.txt-Datei umgangen zu haben.
Expert:innen bemängeln entsprechend, dass die Last der KI-Bot-Blockierung allein auf den Schultern der Website-Betreiber:innen liege. Sie müssten alle – ständig wechselnden – KI-Bots im Blick haben und darauf setzen, dass sich die KI-Firmen an die Vorgaben halten.
Macht der KI-Hype das Internet kaputt?
Weil das insgesamt nicht sehr praktikabel ist, dürften Contentanbieter:innen ihre Inhalte vermehrt hinter Paywalls verstecken – was weder für Internetnutzer:innen noch für KI-Chatbot-Entwickler:innen eine positive Entwicklung sein dürfte. Reddit etwa hat erst vor Kurzem sämtliche Suchmaschinen und KI-Bots außer Google ausgesperrt. KI-Bots werden nur noch nach Bezahlung hereingelassen.
Website-Betreiber:innen, die sich absichern wollen, können auf eine Anti-Bot-Lösung von Cloudflare oder auf ähnliche Bot-Management-Tools zurückgreifen. Darüber hinaus können Captchas eine gute Möglichkeit sein, Bots fernzuhalten.
Auch möglich ist es, per Rate-Limiting die maximale Anzahl von Zugriffen zu begrenzen und so zu verhindern, dass automatisierte Bot-Anfragen die Website-Leistung schmälern. Ist der IP-Bereich von KI-Bots bekannt, können diese auch per .htaccess-Datei oder Firewall von einem Besuch auf der eigenen Website ausgeschlossen werden.