Anzeige
Anzeige
News

Du willst KI-Bots von deiner Website fernhalten? Achte auf diese wichtigen Dinge

Dutzende KI-Bots sind für die Betreiber großer Sprachmodelle wie OpenAI, Google oder Anthropic online auf der Jagd nach Daten für das Training. Website-Betreiber:innen können den Bots den Zutritt verwehren – müssen aber auf ein paar Dinge achten.

Von Jörn Brien
2 Min.
Artikel merken
Anzeige
Anzeige

KI-Bots wie jene von Anthropic verwirren Website-Betreiber. (Bild: gguy/Shutterstock)

Um ihre großen Sprachmodelle und Chatbots wie ChatGPT oder Claude zu trainieren, greifen viele KI-Firmen auf sogenannte Web-Scraping-Bots zurück. Diese sollen in großem Umfang die für das Training notwendigen Daten, etwa Texte und Bilder, von Websites holen.

Anzeige
Anzeige

KI-Bots blockieren – nur wenige tun es

Dem Clouddienstleister Cloudflare zufolge sollen verschiedene KI-Bots im Juni 2024 auf knapp 400.000 Internetangebote zugegriffen haben, die Cloudflare nutzen. Weniger als drei Prozent dieser Websites sollen aktiv dafür gesorgt haben, die KI-Bots zu blockieren.

Welche Ausmaße „Besuche“ von KI-Bots haben können, zeigen folgende Beispiele. So berichtete die Reparaturplattform iFixit, dass ein Anthropic-Crawler innerhalb nur eines Tages fast eine Million Mal auf die Website zugegriffen habe. Bei dem Code-Dokumentenserver Read the Docs soll ein Crawler an einem Tag Files im Umfang von zehn Terabyte durchsucht haben.

Anzeige
Anzeige

Vorgaben in der robots.txt-Datei

Wer KI-Bots davon abhalten will, auf die eigene Website zuzugreifen, kann dies etwa in der robots.txt-Datei regeln. Das Problem: Viele Websites blockieren darin die falschen KI-Bots, wie 404 Media berichtet.

Aufgefallen ist das den Betreiber:innen der Website Dark Visitors, die Hunderte Web-Crawler und ‑Scraper analysieren und die daraus gewonnenen Erkenntnisse Website-Betreiber:innen zur Verfügung stellen. Den Expert:innen zufolge ändert sich die Bot-Welt so rasend schnell, dass es kaum möglich sei, den Überblick zu behalten.

Anzeige
Anzeige

So sollen etwa Apple und Meta in den vergangenen Wochen neue Bots auf die Suche nach frischen Daten geschickt haben. Website-Betreiber:innen, die ihnen den Zugang verweigern wollen, müssten entsprechend ihre robots.txt-Datei ändern.

Oft nicht existierende KI-Bots blockiert

Da deren Inhalte oft einfach von Website zu Website kopiert und häufig nicht regelmäßig aktualisiert werden, kommt es laut Dark Visitors dazu, dass etwa im Fall Anthropic nicht oder nicht mehr existierende KI-Bots blockiert werden, nicht aber der aktuelle. Davon betroffen sollen auch große Webangebote wie reuters.com oder die Plattformen des Konzerns Condé Nast sein. Sie blockieren die Bots „Anthropic-AI“ und „Claude-Web“, aber nicht den aktuellen „Claudebot“.

Anzeige
Anzeige

Im Fall von Perplexity sollen etwa das Wall Street Journal und weitere große Newsseiten danebenliegen. Sie blockieren zwar einen Bot namens „Perplexity-AI“, aber nicht den aktuellen Crawler „Perplexitybot“. Zudem wird Perplexity vorgeworfen, die Vorgaben der robots.txt-Datei umgangen zu haben.

Expert:innen bemängeln entsprechend, dass die Last der KI-Bot-Blockierung allein auf den Schultern der Website-Betreiber:innen liege. Sie müssten alle – ständig wechselnden – KI-Bots im Blick haben und darauf setzen, dass sich die KI-Firmen an die Vorgaben halten.

Macht der KI-Hype das Internet kaputt?

Weil das insgesamt nicht sehr praktikabel ist, dürften Contentanbieter:innen ihre Inhalte vermehrt hinter Paywalls verstecken – was weder für Internetnutzer:innen noch für KI-Chatbot-Entwickler:innen eine positive Entwicklung sein dürfte. Reddit etwa hat erst vor Kurzem sämtliche Suchmaschinen und KI-Bots außer Google ausgesperrt. KI-Bots werden nur noch nach Bezahlung hereingelassen.

Anzeige
Anzeige

Website-Betreiber:innen, die sich absichern wollen, können auf eine Anti-Bot-Lösung von Cloudflare oder auf ähnliche Bot-Management-Tools zurückgreifen. Darüber hinaus können Captchas eine gute Möglichkeit sein, Bots fernzuhalten.

Googles neue KI-Suche geht nach hinten los Quelle: (Bild: Koshiro K/Shutterstock)

Auch möglich ist es, per Rate-Limiting die maximale Anzahl von Zugriffen zu begrenzen und so zu verhindern, dass automatisierte Bot-Anfragen die Website-Leistung schmälern. Ist der IP-Bereich von KI-Bots bekannt, können diese auch per .htaccess-Datei oder Firewall von einem Besuch auf der eigenen Website ausgeschlossen werden.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige