GPTBot: OpenAI versucht etwas Neues – und lässt Websites jetzt die Wahl

Der GPTBot durchforstet ganz nach dem Vorbild des Google-Bot das Web. Während Google damit den Datenbestand für die gleichnamige Suche sicherstellt, bleibt OpenAI bei Sinn und Zweck des neuen Web-Crawlers hingegen vage.
„Websites, die mit dem GPTBot-Benutzeragenten gecrawlt wurden, können möglicherweise zur Verbesserung künftiger Modelle verwendet werden“, heißt es auf der OpenAI-Website. Mal davon abgesehen, dass sich OpenAI nicht festlegen will, ob die Daten tatsächlich genutzt werden: Grundsätzlich könnten sie als Trainingsdaten herangezogen werden. Website-Betreiber:innen müssen das allerdings nicht hinnehmen.
Wer sicherstellen will, dass zukünftige GPT-Versionen nicht anhand von Daten der eigenen Website trainiert werden, kann das durch einen entsprechenden Hinweis in der robots.txt-Datei verhindern.
Das würde dann wie folgt aussehen:
User-agent: GPTBot
Disallow: /
GPT‑4 wurde mit einer Vielzahl von Daten aus dem Web trainiert. Welche genau das waren, verrät das Unternehmen nicht. Klar ist aber, dass die Betreiber:innen der Websites, mit deren Daten das KI-Modell trainiert wurde, weder gefragt wurden, noch die Möglichkeit hatten, die Nutzung zu unterbinden.
Der GPTBot ist aus dieser Perspektive sicherlich ein Fortschritt. Wenngleich Web-Nutzer:innen am Ende auch weiterhin nicht gefragt werden, ob ihre Äußerungen zum KI-Training verwendet werden dürfen. Diese Entscheidung obliegt beim GPTBot allein den Website-Betreiber:innen.
Auch gibt es keine Garantie, dass zukünftige GPT-Modelle ausschließlich anhand der Daten des neuen OpenAI-Crawlers trainiert werden. Es ist durchaus möglich, dass andere Sammlungen von Daten aus dem Web ebenfalls ins Training einfließen.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team