GPTBot: OpenAI versucht etwas Neues – und lässt Websites jetzt die Wahl -

News

GPTBot: OpenAI versucht etwas Neues – und lässt Websites jetzt die Wahl

OpenAI sammelt jetzt auch mit einem eigenen Web-Crawler Daten. Den können Website-Betreiber:innen sogar blockieren. Auf Daten aus dem Web, die bereits für das Training von ChatGPT genutzt werden, hat das allerdings keinen Einfluss.

Von Kim Rixecker

08.08.2023, 15:02 Uhr • 1 Min.

GPTBot: OpenAI versucht etwas Neues – und lässt Websites jetzt die Wahl — GPTBot ist der Webcrawler von OpenAI. (Foto: Picture Alliance/Imagebroker | Christopher Tamcke)

Der GPTBot durchforstet ganz nach dem Vorbild des Google-Bot das Web. Während Google damit den Datenbestand für die gleichnamige Suche sicherstellt, bleibt OpenAI bei Sinn und Zweck des neuen Web-Crawlers hingegen vage.

„Websites, die mit dem GPTBot-Benutzeragenten gecrawlt wurden, können möglicherweise zur Verbesserung künftiger Modelle verwendet werden“, heißt es auf der OpenAI-Website. Mal davon abgesehen, dass sich OpenAI nicht festlegen will, ob die Daten tatsächlich genutzt werden: Grundsätzlich könnten sie als Trainingsdaten herangezogen werden. Website-Betreiber:innen müssen das allerdings nicht hinnehmen.

Wer sicherstellen will, dass zukünftige GPT-Versionen nicht anhand von Daten der eigenen Website trainiert werden, kann das durch einen entsprechenden Hinweis in der robots.txt-Datei verhindern.

Das würde dann wie folgt aussehen:

User-agent: GPTBot
Disallow: /

Auf die Datengrundlage von GPT‑4 hat das alles keinen Einfluss

GPT‑4 wurde mit einer Vielzahl von Daten aus dem Web trainiert. Welche genau das waren, verrät das Unternehmen nicht. Klar ist aber, dass die Betreiber:innen der Websites, mit deren Daten das KI-Modell trainiert wurde, weder gefragt wurden, noch die Möglichkeit hatten, die Nutzung zu unterbinden.

Empfehlungen der Redaktion

Analyse

GPT-4 ist da: Alles, was du dazu wissen musst

News

OpenAI: Weitere Klage wegen Urheberrechtsverletzung eingereicht

Der GPTBot ist aus dieser Perspektive sicherlich ein Fortschritt. Wenngleich Web-Nutzer:innen am Ende auch weiterhin nicht gefragt werden, ob ihre Äußerungen zum KI-Training verwendet werden dürfen. Diese Entscheidung obliegt beim GPTBot allein den Website-Betreiber:innen.

Auch gibt es keine Garantie, dass zukünftige GPT-Modelle ausschließlich anhand der Daten des neuen OpenAI-Crawlers trainiert werden. Es ist durchaus möglich, dass andere Sammlungen von Daten aus dem Web ebenfalls ins Training einfließen.

Mehr zu diesem Thema

MIT Technology Review ChatGPT Open AI

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

Themen

Magazine

Skills

GPTBot: OpenAI versucht etwas Neues – und lässt Websites jetzt die Wahl

Auf die Datengrundlage von GPT‑4 hat das alles keinen Einfluss