Anzeige
Anzeige
News

GPTBot: OpenAI versucht etwas Neues – und lässt Websites jetzt die Wahl

OpenAI sammelt jetzt auch mit einem eigenen Web-Crawler Daten. Den können Website-Betreiber:innen sogar blockieren. Auf Daten aus dem Web, die bereits für das Training von ChatGPT genutzt werden, hat das allerdings keinen Einfluss.

1 Min.
Artikel merken
Anzeige
Anzeige
GPTBot ist der Webcrawler von OpenAI. (Foto: Picture Alliance/Imagebroker | Christopher Tamcke)

Der GPTBot durchforstet ganz nach dem Vorbild des Google-Bot das Web. Während Google damit den Datenbestand für die gleichnamige Suche sicherstellt, bleibt OpenAI bei Sinn und Zweck des neuen Web-Crawlers hingegen vage.

Anzeige
Anzeige

„Websites, die mit dem GPTBot-Benutzeragenten gecrawlt wurden, können möglicherweise zur Verbesserung künftiger Modelle verwendet werden“, heißt es auf der OpenAI-Website. Mal davon abgesehen, dass sich OpenAI nicht festlegen will, ob die Daten tatsächlich genutzt werden: Grundsätzlich könnten sie als Trainingsdaten herangezogen werden. Website-Betreiber:innen müssen das allerdings nicht hinnehmen.

Wer sicherstellen will, dass zukünftige GPT-Versionen nicht anhand von Daten der eigenen Website trainiert werden, kann das durch einen entsprechenden Hinweis in der robots.txt-Datei verhindern.

Anzeige
Anzeige

Das würde dann wie folgt aussehen:

User-agent: GPTBot
Disallow: /

Auf die Datengrundlage von GPT‑4 hat das alles keinen Einfluss

GPT‑4 wurde mit einer Vielzahl von Daten aus dem Web trainiert. Welche genau das waren, verrät das Unternehmen nicht. Klar ist aber, dass die Betreiber:innen der Websites, mit deren Daten das KI-Modell trainiert wurde, weder gefragt wurden, noch die Möglichkeit hatten, die Nutzung zu unterbinden.

Anzeige
Anzeige

Der GPTBot ist aus dieser Perspektive sicherlich ein Fortschritt. Wenngleich Web-Nutzer:innen am Ende auch weiterhin nicht gefragt werden, ob ihre Äußerungen zum KI-Training verwendet werden dürfen. Diese Entscheidung obliegt beim GPTBot allein den Website-Betreiber:innen.

Auch gibt es keine Garantie, dass zukünftige GPT-Modelle ausschließlich anhand der Daten des neuen OpenAI-Crawlers trainiert werden. Es ist durchaus möglich, dass andere Sammlungen von Daten aus dem Web ebenfalls ins Training einfließen.

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige