Googles Crawler durchforsten das Web, um Inhalte für ihre Suchmaschine zu indexieren. Kürzlich hat Google neue Parameter vorgestellt, mit denen Webmaster Google untersagen können, diese Daten für das Training der KI-Systeme Bard und Vertex AI zu nutzen.
Bard ist Googles mächtiges Sprachmodell, vergleichbar mit ChatGPT, während Vertex AI eine umfangreiche Suite von KI- und Machine-Learning-Tools ist. Wenn ihr nicht wollt, dass eure Daten für Googles KI-Training verwendet werden, bietet das Unternehmen nun Google-Extended an, um die Nutzung eurer Daten zu kontrollieren.
Crawler sperren mit Disallow-Parameter
Die Kontrolle darüber, welche Bereiche einer Website der Google-Crawler erfassen darf, wird über die Datei robots.txt geregelt. Mit dem Disallow-Parameter können Webmaster nun auch Google untersagen, die Daten ihrer Website für das KI-Training zu verwenden.
Google möchte damit nach eigenen Angaben Transparenz schaffen und den Website-Betreibern mehr Kontrolle bieten. Für die Zukunft plant das Unternehmen, weitere maschinenlesbare Lösungen zur Auswahl und Kontrolle für Web-Publisher zu erforschen. Bis dahin ist der Zugriff auf Basis der neuen Parameter die empfohlene Methode.
OpenAI hat bereits ähnliche Maßnahmen ergriffen
Auch OpenAI, Schöpfer von ChatGPT, hat einen ähnlichen Schritt unternommen und einen eigenen Crawler namens GPTBot eingeführt, der das Internet durchsucht und Daten sammelt. Der genaue Verwendungszweck dieser Daten ist jedoch unklar. Laut OpenAI können die von GPTBot gecrawlten Websites „möglicherweise zur Verbesserung künftiger Modelle verwendet werden“.
Wer nicht möchte, dass Daten von seiner Website durch GPTBot gesammelt werden, kann dies in der robots.txt über einen Disallow-Parameter für den User-Agent GPTBot untersagen. Dieser Schritt hat jedoch keinen Einfluss auf die bestehende Datengrundlage von GPT-4.