In letzter Zeit scheint künstliche Intelligenz das Internet auf den Kopf zu stellen. Google reagiert nun auf diesen Wandel und regt eine Diskussion über die robots.txt an, die seit fast 30 Jahren als Standard für Web-Publisher gilt.
Die robots.txt einer Website ermöglicht es den Besitzern, den Crawlern von Google und anderen Suchmaschinen mitzuteilen, welche Seiten der Website durchsucht werden dürfen und welche nicht.
Angesichts der fortschreitenden Entwicklung von KI-Technologien sieht Google jedoch die Notwendigkeit, diesen Standard zu überdenken. Das Unternehmen möchte daher gemeinsam mit der KI-Community nach einer Alternative zur robots.txt suchen, wie es in einem Blogpost mitteilt.
KI brauchen ebenfalls Crawler
Ein zentraler Aspekt besteht darin, dass künstliche Intelligenzen Trainingsdaten benötigen, um große Sprachmodelle zu entwickeln. Allerdings kann die robots.txt dem Crawler lediglich mitteilen, welche Seiten gecrawlt werden dürfen, nicht aber, ob diese Daten auch für das Training von KI verwendet werden dürfen.
Forscher haben erst kürzlich herausgefunden, dass KI nicht mit KI-generierten Daten trainiert werden sollten, da dies zum Modellkollaps führen kann. Beim Modellkollaps erzeugen KI eine parallele Realität, die von der tatsächlichen Welt abweicht.
Aus diesem Grund sollten ausschließlich Texte von echten Menschen für das Training verwendet werden. Ein möglicher Lösungsansatz für dieses Problem könnte in einem Nachfolgestandard der robots.txt liegen.
Google lädt ein
Die genauen Details der Diskussion und die zu besprechenden Themen sind noch nicht festgelegt. Interessierte Personen können sich jedoch auf einer Website in die entsprechende Mailingliste eintragen und werden über den weiteren Verlauf der Diskussion informiert.
Google strebt eine öffentliche Diskussion an, um eine zeitgemäße Alternative zur etablierten robots.txt zu finden. Es ist wichtig, dass die verschiedenen Stakeholder aus der KI-Community ihre Expertise einbringen und gemeinsam nach Lösungen suchen.