Was passiert, wenn das Internet voller KI-Erzeugnisse ist – und KI damit trainiert werden?
Generative KI wie ChatGPT für Text oder Stable Diffusion für Bilder sind für viele Menschen verfügbar. Dabei ist es unumgänglich, dass KI-generierte Inhalte im Internet landen. KI-Unternehmen wiederum sammeln frei verfügbare Daten im Netz, um damit ihre Sprach- oder Bildmodelle zu trainieren.
Je mehr KI-generierte Inhalte es gibt, desto wahrscheinlicher ist es, dass die Modelle mit ihren eigenen generierten Daten trainiert werden. Genau das sollte aber vermieden werden, wenn es nach einem Forscherteam geht.
In einer Studie, die bei der Cornell University veröffentlicht wurde, beschreiben sie, warum das Trainieren von KI mit den eigenen Daten Gefahren birgt.
Modellkollaps führt zu verschwommener Realität
Werden KI mit von KI generierten Inhalten trainiert, tritt dabei laut Forschern über mehrere Generationen der sogenannte Modellkollaps ein. Der Modellkollaps beschreibt ein Phänomen, bei dem die Modelle die Realität falsch wahrnehmen, weil sie realitätsfremde Daten von den vorherigen Generationen der KI erhalten.
Dabei verliert die KI im ersten Schritt einen Teil der eigentlichen Informationen über die Welt. Bei fortschreitenden Generationen vermischt sie dann Infos aus der realen Welt mit solchen, die von der KI erstellt wurden.
Das führt dazu, dass eine KI, die mit KI-generierten Inhalten trainiert wurde, nach und nach immer realitätsfremder wird. Bei einer Text-KI würde das zum Beispiel dazu führen, dass sie immer weniger wie ein echter Mensch spricht. Das ist natürlich genau das Gegenteil von dem, was die KI eigentlich tun sollte.
KI-Modelle brauchen frische Daten von echten Menschen
KI-Modelle brauchen also immer wieder frische Daten von echten Menschen. Die Frage ist nun natürlich, wie das erreicht werden kann. Denn KI-Unternehmen nutzen oft Daten aus dem Internet, und hier ist oft nicht klar, ob diese von Mensch oder Maschine erstellt wurden.
Die Forscher merken an, dass der Zugang zu den originalen Daten, mit denen Modelle trainiert werden, erhalten bleiben soll. Außerdem brauchen die Modelle neue Daten, die nicht von KI generiert wurden, um neuere Versionen zu entwickeln.
KI-Communitys und Unternehmen sollten sich also koordinieren und Informationen darüber bereitstellen, welche Daten von KI stammen und welche von Menschen. Bei der Fülle an Informationen im Internet ist das allerdings leichter gesagt als getan.
Sollten die Daten nicht schon jetzt entsprechend gekennzeichnet werden, könnte es immer schwieriger werden, neue KI-Modelle mit Daten von echten Menschen zu trainieren.
Eine Kennzeichnungspflicht macht aus meiner Sicht nur bei vollautomatischen Texten Sinn. Mit folgender Begründung:
Die meisten Inhalte werden schon heute mit KI-Unterstützung erzeugt, sind aber dennoch redaktionell. Der Redakteur weist dabei die generative KI rekursiv an, den Inhalt zu erstellen, zu ergänzen und zu überarbeiten. Dann fügt der Redakteur den Inhalt zusammen, schreibt eigene Passagen, formuliert Stellen um. Der Text ist danach zu 95% von einer KI geschrieben, aber vom Menschen zu 100% geprüft und redigiert.
Wie will man da sinnvoll die automatischen Passagen vom redaktionellen Mehrwert unterscheiden?