Was passiert, wenn das Internet voller KI-Erzeugnisse ist

Fundstück

Was passiert, wenn das Internet voller KI-Erzeugnisse ist – und KI damit trainiert werden?

KI-Modelle werden mit riesigen Datensätzen trainiert. Die Unternehmen bekommen diese meist von frei verfügbaren Quellen aus dem Internet. Wenn diese Inhalte von KI generiert wurden, kann das allerdings zu Problemen führen.

Von Kay Nordenbrock

06.07.2023, 14:55 Uhr • 2 Min.

Was passiert, wenn das Internet voller KI-Erzeugnisse ist – und KI damit trainiert werden? — Kann KI sich selbst trainieren? (Bild erstellt mit Stable Diffusion)

Generative KI wie ChatGPT für Text oder Stable Diffusion für Bilder sind für viele Menschen verfügbar. Dabei ist es unumgänglich, dass KI-generierte Inhalte im Internet landen. KI-Unternehmen wiederum sammeln frei verfügbare Daten im Netz, um damit ihre Sprach- oder Bildmodelle zu trainieren.

Je mehr KI-generierte Inhalte es gibt, desto wahrscheinlicher ist es, dass die Modelle mit ihren eigenen generierten Daten trainiert werden. Genau das sollte aber vermieden werden, wenn es nach einem Forscherteam geht.

In einer Studie, die bei der Cornell University veröffentlicht wurde, beschreiben sie, warum das Trainieren von KI mit den eigenen Daten Gefahren birgt.

Modellkollaps führt zu verschwommener Realität

Werden KI mit von KI generierten Inhalten trainiert, tritt dabei laut Forschern über mehrere Generationen der sogenannte Modellkollaps ein. Der Modellkollaps beschreibt ein Phänomen, bei dem die Modelle die Realität falsch wahrnehmen, weil sie realitätsfremde Daten von den vorherigen Generationen der KI erhalten.

Empfehlungen der Redaktion

News

OpenAI: Neues Tool soll das Verhalten von KI-Modellen erklären

News

Britische Regierung bekommt „bevorzugten Zugang“ zu KI-Modellen von OpenAI und Co.

News

Audiopalm: Google fusioniert KI-Modelle und übersetzt Texte mit Originalstimme

Dabei verliert die KI im ersten Schritt einen Teil der eigentlichen Informationen über die Welt. Bei fortschreitenden Generationen vermischt sie dann Infos aus der realen Welt mit solchen, die von der KI erstellt wurden.

Das führt dazu, dass eine KI, die mit KI-generierten Inhalten trainiert wurde, nach und nach immer realitätsfremder wird. Bei einer Text-KI würde das zum Beispiel dazu führen, dass sie immer weniger wie ein echter Mensch spricht. Das ist natürlich genau das Gegenteil von dem, was die KI eigentlich tun sollte.

KI-Modelle brauchen frische Daten von echten Menschen

KI-Modelle brauchen also immer wieder frische Daten von echten Menschen. Die Frage ist nun natürlich, wie das erreicht werden kann. Denn KI-Unternehmen nutzen oft Daten aus dem Internet, und hier ist oft nicht klar, ob diese von Mensch oder Maschine erstellt wurden.

Die Forscher merken an, dass der Zugang zu den originalen Daten, mit denen Modelle trainiert werden, erhalten bleiben soll. Außerdem brauchen die Modelle neue Daten, die nicht von KI generiert wurden, um neuere Versionen zu entwickeln.

KI-Communitys und Unternehmen sollten sich also koordinieren und Informationen darüber bereitstellen, welche Daten von KI stammen und welche von Menschen. Bei der Fülle an Informationen im Internet ist das allerdings leichter gesagt als getan.

Sollten die Daten nicht schon jetzt entsprechend gekennzeichnet werden, könnte es immer schwieriger werden, neue KI-Modelle mit Daten von echten Menschen zu trainieren.

7 Beispiele, wie KI jetzt schon Videospiele verändert:

6 Beispiele, wie KI jetzt schon Videospiele verändert Quelle: trafficinggame.com

Mehr zu diesem Thema

MIT Technology Review Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Kommentare (1)

Kommentieren

Toby

06.07.2023, 09:25 Uhr

Eine Kennzeichnungspflicht macht aus meiner Sicht nur bei vollautomatischen Texten Sinn. Mit folgender Begründung:

Die meisten Inhalte werden schon heute mit KI-Unterstützung erzeugt, sind aber dennoch redaktionell. Der Redakteur weist dabei die generative KI rekursiv an, den Inhalt zu erstellen, zu ergänzen und zu überarbeiten. Dann fügt der Redakteur den Inhalt zusammen, schreibt eigene Passagen, formuliert Stellen um. Der Text ist danach zu 95% von einer KI geschrieben, aber vom Menschen zu 100% geprüft und redigiert.

Wie will man da sinnvoll die automatischen Passagen vom redaktionellen Mehrwert unterscheiden?