Dass immer mehr Inhalte im Internet mithilfe von KI erstellt werden, ist vielen klar. Nun zeigt eine Studie des Amazon Web Services (AWS) AI Labs die Ausmaße. Laut den Forschenden sind 57,1 Prozent von allen Inhalten im Internet mithilfe von KI übersetzt – meistens sogar in gleich mehrere Sprachen. Für die Auswertung wurden 6,38 Milliarden Sätze aus dem Internet gescrapt.
Zwar wurde das Paper noch nicht Peer-Reviewed, aber der enorme Umfang der Übersetzungen lässt die Forschenden Heikles vermuten. Die großen Sprachmodelle, die mithilfe von künstlicher Intelligenz erstellt werden, haben die Sätze häufig sowohl übersetzt als auch den originalen Content selbst erstellt.
Die „Mashine Translations“ (MT) entstehen häufig mehrsprachig – der Text wird also in viele Sprachen gleichzeitig übersetzt. Meistens sei selbst der englischsprachige Ursprungstext nicht wirklich hochwertig. Dadurch leidet die Textqualität.
Die übersetzten Textinhalte sind besonders für Sprachen ein Problem, zu denen es wenig authentische Ressourcen gibt. Dadurch nehmen die Inhalte, die von großen Sprachmodellen erstellt werden, einen großen Anteil der Quellen über die Sprache ein. „Maschinengenerierte, mehrseitige Parallelübersetzungen dominieren nicht nur die Gesamtmenge der übersetzten Inhalte im Web in Sprachen mit geringeren Ressourcen“, schreiben die AWS-Forschenden in dem Bericht, „sie machen auch einen großen Teil der gesamten Webinhalte in diesen Sprachen aus.“
Risiken für zukünftige KI-Modelle?
Die KI-Flut macht den Forscher:innen große Sorgen. Denn besonders die Sprachen, von denen es wenige Ressourcen gibt, werden nun mit Inhalten geflutet, die viele Fehler enthalten und eine schlechte Qualität haben. Würde man mithilfe dieser Daten zukünftige Sprachmodelle trainieren, dann würde die Qualität des Outputs leiden.
Auch außerhalb von Sprachübersetzungen kann es zum Problem werden, wenn KI mithilfe von KI-Daten trainiert wird. Forschende der Cornell Universität prognostizieren beispielsweise einen über mehrere Generationen auftretenden Modellkollaps. Indem Bild-KI mit Bildern gefüttert werden, die selbst künstlich generiert wurden, werden die Ergebnisse immer realitätsfremder.
Auch wenn es wie bei dem KI-Spam auf Amazon Ausnahmen gibt, ist im Internet nur selten direkt erkennbar, ob Inhalte selbst erstellt oder mit KI kreiert wurden. Mithilfe der von ihnen verwendeten Methode hoffen die Forschenden darauf, dass so unauthentische Inhalte rausgefiltert werden können.