AWS-Studie: Ein Großteil des Internets besteht aus schlechten Übersetzungen

News

AWS-Studie: Ein Großteil des Internets besteht aus schlechten Übersetzungen

Ganze 57,1 Prozents des Inhalts im Internet sollen mithilfe von KI erstellt oder übersetzt worden sein – und das nicht wirklich in einer guten Qualität.

Von Nils Bolder

22.01.2024, 14:35 Uhr • 2 Min.

AWS-Studie: Ein Großteil des Internets besteht aus schlechten Übersetzungen — Ein Großteil der Texte im Internet sind für die Tonne – sie sind schlechte KI-Übersetzungen. (Symbolfoto: ejaniana/t3n)

Dass immer mehr Inhalte im Internet mithilfe von KI erstellt werden, ist vielen klar. Nun zeigt eine Studie des Amazon Web Services (AWS) AI Labs die Ausmaße. Laut den Forschenden sind 57,1 Prozent von allen Inhalten im Internet mithilfe von KI übersetzt – meistens sogar in gleich mehrere Sprachen. Für die Auswertung wurden 6,38 Milliarden Sätze aus dem Internet gescrapt.

Empfehlungen der Redaktion

News

ChatGPT wird laut Studie immer schlechter

News

Amazons KI macht Produkte schlechter als sie bewertet wurden

Briefing

Das Problem mit KI-Benchmarks

Zwar wurde das Paper noch nicht Peer-Reviewed, aber der enorme Umfang der Übersetzungen lässt die Forschenden Heikles vermuten. Die großen Sprachmodelle, die mithilfe von künstlicher Intelligenz erstellt werden, haben die Sätze häufig sowohl übersetzt als auch den originalen Content selbst erstellt.

Die „Mashine Translations“ (MT) entstehen häufig mehrsprachig – der Text wird also in viele Sprachen gleichzeitig übersetzt. Meistens sei selbst der englischsprachige Ursprungstext nicht wirklich hochwertig. Dadurch leidet die Textqualität.

Die übersetzten Textinhalte sind besonders für Sprachen ein Problem, zu denen es wenig authentische Ressourcen gibt. Dadurch nehmen die Inhalte, die von großen Sprachmodellen erstellt werden, einen großen Anteil der Quellen über die Sprache ein. „Maschinengenerierte, mehrseitige Parallelübersetzungen dominieren nicht nur die Gesamtmenge der übersetzten Inhalte im Web in Sprachen mit geringeren Ressourcen“, schreiben die AWS-Forschenden in dem Bericht, „sie machen auch einen großen Teil der gesamten Webinhalte in diesen Sprachen aus.“

Risiken für zukünftige KI-Modelle?

Die KI-Flut macht den Forscher:innen große Sorgen. Denn besonders die Sprachen, von denen es wenige Ressourcen gibt, werden nun mit Inhalten geflutet, die viele Fehler enthalten und eine schlechte Qualität haben. Würde man mithilfe dieser Daten zukünftige Sprachmodelle trainieren, dann würde die Qualität des Outputs leiden.

Auch außerhalb von Sprachübersetzungen kann es zum Problem werden, wenn KI mithilfe von KI-Daten trainiert wird. Forschende der Cornell Universität prognostizieren beispielsweise einen über mehrere Generationen auftretenden Modellkollaps. Indem Bild-KI mit Bildern gefüttert werden, die selbst künstlich generiert wurden, werden die Ergebnisse immer realitätsfremder.

Auch wenn es wie bei dem KI-Spam auf Amazon Ausnahmen gibt, ist im Internet nur selten direkt erkennbar, ob Inhalte selbst erstellt oder mit KI kreiert wurden. Mithilfe der von ihnen verwendeten Methode hoffen die Forschenden darauf, dass so unauthentische Inhalte rausgefiltert werden können.

Die Texte sind aber von uns: Hier zeichnet KI unsere Headlines

Dall-E malt unsere Headlines Quelle: DALL·E

Mehr zu diesem Thema

MIT Technology Review Studie Künstliche Intelligenz AWS

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren