Anzeige
Anzeige
News

AWS-Studie: Ein Großteil des Internets besteht aus schlechten Übersetzungen

Ganze 57,1 Prozents des Inhalts im Internet sollen mithilfe von KI erstellt oder übersetzt worden sein – und das nicht wirklich in einer guten Qualität.

2 Min.
Artikel merken
Anzeige
Anzeige
Ein Großteil der Texte im Internet sind für die Tonne – sie sind schlechte KI-Übersetzungen. (Symbolfoto: ejaniana/t3n)


Dass immer mehr Inhalte im Internet mithilfe von KI erstellt werden, ist vielen klar. Nun zeigt eine Studie des Amazon Web Services (AWS) AI Labs die Ausmaße. Laut den Forschenden sind 57,1 Prozent von allen Inhalten im Internet mithilfe von KI übersetzt – meistens sogar in gleich mehrere Sprachen. Für die Auswertung wurden 6,38 Milliarden Sätze aus dem Internet gescrapt.

Zwar wurde das Paper noch nicht Peer-Reviewed, aber der enorme Umfang der Übersetzungen lässt die Forschenden Heikles vermuten. Die großen Sprachmodelle, die mithilfe von künstlicher Intelligenz erstellt werden, haben die Sätze häufig sowohl übersetzt als auch den originalen Content selbst erstellt.

Anzeige
Anzeige

Die „Mashine Translations“ (MT) entstehen häufig mehrsprachig – der Text wird also in viele Sprachen gleichzeitig übersetzt. Meistens sei selbst der englischsprachige Ursprungstext nicht wirklich hochwertig. Dadurch leidet die Textqualität.

Die übersetzten Textinhalte sind besonders für Sprachen ein Problem, zu denen es wenig authentische Ressourcen gibt. Dadurch nehmen die Inhalte, die von großen Sprachmodellen erstellt werden, einen großen Anteil der Quellen über die Sprache ein. „Maschinengenerierte, mehrseitige Parallelübersetzungen dominieren nicht nur die Gesamtmenge der übersetzten Inhalte im Web in Sprachen mit geringeren Ressourcen“, schreiben die AWS-Forschenden in dem Bericht, „sie machen auch einen großen Teil der gesamten Webinhalte in diesen Sprachen aus.“

Anzeige
Anzeige

Risiken für zukünftige KI-Modelle?

Die KI-Flut macht den Forscher:innen große Sorgen. Denn besonders die Sprachen, von denen es wenige Ressourcen gibt, werden nun mit Inhalten geflutet, die viele Fehler enthalten und eine schlechte Qualität haben. Würde man mithilfe dieser Daten zukünftige Sprachmodelle trainieren, dann würde die Qualität des Outputs leiden.

Auch außerhalb von Sprachübersetzungen kann es zum Problem werden, wenn KI mithilfe von KI-Daten trainiert wird. Forschende der Cornell Universität prognostizieren beispielsweise einen über mehrere Generationen auftretenden Modellkollaps. Indem Bild-KI mit Bildern gefüttert werden, die selbst künstlich generiert wurden, werden die Ergebnisse immer realitätsfremder.

Anzeige
Anzeige

Auch wenn es wie bei dem KI-Spam auf Amazon Ausnahmen gibt, ist im Internet nur selten direkt erkennbar, ob Inhalte selbst erstellt oder mit KI kreiert wurden. Mithilfe der von ihnen verwendeten Methode hoffen die Forschenden darauf, dass so unauthentische Inhalte rausgefiltert werden können.

Die Texte sind aber von uns: Hier zeichnet KI unsere Headlines

Dall-E malt unsere Headlines Quelle: DALL·E

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige