Die Leute, die dafür bezahlt werden, KI zu trainieren, lagern ihre Arbeit an KI aus
KI-Systeme erfordern eine große Menge an Daten, um genau und zuverlässig trainiert zu werden. Unternehmen greifen deshalb oft auf billige Zeitarbeitskräfte zurück, um Aufgaben zu erledigen, die schwer zu automatisieren sind. Dazu gehören beispielsweise das Lösen von Captchas, das Markieren von Daten oder das Kommentieren von Texten. Diese Daten werden anschließend in die KI-Modelle eingespeist, um sie zu trainieren.
Doch es gibt ein Problem. Laut Technology Review werden die Arbeiter oft schlecht bezahlt und stehen unter großem Zeitdruck. Was tun sie also, um dennoch möglichst viele Aufgaben in kurzer Zeit zu erledigen? Sie greifen auf Tools wie ChatGPT zurück, um ihren Output zu maximieren.
Ergebnisse sind eindeutig
Eine Studie der Eidgenössischen Technischen Hochschule hat das genauer untersucht. Die Forscher beauftragten 44 Personen auf der Plattform Amazon Mechanical Turk, 16 Auszüge aus medizinischen Forschungsarbeiten zusammenzufassen. Anschließend analysierten die Forscher die Antworten mithilfe eines von ihnen entwickelten KI-Modells, das nach Anzeichen für die Verwendung von ChatGPT suchte, wie beispielsweise eine eingeschränkte Wortwahl. Zudem wurden die Tastenanschläge der Arbeiter überwacht, um festzustellen, ob sie ihre Antworten kopiert und eingefügt hatten, was auf eine externe Generierung hindeuten würde.
Die Studie ergab, dass zwischen 33 und 46 Prozent der Angestellten tatsächlich KI-Modelle wie ChatGPT verwendet hatten. Robert West, Assistenzprofessor an der EPFL und Mitautor der Studie, betonte jedoch, dass dies nicht das Ende von Crowdsourcing-Plattformen bedeuten, sondern lediglich die Dynamik verändern würde. Die Verwendung von KI-generierten Daten zum Training von KI-Modellen kann jedoch zu zusätzlichen Fehlern in bereits fehleranfälligen Modellen führen.