Knechten für die KI: Warum wir mehr Transparenz bei Trainingsdaten brauchen
Es ist Anfang August. Ich sitze in einem grünen Hinterhof in Nairobi. Kenia war lange bekannt für akademisches Ghostwriting. Menschen haben für kleines Geld akademische Arbeiten für Wissenschaftler:innen im Westen verfasst. Während Ghostwriting zunehmend durch ChatGPT und Co. ersetzt wird, blüht in Kenia das Geschäft auf, das diese Systeme überhaupt erst möglich macht: Data Annotation für das Training von KI.
Wer die Menschen sind, die diese Arbeit machen, darüber ist wenig bekannt. Es ist nicht trivial, sie ausfindig zu machen und den Kontakt aufzunehmen. Denn anders als im Bereich der Content-Moderatorinnen und -Moderatoren, wo die Arbeiter:innen bei Outsourcing-Unternehmen angestellt sind, arbeiten die Data Annotators als Freelancer und sind kaum vernetzt.
Arbeitsalltag bei den Data Annotators
Über Freunde oder Plattformen wie Linkedin stoßen sie auf die Jobausschreibungen. Danach durchlaufen sie ein kurzes Online-Training. Einen formalen Arbeitsvertrag erhalten sie nie. Ist das Training abgeschlossen, warten sie vor ihren Rechnern auf Aufträge, die ihnen über eine Plattform zugespielt werden. Einer der Annotators erzählt mir, dass die Auftragslage nach dem Training noch recht gut war, er später aber schon mal bis zu zwei Wochen auf neue Aufträge wartet. Sind Aufträge in der Pipeline, dann können die Menschen unbegrenzt viele Stunden am Tag darauf verwenden, Bilder, Videos und Texte zu annotieren und zu beschreiben. Es gibt keine Arbeitszeitregelungen. Praktisch für die Auftraggeber, die Arbeitsrechte ohnehin nur als Hindernisse betrachten. Ganz zu schweigen von gewerkschaftlicher Organisation.
Die Data Annotators, mit denen ich an diesem schönen Augusttag zusammensitze, erzählen mir, dass sie bis zu 20 Stunden am Tag arbeiten. Die Dauerarbeit ist mit Anreizen versehen: Die Unentwegten bevorzugt das System, indem es ihnen mehr Aufträge zuspielt.
Pflanzen, Haustiere, Technik: Sie zeichnet ein, was sie sieht
Als ich frage, für welche Kunden sie diese Arbeit machen, zucken sie mit den Schultern – keine Ahnung. Sie können nur mutmaßen. Eine Freelancerin arbeitet jeden Tag stundenlang an Fotos, die Staubsaugerroboter in Wohnungen in den USA und Europa gemacht haben. Für das Training der KI zeichnet sie ein, was sie sieht: Pflanzen, Spielzeug, Haustiere, Technik. „Ich weiß jetzt, wie ihr so wohnt“, rutscht es ihr heraus.
Andere erzählen von LIDAR oder Stereo-Image-Datensätzen (SID) für das Training autonomer Fahrzeuge. Ein Annotator beschreibt mir, wie er für eine einzige SID-Sequenz manchmal zwei Wochen am Stück annotiert. Es komme auch vor, dass das Material mit der Anmerkung – Fehler bei der Annotation – an ihn zurückgeht und er keine Bezahlung erhält. Für diese Arbeit benötigen die Annotators Computer mit leistungsstarken Grafikkarten und einer schnellen Internetverbindung. Weil sie Freelancer sind, müssen sie das alles selbst stellen.
Intransparenz ist ein Teil des Geschäftsmodells. Es ist unübersichtlich, wie viele Unternehmen diese Arbeiten an Freelancer vermitteln und wer die Auftraggeber dahinter sind. Kürzlich kam heraus, dass kenianische Arbeiter:innen die Gesichtserkennungssoftware trainiert haben, die die russische Regierung eingesetzt hat, um Kritiker ausfindig zu machen. Die Annotators wussten von nichts.
KI-Nutzung im militärischen Kontext?
Erst im Mai haben Google-Deep-Mind-Angestellte einen offenen Brief unterzeichnet, in dem sie den Ausstieg aus KI-Militärverträgen fordern. Sind die Annotators aus Kenia auch an Projekten für die KI-Nutzung im militärischen Kontext involviert, ohne es zu wissen – und damit ohne das Recht, eine ethische Entscheidung für sich treffen zu können?
Es braucht zweifelsohne mehr Transparenz im Feld der Data Annotation – was die Arbeitsbedingungen, die Auftraggeber, den Anteil an menschlicher Arbeit angeht. Dazu muss man nicht in die Ferne schweifen. Man kann vor der eigenen Haustüre anfangen und deutsche KI-Start-ups fragen, wo und unter welchen Bedingungen sie ihre Trainingsdaten annotieren lassen. Ich würde mich nicht wundern, wenn man in verdutzte Augen blickt. Man ist schließlich zu sehr damit beschäftigt, KI zu vermarkten. Für arbeitsrechtliche und ethische Fragestellungen bleibt da kaum Raum. KI made in Germany ist damit ein genauso hohler Slogan wie damals in der Bekleidungsindustrie, als für das Label „Made in Germany“ lediglich ein Produktionsschritt nach Deutschland geholt wurde.