Gegen Diskriminierung in KI-Modellen: Meta stellt neuen Datensatz vor
Metas neuer Datensatz nennt sich Casual Conversations v2 und enthält erstmals nicht nur Daten aus den USA, sondern auch aus Brasilien, Indien, Indonesien, Mexiko, Vietnam und den Philippinen, wie das Unternehmen in einem Blogpost schreibt.
„Um Nichtdiskriminierung, Fairness und Sicherheit in der KI zu erhöhen, ist es wichtig, integrative Daten und Vielfalt innerhalb der Datenkategorien zu haben, damit Forscher besser einschätzen können, wie gut ein bestimmtes Modell oder KI-gestütztes Produkt für verschiedene demografische Gruppen funktioniert“, sagte Roy Austin, Vizepräsident und stellvertretender Leiter der Rechtsabteilung für Bürgerrechte bei Meta.
„Dieser Datensatz spielt eine wichtige Rolle, um sicherzustellen, dass die von uns entwickelte Technologie von Anfang an für alle gerecht ist.“
Datensatz für alle zugänglich
Der inklusive Datensatz ist dabei für alle zugänglich, die eine Kopie davon haben möchten. Sinnvoll ist das vor allem für Entwickler von KI-Algorithmen, die damit sehen können, wie ihre Systeme auf verschiedene Arten von Menschen reagieren.
So können sie sicherstellen, dass die von ihnen gebaute KI nicht eine bestimmte Gruppe von Menschen diskriminiert, sondern alle gleich und fair behandelt. Das ist immer noch eine große Herausforderung für KI.
Mehr Kategorien für mehr Inklusion
Meta hat den Datensatz dabei in insgesamt elf Kategorien unterteilt. Die erste Version des Datensatzes hatte weitaus weniger. So waren die Geschlechter lediglich in „Männlich“, „Weiblich“ und „Andere“ unterteilt. Nun gibt es insgesamt sechs Kategorien allein für das Geschlecht.
Ebenfalls mit dabei sind das Alter, der offensichtliche Hautton, Sprache, Stimmfarbe und mehr. So können die KI auf möglichst viele verschiedene Menschen in der Testphase reagieren.
Diese Arten von Daten sind oft schwierig zu bekommen, da der geografische und kulturelle Kontext eine Rolle spielt. Außerdem ist es häufig schwierig, zu bestätigen, wie genau die Daten sind und wie gut die Kennzeichnung zwischen verschiedenen Quellen funktioniert. Metas neuer Datensatz soll genau hier Abhilfe schaffen.
Übrigens: Zum Thema „Diskriminierung durch KI“ haben wir kürzlich 6 Epxert:innen danach gefragt, welche Regeln jetzt wichtig sind.