Gegen Diskriminierung in KI-Modellen: Meta stellt neuen Datensatz vor

Meta unterteilt in viele Kategorien. (Bild: Shutterstock / metamorworks)
Metas neuer Datensatz nennt sich Casual Conversations v2 und enthält erstmals nicht nur Daten aus den USA, sondern auch aus Brasilien, Indien, Indonesien, Mexiko, Vietnam und den Philippinen, wie das Unternehmen in einem Blogpost schreibt.
„Um Nichtdiskriminierung, Fairness und Sicherheit in der KI zu erhöhen, ist es wichtig, integrative Daten und Vielfalt innerhalb der Datenkategorien zu haben, damit Forscher besser einschätzen können, wie gut ein bestimmtes Modell oder KI-gestütztes Produkt für verschiedene demografische Gruppen funktioniert“, sagte Roy Austin, Vizepräsident und stellvertretender Leiter der Rechtsabteilung für Bürgerrechte bei Meta.
„Dieser Datensatz spielt eine wichtige Rolle, um sicherzustellen, dass die von uns entwickelte Technologie von Anfang an für alle gerecht ist.“
Der inklusive Datensatz ist dabei für alle zugänglich, die eine Kopie davon haben möchten. Sinnvoll ist das vor allem für Entwickler von KI-Algorithmen, die damit sehen können, wie ihre Systeme auf verschiedene Arten von Menschen reagieren.
So können sie sicherstellen, dass die von ihnen gebaute KI nicht eine bestimmte Gruppe von Menschen diskriminiert, sondern alle gleich und fair behandelt. Das ist immer noch eine große Herausforderung für KI.
Meta hat den Datensatz dabei in insgesamt elf Kategorien unterteilt. Die erste Version des Datensatzes hatte weitaus weniger. So waren die Geschlechter lediglich in „Männlich“, „Weiblich“ und „Andere“ unterteilt. Nun gibt es insgesamt sechs Kategorien allein für das Geschlecht.
Ebenfalls mit dabei sind das Alter, der offensichtliche Hautton, Sprache, Stimmfarbe und mehr. So können die KI auf möglichst viele verschiedene Menschen in der Testphase reagieren.
Diese Arten von Daten sind oft schwierig zu bekommen, da der geografische und kulturelle Kontext eine Rolle spielt. Außerdem ist es häufig schwierig, zu bestätigen, wie genau die Daten sind und wie gut die Kennzeichnung zwischen verschiedenen Quellen funktioniert. Metas neuer Datensatz soll genau hier Abhilfe schaffen.
Übrigens: Zum Thema „Diskriminierung durch KI“ haben wir kürzlich 6 Epxert:innen danach gefragt, welche Regeln jetzt wichtig sind.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team