Millionen Discord-User betroffen: Warum Forscher mehr als 2 Milliarden Nachrichten im Netz veröffentlicht haben

Discord war einst als Geheimtipp unter Gamer:innen bekannt. Mittlerweile gibt es mehr als 200 Millionen aktive User:innen im Monat und 19 Millionen Server, auf denen tagtäglich Nachrichten verschickt werden. Wenn ihr in den vergangenen Jahren Nachrichten auf einem öffentlichen Discord-Server verschickt habt, sind die Chancen hoch, dass diese jetzt Teil einer großen Datenbank sind.
Discord: Was machen die Forscher:innen mit den Nachrichten?
Forscher:innen aus Brasilien haben für ihr Paper „Discord enthüllt: Eine umfassende Datenbank der öffentlichen Kommunikation“ mehr als zwei Milliarden Discord-Nachrichten zusammengefasst und in ein großes Datenset verwandelt. Sämtliche Nachrichten stammen dabei aus der Zeit von 2015 bis 2024, also vom Launch von Discord bis ins vergangene Jahr hinein.
Insgesamt wurden 3.167 öffentliche Discord-Server für die Nachrichten durchforstet. Das sind etwa zehn Prozent der Server, die im Discovery-Bereich der App aufgelistet sind und denen User:innen mit wenigen Klicks beitreten können. Laut den Forscher:innen stammen die zwei Milliarden Nachrichten dabei von mehr als 4,7 Millionen Nutzer:innen. Sämtliche Nachrichten wurden in einer JSON-Datei mit einer Größe von 118 Gigabyte zusammengefasst.
In einer Erklärung heißt es von den Forscher:innen: „Unser Datensatz soll es Forschern ermöglichen, die Auswirkungen von digitalen Plattformen auf den politischen Diskurs, die Verbreitung von Desinformationen, die Entwicklung von effektiver Moderation und die regulatorischen Strategien für solche Umgebungen zu ergründen. […] Unser multilinguales Datenset gibt solchen Forschungen einen neuen Umfang, indem es kultur- und sprachübergreifend Analysen zu Trends der mentalen Gesundheit und dem Diskurs auf Discord ermöglicht und eine Basis zum Identifizieren von Risikoverhalten, dessen Häufigkeit sowie unterstützender Interaktionen bereitstellt.“
Das Sammeln der Daten soll laut den Forscher:innen jederzeit mit „ethischen Standards“ abgelaufen sein. So stammen die Nachrichten nur von Discord-Servern, die explizit als öffentlich markiert sind. Zudem wurden die Nachrichten anonymisiert. Das bedeutet, dass alle Namen von User:innen entfernt und durch zufällig generierte Pseudonyme ersetzt wurden. Zudem wurden alle Informationen innerhalb der Nachrichten entfernt, die auf die Personen dahinter schließen lassen könnten.
Dennoch könnte die Forschungsarbeit gegen die Richtlinien von Discord verstoßen. Wie Gizmodo berichtet, beinhalten die Nutzungsbedingungen seit 2020 eine Passage, die das großangelegte Auslesen und externe Speichern von Daten verbietet. Gegenüber Gizmodo bestätigte ein Discord-Sprecher: „Das ist eine ernste Angelegenheit und wir sind darauf bedacht, die Privatsphäre und Daten unserer User zu schützen“.
In einer ersten Untersuchung haben die Verantwortlichen bei Discord festgestellt, dass die Daten zwar wirklich öffentlich zugänglich waren, aber ohne Einverständnis der Plattform oder der User:innen gesammelt und gespeichert wurden. Obwohl die Forscher:innen die Daten anonymisiert haben, verstößt die Aktion gegen die Discord-Richtlinien. Jetzt will das Unternehmen den Vorfall ganzheitlich untersuchen.