Trotz Fokus auf Datenschutz: So soll Apple Intelligence besser werden

Apple hat erklärt, wie KI-Features unter Wahrung des Datenschutzes immer besser werden können. (Foto: Mamun sheikh K/Shutterstock)
Dass sich die großen Tech-Konzerne bislang ungern über die genauen Funktionsweisen und vor allem das Training ihrer KI-Systeme äußern, trägt nicht gerade dazu bei, die Ängste und Sorgen der User:innen zu zerstreuen. Umso willkommener ist jetzt der Schritt von Apple, in einem Blogbeitrag genau das zu tun.
Darin behauptet Apple endlich eine Möglichkeit entwickelt zu haben, die Leistungsfähigkeit der eigenen KI-Modelle stetig zu steigern. Der Clou daran: Für das Training der KI werden keine Daten verwendet, die auf einzelne User:innen zurückführbar wären.
In einem ersten Schritt generiert Apple synthetische Nachrichten
Um KI-Training und das Wahren der Privatsphäre unter einen Hut zu bringen, kombiniert Apple synthetische Daten und differenzielle Privatsphäre. Wie das funktioniert, erklärt das Unternehmen an einem Beispiel.
Um die Modelle zu verbessern, generiert Apple zunächst synthetische Nachrichten zu gängigen Themen. „Möchtest du morgen um 11:30 Tennis spielen?“, könnte eine solchermaßen verfasste E-Mail lauten, deren Text ohne Kenntnis der E-Mails einzelner User:innen erstellt wird, wie Apple schreibt.
Die synthetischen Daten werden mit anonymisierten reellen verglichen
Von diesen Nachrichten werden dann sogenannte Embeddings erstellt, in denen wesentliche Aspekte wie Länge, Thema und Sprache der Nachricht festgehalten werden. Diese Embeddings werden dann an eine „kleine Anzahl von Benutzergeräten“ gesendet, deren Besitzer:innen sich zuvor für die Geräteanalyse angemeldet haben.
Auf deren Geräten werden die synthetischen Nachrichten dann mit echten E-Mails der User:innen verglichen und ein Feedback dazu gegeben, welche davon diesen am nächsten kommen. Diese Rückmeldung erfolgt im Sinne der differenziellen Privatsphäre anonym, sodass Apple nicht erfasst, welches Gerät welche Rückmeldung gegeben hat.
Was zählt, ist die Masse
Anschließend werden die am häufigsten ausgewählten Embeddings dazu verwendet, entsprechende Trainings- und Testdaten zu generieren und den Datensatz weiter zu verfeinern, so Apple. Im E-Mail-Beispiel bedeutet das, dass damit KI-Features wie die Zusammenfassung von E-Mails trainiert werden.
Darüber hinaus erklärt Apple den Einsatz der neuen KI-Trainingsmethode auch bei Genmojis. Hierbei werden ausgewählte Geräte per Zufallsprinzip im Hinblick auf oft genutzte Prompts abgefragt.
Die Anonymität bleibt auch hier gewahrt. Einzelne Prompts können nicht auf einzelne Geräte zurückgeführt werden und die Eingaben werden für Apple auch erst ab einer gewissen Häufigkeit sichtbar.