Warum ein Forscher künstliche Intelligenz mit menschlicher Wahrnehmung verbinden will
Sowohl künstliche Intelligenzen als auch Kleinkinder lernen die Welt um sich herum kennen – allerdings auf sehr unterschiedliche Weise. Während die Kids ihre Erinnerungen und sensorischen Informationen mit Emotionen verbinden, arbeiten KI mit Daten und Algorithmen.
Brenden Lake, Psychologe mit einem Forschungsschwerpunkt auf menschlicher und künstlicher Intelligenz an der New York University, hat ein Experiment durchgeführt, um diese Unterschiede weiter zu erforschen.
Über einen Zeitraum von elf Monaten hat er seine 21 Monate alte Tochter jede Woche für eine Stunde mit einer Gopro ausgestattet, um Aufnahmen aus ihrer Perspektive zu machen. Diese Aufnahmen nutzt er, um ein Sprachmodell zu trainieren, das mit den gleichen Daten gefüttert wird, die das Kleinkind aufnimmt. So will er die Lernprozesse von KI weiter verstehen und verbessern.
KI und Kinder lernen unterschiedlich
Künstliche Intelligenzen und Kinder lernen mit grundlegend verschiedenen Daten. Veranschaulichen lässt sich das anhand von Metas Llama 3, das mit einem riesigen Datensatz trainiert wurde, der mehr als zehn Milliarden Wörter enthält. Im Vergleich dazu wurde ein durchschnittliches fünf Jahre altes Kind nur etwa 300.000 Wörtern ausgesetzt – dafür aber auch unzähligen anderen Reizen.
Trotz dieser Datenmengen, mit denen KI trainiert werden, fehlt ihnen der Zugang zu bestimmten menschlichen Erfahrungen.
Beispielsweise können sie nicht die Geschmacksunterschiede verschiedener Lebensmittel erleben oder Gefühle empfinden. Diese sensorischen Daten, die Menschen ganz natürlich verarbeiten, lassen sich nur schwer in Code oder andere Informationen übersetzen, die eine KI nutzen könnte.
Lake hofft, durch seine Forschung eine Verbindung zwischen menschlicher Wahrnehmung und künstlicher Intelligenz schaffen zu können.
KI kann Wörter und Bilder verbinden
Bereits im Februar hatten Lake und seine Kollegen im Rahmen einer Studie eine KI mit etwa 60 Stunden Videoaufnahmen trainiert, die aus der Perspektive eines Kleinkindes aufgenommen worden waren. Die Forscher zeigten darin, wie die KI auf die Eingabe bestimmter Wörter reagiert: Zum Beispiel zeigte sie bei dem Wort „Sand“ einen Clip des Kindes am Strand und bei „Auto“ einen Clip des Kindes im Autositz. Die Ergebnisse verdeutlichen, dass die KI in der Lage ist, den Bildern Wörter zuzuordnen und entsprechende Momente abzuspielen.