Als Menschen ist es uns in begrenztem Umfang möglich, beim Anblick eines Fotos die mutmaßlich zum Aufnahmezeitpunkt herrschende Geräuschkulisse zu imaginieren oder uns zumindest aus Erfahrungswerten vorzustellen, welche Geräusche es dort gegeben haben könnte. Was aber, wenn wir nur eine Geräuschkulisse hätten? Könnten wir uns dann das zugehörige Bild vorstellen und wenn ja, wie genau?
KI-Kamera erstellt Bilder aus Klangprofilen
Diese Fragen sind der Schwerpunkt eines Projekts von Diego Trujillo Pisanty, das er Blind Camera nennt. Auf der Grundlage von in Mexiko-Stadt aufgenommenen Videodaten hat Pisanty ein mit Tensorflow 3 erstelltes neuronales Netzwerk auf einer RTX-3080-GPU von Nvidia trainiert.
Der verwendete Trainingsdatensatz enthielt Bilder aus diesen Videos, die mit einem Geräusch verbunden waren. Wenn dem so trainierten neuronalen Netzwerk nun ein Klangprofil präsentiert wird, versucht es, die Szene auf der Grundlage des Klangs unter Zuhilfenahme seines KI-Modells zu rekonstruieren.
Blind Camera hält alles für eine Stadt
Die gesamte erforderliche Mimik hat Pisanty so angepasst, dass sie auf einem einzelnen Raspberry-Pi-3B-Board läuft. Da das Modell nur die Sehenswürdigkeiten und Geräusche von Mexiko-Stadt kennt, wird das resultierende Bild immer als eine Zusammenstellung von Szenen aus dieser Stadt dargestellt.
Pisanty weiß natürlich um diese Limitierung und räumt ein: Für das Gerät ist alles eine Stadt. Positiv betrachtet können wir daraus die Erkenntnis ziehen, dass auch eine KI einen begrenzten Horizont hat, nicht nur wir Menschen.