10-mal besser als MP3: Meta stellt KI-gestützten Audiocodec vor

Laut dem US-Konzern könnte die Technik namens Encodec die Klangqualität bei Verbindungen mit geringer Bandbreite, wie beispielsweise Telefongespräche in Gebieten mit lückenhaftem Netz, deutlich verbessern. Auch Musik könnte damit komprimiert werden.
Meta hat die Technologie am 25. Oktober in einem Artikel mit dem Titel „High Fidelity Neural Audio Compression“ vorgestellt, der von den Meta-KI-Forscher:innen Alexandre Défossez, Jade Copet, Gabriel Synnaeve und Yossi Adi verfasst wurde.
Diskriminatoren sind der Schlüssel
Das Prinzip hinter Audiocodec ist dreiteilig. Ein Encoder wandelt die unkomprimierten Daten in eine höherdimensionale Darstellung mit niedrigerer Bildrate um. Ein Quantifizierer komprimiert diese Darstellung auf die gewünschte Größe und sorgt dafür, dass die wichtigsten Informationen erhalten bleiben, damit das ursprüngliche Signal rekonstruiert werden kann. Diese komprimierte Datei wird über das Internet versendet oder auf der Festplatte gespeichert.
Der letzte Schritt wird vom Decoder übernommen. Er wandelt das komprimierte Signal in eine Wellenform um, die der ursprünglichen Form so nah wie möglich ist.
Laut dem Technologie-Blog Ars Technica ist der Einsatz von sogenannten Diskriminatoren der Schlüssel bei dieser neuen Technologie. Sie sorgen dafür, dass die Schlüsselelemente eines Signals, die die Datei unverwechselbar machen, nicht verloren gehen. Das gelingt, indem rekonstruierte Audio-Samples via KI ständig mit echten Samples verglichen werden, wie bei einem Katz-und-Maus-Spiel.
Das ist neu
„Der Schlüssel zur Komprimierung besteht darin, Änderungen zu identifizieren, die für den Menschen nicht wahrnehmbar sind“, heißt es vonseiten Metas.
Die Verwendung eines neuronalen Netzwerks für die Audiokomprimierung und -dekomprimierung ist nicht neu, aber die Forscher:innen von Meta behaupten, die Technologie als Erste auf 48-Kilohertz-Stereo-Audio anzuwenden. Das ist nicht nur besser als die 44,1-Kilohertz-Variante, die auf CDs zum Einsatz kommt, sondern auch typisch für im Internet verbreitete Musikdateien.
Noch in der Forschungsphase
Noch befindet sich die neue Technologie von Meta in der Forschungsphase – und es gibt noch Aspekte, die verbessert werden müssen. So verbraucht sie momentan noch viel Energie und ist darauf angewiesen, dass Computer und Mobiltelefone sehr leistungsfähig sind.
Sollte sie sich durchsetzen, könnten qualitativ hochwertige Audiodateien auch bei geringerer Bandbreite zum Einsatz kommen, was eine gute Nachricht für alle mobilen Breitbandanbieter wäre, die jetzt schon mit überlasteten Netzwerken durch verschiedene Streaming-Medien umgehen müssen.