Bits im Erbgut: Neue Methode zur DNA-Speicherung können auch Nicht-Fachleute anwenden
Wie sich herausstellt, muss man kein/e Forscher:in sein, um Daten in DNA zu kodieren. Forscher:innen arbeiten seit Jahrzehnten an solchen Datenspeichermethoden. Doch eine neue Technik, die sich an den chemischen Prozessen unserer Zellen orientiert, ist so einfach, dass sie auch Nicht-Wissenschaftler:innen anwenden könnten. Sie könnte den Weg für eine ungewöhnliche, aber ultrastabile Art der Informationsspeicherung ebnen.
Die Idee, Daten mithilfe von DNA zu speichern, wurde erstmals in den Fünfzigerjahren vom Physiker Richard Feynman vorgeschlagen. Genetisches Material verfügt über eine außergewöhnliche Speicherdichte und Haltbarkeit: Ein einziges Gramm DNA kann eine Billion Gigabyte an Daten speichern und die Informationen über Tausende von Jahren aufbewahren. Jahrzehnte später setzte ein Team unter der Leitung von George Church an der Harvard University diese Idee in die Praxis um und kodierte ein Buch mit 53.400 Wörtern.
Dieser frühe Ansatz beruhte auf der natürlichen DNA-Synthese: Dabei werden die genetischen Bausteine der DNA, die sogenannten Nukleotide, Stück für Stück wie Perlen auf einem Faden aneinandergereiht. Nukleotide bestehen aus je einem Zucker, einem Phosphatrest und einer der vier Basen Adenin (A), Thymin (T), Cytosin (C) und Guanin (G), wobei die ersten beiden ein Gerüst bilden und letztere die Informationen verschlüsseln. Das Verfahren war allerdings teuer, zeitaufwendig und fehleranfällig. Denn mit jeder Base, die einem Strang hinzugefügt wurde, entstand nur ein Bit (oder ein Achtel eines Bytes) an Information. Vor allem aber war für die Durchführung des Verfahrens Fachwissen erforderlich.
Bis jetzt. Die Ende Oktober im Fachjournal „Nature“ veröffentlichte neue Methode ist effizienter und speichert 350 Bits auf einmal, indem sie Stränge parallel kodiert. Anstatt die Bausteine jedes DNA-Strangs einzeln aneinanderzufädeln, setzte das Team kurze DNA-Stränge aus jeweils etwa 20 Nukleotiden zusammen und kodierte die Informationen, indem es einige davon chemisch durch Anhängen einer Methylgruppe modifizierten und andere nicht. Das Vorhandensein der Modifikation stand für den binären Wert 0 und das Fehlen für 1. Die Information kann dann mithilfe von sogenannten Nanopore-Sequenzierern entschlüsselt werden, um festzustellen, ob ein Strang methyliert wurde.
Inspiration aus der Zelle
Als Inspiration dafür diente Long Qian von der Universität Peking und ihrem Team das Verhalten unserer Zellen. „Jede Zelle in unserem Körper hat die gleiche Genomsequenz, aber die genetische Programmierung erfolgt durch Veränderungen der DNA. Wenn das Leben das kann, können wir das auch“, sagt Qian. Das bedeutet, dass die Zellen je nach Gewebe oder Aufgabe unterschiedliche Gene aus dem Gesamtpool nutzen. Welche das sind, hängt von einer chemischen Markierung an den Genen ab. Ist eine Methylgruppe an sie angeheftet, also ein kleines, mit Methan verwandtes Molekül, dann ist das Gen abgeschaltet und wird nicht abgelesen. Fehlt die Methylierung, ist das Gen nutzbar.
Bei der neuen Methode ist die Speicherkapazität eines jeden DNA-Strangs immer noch auf etwa 70 Bit begrenzt. Für größere Dateien teilten die Forscher:innen die Daten deshalb in mehrere solche Stränge auf, die durch eindeutige, in den Bausteinen kodierte Strichcodes gekennzeichnet waren. Die Stränge wurden dann gleichzeitig ausgelesen und anhand ihrer Strichcodes sequenziert. Mit dieser Technik kodierten die Forscher:innen das Bild eines Tigerabdrucks aus der Han-Dynastie und überprüften den Kodierungsprozess so lange, bis das Bild ohne Fehler zurückkam. Dasselbe Verfahren funktionierte auch bei komplexeren Bildern, wie dem fotorealistischen Abdruck eines Pandas.
Theoretisch ist die neue Methode dabei so einfach, dass sie ohne detaillierte Kenntnisse über die Manipulation der DNA durchgeführt werden kann. Um die Anwendbarkeit in der Praxis zu testen, bat das Team 60 Student:innen mit unterschiedlichem akademischem Hintergrund und nicht nur Wissenschaftler:innen, einen beliebigen Text ihrer Wahl zu kodieren. Die Freiwilligen transkribierten zunächst ihren Text über einen Webserver in Binärcode. Dann pipettierten sie mit einem vom Team zur Verfügung gestellten Kit ein Enzym in eine Testpalette mit 96 Vertiefungen, die die DNA-Bausteine enthielten, und markierten, welche davon methyliert werden sollten.
Anschließend ließ das Team die Proben durch eine Maschine laufen, um den DNA-Strang zu erstellen. Sobald der Computer die Sequenz empfangen hatte, ließen die Forscher einen Entschlüsselungsalgorithmus drüberlaufen und schickten die wiederhergestellte Nachricht an einen Webserver, den die Freiwilligen mit einem Passwort abrufen konnten. Der Text enthielt nur zu 1,4 Prozent falsche Buchstaben, und die Fehler wurden anschließend durch Sprachlernmodelle korrigiert.
Fernziel: Langzeitspeicher
Sobald die Technologie weiterentwickelt ist, könnte sie nach Ansicht von Qian als Langzeitspeicher für Archivdaten dienen, auf die nicht jeden Tag zugegriffen wird, zum Beispiel medizinische Aufzeichnungen, Finanzberichte oder wissenschaftliche Daten.
Der Erfolg, den Nicht-Wissenschaftler mit dieser Technik bei Codierungsversuchen erzielt haben, deutet darauf hin, dass die DNA-Speicherung schließlich zu einer praktischen Technologie werden könnte. „Jeder speichert tagtäglich Daten, und um mit den herkömmlichen Datenspeichertechnologien konkurrieren zu können, müssen die DNA-Methoden für den Normalbürger nutzbar sein“, sagt Jeff Nivala, Co-Direktor des Labors für molekulare Informationssysteme der University of Washington. „Dies ist noch eine frühe Demonstration, die sich an Nicht-Expert:innen richtet, aber ich denke, es ist ziemlich einzigartig, dass sie dazu in der Lage sind“.
Die DNA-Speicherung muss noch viele Fortschritte machen, bevor sie mit der herkömmlichen Datenspeicherung konkurrieren kann. Das neue System ist teurer als herkömmliche Datenspeichertechniken oder frühere DNA-Synthesemethoden, sagt Nivala, obwohl der Kodierprozess durch Automatisierung in größerem Maßstab effizienter werden könnte. In Zukunft könnte die DNA-Speicherung auf der Grundlage von Schablonen eine sicherere Methode zur Bewältigung des weiterhin steigenden Datenbedarfs werden.