Die Speicherung von Daten in DNA klingt wie Science-Fiction, liegt aber in naher Zukunft. Professor Tom de Greef geht davon aus, dass das erste DNA-Datenzentrum in fünf bis zehn Jahren in Betrieb sein wird. Die Daten werden nicht als Nullen und Einsen auf einer Festplatte gespeichert, sondern in den Basenpaaren, aus denen die DNA besteht: AT und CG. Ein solches Datenzentrum hätte die Form eines Labors, das um ein Vielfaches kleiner wäre als die heutigen. De Greef kann sich das alles schon vorstellen. In einem Teil des Gebäudes werden neue Dateien durch DNA-Synthese kodiert. Ein anderer Teil wird große Felder von Kapseln enthalten, jede Kapsel mit einer Datei. Ein Roboterarm nimmt eine Kapsel heraus, liest ihren Inhalt und setzt sie wieder ein.
Wir sprechen hier von synthetischer DNA. Im Labor werden Basen in einer bestimmten Reihenfolge aneinander geklebt, um synthetisch hergestellte DNS-Stränge zu bilden. Dateien und Fotos, die derzeit in Rechenzentren gespeichert werden, können dann in DNA gespeichert werden. Bislang ist die Technik nur für die Archivierung geeignet. Denn das Auslesen der gespeicherten Daten ist sehr teuer, so dass man die DNA-Dateien so wenig wie möglich einsehen möchte.
Große, energiefressende Rechenzentren werden überflüssig
Die Datenspeicherung in DNA bietet viele Vorteile. Eine DNA-Datei kann beispielsweise viel kompakter gespeichert werden, und auch die Lebensdauer der Daten ist um ein Vielfaches länger. Aber vielleicht am wichtigsten ist, dass diese neue Technologie große, energiefressende Datenzentren überflüssig macht. Und das ist auch dringend nötig, warnt De Greef, „denn in drei Jahren werden wir weltweit so viele Daten erzeugen, dass wir nicht einmal die Hälfte davon speichern können“.
Zusammen mit dem Doktoranden Bas Bögels, Microsoft und einer Gruppe von Universitätspartnern hat De Greef eine neue Technik entwickelt, um die Innovation der Datenspeicherung mit synthetischer DNA skalierbar zu machen. Die Ergebnisse sind heute in der Zeitschrift Nature Nanotechnology veröffentlicht worden. De Greef arbeitet am Department of Biomedical Engineering und am Institute for Complex Molecular Systems (ICMS) der TU Eindhoven und ist Gastprofessor an der Radboud University.
Skalierbar
Die Idee, DNA-Stränge zur Datenspeicherung zu verwenden, kam in den 1980er Jahren auf, war damals aber viel zu schwierig und teuer. Technisch möglich wurde sie erst drei Jahrzehnte später, als die DNA-Synthese in Schwung kam. George Church, ein Genetiker an der Harvard Medical School, entwickelte die Idee 2011 weiter. Seitdem sind die Synthese und das Auslesen der Daten exponentiell billiger geworden, so dass die Technologie schließlich auf den Markt gebracht werden konnte.
In den letzten Jahren haben sich De Greef und seine Gruppe vor allem mit dem Auslesen der gespeicherten Daten beschäftigt. Dies ist derzeit das größte Problem dieser neuen Technik. Die derzeit verwendete PCR-Methode, der so genannte „random access“, ist sehr fehleranfällig. Man kann also immer nur eine Datei lesen, und außerdem verschlechtert sich die Datenqualität bei jedem Lesen einer Datei zu sehr. Nicht gerade skalierbar.
Und so funktioniert es: Bei der PCR (Polymerase-Kettenreaktion) werden Millionen von Kopien des benötigten DNA-Stücks erstellt, indem ein Primer mit dem gewünschten DNA-Code hinzugefügt wird. Corona-Tests im Labor beispielsweise beruhen auf dieser Methode: Selbst eine winzige Menge Coronavirus-Material aus Ihrer Nase ist nachweisbar, wenn es so oft kopiert wird. Wenn man aber mehrere Dateien gleichzeitig lesen will, braucht man mehrere Primerpaare, die gleichzeitig ihre Arbeit tun. Dies führt zu vielen Fehlern im Kopierprozess.
Jede Kapsel enthält eine Datei
An dieser Stelle kommen die Kapseln ins Spiel. Die Gruppe von De Greef entwickelte eine Mikrokapsel aus Proteinen und einem Polymer und verankerte dann eine Datei pro Kapsel. De Greef: „Diese Kapseln haben thermische Eigenschaften, die wir zu unserem Vorteil nutzen können.“ Oberhalb von 50 Grad Celsius versiegeln sich die Kapseln selbst, so dass der PCR-Prozess in jeder Kapsel separat ablaufen kann. Da bleibt nicht viel Raum für Fehler. De Greef nennt dies „thermo-confined PCR“. Im Labor ist es bisher gelungen, 25 Dateien gleichzeitig zu lesen, ohne dass es zu nennenswerten Fehlern kam.
Wenn man dann die Temperatur wieder senkt, lösen sich die Kopien von der Kapsel und das verankerte Original bleibt übrig, so dass sich die Qualität der Originaldatei nicht verschlechtert. De Greef: „Wir stehen derzeit bei einem Verlust von 0,3 Prozent nach drei Lesevorgängen, verglichen mit 35 Prozent bei der bisherigen Methode.“
Durchsuchbar mit Fluoreszenz
Und das ist noch nicht alles. De Greef hat die Datenbibliothek auch noch leichter durchsuchbar gemacht. Jede Datei erhält ein Fluoreszenzetikett und jede Kapsel ihre eigene Farbe. Ein Gerät kann dann die Farben erkennen und sie voneinander trennen. Das bringt uns zurück zu dem imaginären Roboterarm am Anfang dieser Geschichte, der in Zukunft die gewünschte Datei aus dem Pool der Kapseln heraussuchen wird.
Damit ist das Problem des Auslesens der Daten gelöst. De Greef: „Jetzt muss man nur noch warten, bis die Kosten für die DNA-Synthese weiter sinken. Dann wird die Technik einsatzbereit sein.“ Daher hofft er, dass die Niederlande bald ihr erstes DNA-Datenzentrum eröffnen können – eine Weltneuheit.