Анастасия Шартогашева

Текст

Все фильмы на свете можно сохранить на донышке пробирки. Для этого нужно записать их на ДНК. Эта молекула — ​самый компактный носитель информации из всех, что нам известны. Пройдет десяток лет, и ДНК-память станет такой же привычной, как жесткий диск

Это шутка? Или ­какой‑то экзотический эксперимент? Нет. Природа создала ДНК специально для хранения информации, и молекула очень хороша в этой роли. В теле среднего человека всего 200 граммов ДНК, но на это количество в теории можно было бы записать 43 тысячи петабайт данных (один петабайт равняется тысяче терабайтам, или квадриллиону байт, это число с пятнадцатью нулями). Чтобы разместить столько же информации на жестких дисках, понадобилось бы 4 миллиона 300 тысяч 10-терабайтных носителей, которые заняли бы куб с ребром почти 12 метров.

Кроме компактности у ДНК есть и другие преимущества. Она хранится неопределенно долго — ​смогли же ученые прочитать ДНК мамонта, пролежавшего в вечной мерзлоте 38 тысяч лет. Для сравнения: записи на оптических носителях становятся нечитаемыми уже через 30 лет, магнитные ленты за несколько десятилетий рассыпаются в пыль, ячейки на жестких дисках размагничиваются через 1050 лет.

Читать на ЦО.РФ

Хранители Как устроен накопитель на магнитных лентах – самый перспективный носитель информации

В 2011 году, когда Gmail уже был самым массовым сервисом электронной почты в мире, на серверах Google произошла череда сбоев. Данные более чем 40 тысяч пользователей оказались утеряны, несмотря на то что дублировались сразу на нескольких жестких дисках. Компании грозили серьезные потери. Избежать скандала и восстановить информацию помог архив, сохранивший все на старых добрых магнитных лентах

Помимо физического старения есть еще и моральное. Устройства для чтения устаревают и оказываются на свалке, а информация, записанная на старомодный носитель, становится недоступной. Такое случилось с результатами экспериментов, которые провел на Луне экипаж «Аполлона‑11». Ученые из NASA записали их на магнитные ленты, а в 2008 году уже не смогли прочитать. Если бы аппарат IBM 729 MarkV не нашелся в музее, уникальные данные о свойствах лунной пыли пропали бы навсегда.

С технологией чтения ДНК такое вряд ли случится. «Если на Земле не останется ни одного места, где можно секвенировать ДНК, это будет означать, что наша цивилизация столкнулась с очень серьезными проблемами», — ​шутит биоинформатик Дина Зелински. И действительно, если мы разучимся читать ДНК, значит, потеряем биохимию, медицину, вирусологию и многие другие науки.

Трансляция РНК. В клетках живых организмов рибосомы (в центре) производят белки (красный) по «рецепту», который считывают с ДНК или РНК (цветная цепочка)

Трансляция РНК. В клетках живых организмов рибосомы (в центре) производят белки (красный) по «рецепту», который считывают с ДНК или РНК (цветная цепочка)

Понятно, в природе ДНК хранит информацию. А на каком языке?

Молекула ДНК содержит генетический код. Это инструкция, по которой ферменты (молекулярные машины, управляющие химическими реакциями) строят живые организмы: от кишечной палочки до человека. Если представить, что гены — ​это слова, то биологический вокабуляр достаточно велик: геном человека содержит 2040 тысяч генов. Алфавит же состоит всего из четырех букв. Смысловая часть ДНК представляет собой последовательность азотистых оснований, или нуклеотидов. Это четыре простых химических соединения, которые называются аденин (А), тимин (Т), цитозин (C) и гуанин (G).

Сходство очевидно. Компьютерные данные записывают в виде чисел в двоичной системе, используя значения 0 и 1. ДНК — ​это четверичный код, состоящий из букв: A, T, C и G. Есть много способов превратить двоичный код в последовательность нуклеотидов. Например, можно записать 00 как A, 01 — ​как C, 10 — ​как G, и 11 — ​как T.

Капсула времени. В честь 20-летия Олимпиады в Сиднее видеозапись чемпионской гонки бегуньи Кэти Фримен записали на ДНК и поместили в металлическую капсулу

Капсула времени. В честь 20-летия Олимпиады в Сиднее видеозапись чемпионской гонки бегуньи Кэти Фримен записали на ДНК и поместили в металлическую капсулу

Правда, самый простой способ не всегда лучший. Некоторые последовательности, которые часто встречаются в двоичной записи, для геномов живых организмов нехарактерны. Например, длинные участки ДНК с преобладанием одного и того же нуклеотида или двух чередующихся. Их трудно синтезировать: они склонны к разрывами или закручивают молекулу в узлы, которые мешают ее прочитать.

ЖИВЫЕ ФЛЕШКИ. Ученые Колумбийского университета превратили живую бактерию в дисковод. Об этом они написали в журнале Nature в январе этого года. С помощью генной инженерии они научили бактерии записывать в собственную ДНК определенные нуклеотиды в ответ на стимуляцию электрическим током. Раздражая рецепторы одноклеточных электричеством, они смогли записать 72 бита информации. Размножаясь, бактерии копировали записанную информацию, превращаясь в вечные живые карты памяти.

Как записать информацию на ДНК?

Когда известна нужная последовательность нуклео­тидов, начинается работа в пробирке. Строительные блоки будущей ДНК, производные от отдельных нуклеотидов, добавляются в раствор друг за другом и присоединяются к общей цепочке.

Этот процесс начали автоматизировать еще до того, как догадались записывать на ДНК данные. Первые синтезаторы появились в начале 1980-х и с тех пор сильно прибавили в скорости, но недостаточно: последовательным способом создают лишь относительно короткие цепочки длиной до 200 нуклеотидов, и процесс по-прежнему занимает много времени.

Синтез ДНК. Специалист лаборатории ATUM работает с ДНК-синтезатором. Компания производит цепочки ДНК на заказ

Синтез ДНК. Специалист лаборатории ATUM работает с ДНК-синтезатором. Компания производит цепочки ДНК на заказ

Методики создавались с расчетом на медицинскую точность: в биотехнологиях даже одна-единственная ошибка имеет серьезные последствия. Для хранения информации точность не главное, мелкие огрехи выявляются и исправляются программными методами. Поэтому для систем хранения данных разработчики ищут новые технологии синтеза.

В международном стартапе Catalog создали набор из 100 коротких фрагментов ДНК, которые заранее готовятся в большом количестве. Ими можно записать любой двоичный код. Важнее то, что фрагменты соединяются между собой не произвольно, а строго в определенных комбинациях. Процесс синтеза ДНК выглядит так: робот добавляет в раствор сразу много фрагментов. Затем добавляются ферменты, которые сшивают кусочки в единую цепочку — ​строго в той последовательности, которую предварительно рассчитал компьютер. Сейчас в Catalog работают над прототипом, который будет синтезировать ДНК на 125 ГБ в сутки. Если прототип оправдает ожидания, возьмутся за новую модель, в тысячу раз быстрее первой.

Быстрый синтез. Экспериментальный синтезатор стартапа Catalog внешне напоминает обычный лабораторный аппарат, но работает намного быстрее. Машина собирает цепочки ДНК из множества заранее скомбинированных фрагментов, а не из отдельных нуклеотидов

Быстрый синтез. Экспериментальный синтезатор стартапа Catalog внешне напоминает обычный лабораторный аппарат, но работает намного быстрее. Машина собирает цепочки ДНК из множества заранее скомбинированных фрагментов, а не из отдельных нуклеотидов

А как прочитать записанные данные?

Процесс считывания последовательности нуклеотидов называют секвенированием (от англ. sequence — ​последовательность). Раньше секвенаторы были размером с холодильник. Современные модели умещаются на ладони и стоят значительно дешевле. Они базируются на нанопорной технологии, которую разработали в Оксфорде в 2014 году.

Технология находится на стыке биохимии и микроэлектроники. Собственно нанопора — ​это воронка, сделанная из белковых молекул. Диаметр отверстия в ней — ​один нанометр. Такие же поры позволяют веществам проникать сквозь мембраны живых клеток. Нанопоры для секвенирования, так же как и их природные аналоги, производятся ферментами. Это чистая биотехнология. А дальше вступает электроника.

Двойная спираль. Как и в живой природе, процесс чтения делит молекулу ДНК надвое. ДНК называют двойной спиралью, потому что она состоит из двух нитей с зеркальной последовательностью нуклеотидов. Там, где на одной нити аденин, на другой — ​тимин, а напротив гуанина всегда цитозин. Прежде чем считать молекулы ДНК, к ним химически присоединяют моторные ферменты. Фермент делит ДНК на две нити, одну из которых проталкивает через нанопору и разрушает. К оставшимся без пары нитям достаточно добавить другой фермент — ​полимеразу, которая вновь достроит их до двойной спирали.

Нанопора устанавливается на тонкой мембране, которая имеет определенное электрическое сопротивление. Нуклеотиды, проходя сквозь пору, меняют это сопротивление, причем каждый немного по-своему. Компьютер непрерывно измеряет электрические характеристики мембраны и таким образом расшифровывает ДНК.

На одной кремниевой подложке размещаются сотни или даже тысячи нанопор. Сигнал каждой из них обрабатывается отдельно. Система способна работать со множеством разных ДНК одновременно, а при совпадении последовательностей может сверять данные и выявлять ошибки.

Биомикросхема. Метод распознавания по электрическому сопротивлению работает быстро. Одна нанопора определяет свыше 250 нуклеотидов в секунду

Биомикросхема. Метод распознавания по электрическому сопротивлению работает быстро. Одна нанопора определяет свыше 250 нуклеотидов в секунду


Выходит, чтобы посмотреть кино, придется возиться с пипетками?

«Ваши фото здесь», — ​девушка в белом халате улыбается в камеру, держа на вытянутой руке микропробирку с мутноватой жидкостью. На самом деле, заметное глазу количество ДНК хоть и выглядит эффектно, но в работе неудобно: получается слишком много спонтанных химических реакций и информационного шума.

Если кто-то и запишет на ДНК все фильмы в мире, он не станет размещать их на донышке одной пробирки. Скорее специальный робот бережно распределит молекулы по наноячейкам и упакует в нечто, похожее на флешку. К примеру, микропластина компании Twisted Bioscience размером с почтовую марку содержит 96 микроскопических резервуаров, каждый из которых делится еще на 96 емкостей. Разработчики считают, что в будущем подобные пластины можно будет использовать прямо в персональных компьютерах.

Аккуратное распределение ДНК по емкостям важно еще и потому, что одновременная обработка множества молекул — ​это ключ к увеличению скорости чтения. На это способны такие машины, как аппарат PromethION от Oxford Nanopore Technologies. Он может одновременно обрабатывать данные 48 нанопорных ячеек, каждая из которых содержит до 3000 нанопор.

ДНК-комбайн. Компактный секвенатор PromethION от компании Oxford Nanopore выдает до 8 терабайт данных за одну процедуру секвенирования

ДНК-комбайн. Компактный секвенатор PromethION от компании Oxford Nanopore выдает до 8 терабайт данных за одну процедуру секвенирования

Уговорили! Бегу в Магазин!

В первую очередь ДНК-память будут использовать для хранения данных, к которым обращаются редко. На ДНК уже предлагали переписать фонды Библиотеки Конгресса США, национальные архивы, результаты переписей населения, фильмотеку Голливуда и массив экспериментальных данных, полученных на Большом адронном коллайдере.

Чтобы ДНК-память пошла в народ, скорость должна вырасти на 6 порядков для синтеза молекул и на 23 порядка для чтения данных. Эксперты считают, что ничего невозможного в этом нет. По оптимистичным оценкам, первые массовые устройства появятся уже в 2030-е годы.

Возможно, появится ДНК-память с произвольным доступом к отдельным фрагментам информации, чтобы не приходилось каждый раз секвенировать молекулу целиком. Для этого можно пришивать к разным фрагментам синтетической ДНК короткие фрагменты-праймеры, по которым можно быстро ориентироваться в большом массиве данных.

В компании Catalog считают необходимым сделать ДНК-память не только скоростной, но и дешевой. По расчетам основателей стартапа, для выхода технологии на рынок стоимость гигабайта в ДНК-записи должна опуститься до 10 долларов. Это по-прежнему много: 1 ГБ на жестком диске стоит всего цент. Но когда речь идет о колоссальных объемах информации, ДНК выигрывает у жестких дисков и тем более у магнитных лент за счет компактности: хранение кубометров носителей обходится недешево. Вывести коммерческую систему на рынок создатели Catalog собираются уже в текущем десятилетии.

Валерий Ильинский
Валерий Ильинский, Генетик, глава компании Genotek

Использование ДНК для хранения информации — ​идея, не лишенная смысла. Это возможно, тем более мы видим примеры реализации. Но если посмотреть на технологию в практическом и экономическом разрезе, то стоимость записи, а главное, расшифровки информации с такого носителя слишком высока для практического применения. Причем она останется крайне высокой еще на протяжении десятилетий. В любом случае вряд ли когда-нибудь расшифровка ДНК приблизится по стоимости к расшифровке информации с традиционных носителей: флешек, магнитных лент, жестких дисков и т.  д. Второй аспект — ​это хранение. Действительно, ДНК может сохраняться веками, однако сохранить ДНК-материал в неизменном виде — ​задача нетривиальная, требующая специальной температуры, влажности, света и прочих условий.




Использованные источники: Материал опубликован в журнале «Цифровой океан» № 5, 2021, VOISIN / PHANIE / AFP / East News, JUAN GAERTNER / SPL / Legion-media, DR LINDA STANNARD, UCT / SPL / Legion-media, DAVID GRAY / AFP / East News, Aric Crabb/MediaNews Group/The Mercury News / Getty Images, CATALOG TECHNOLOGIES, INC., Oxford Nanopore Technologies (x3), Oxford Nanopore Technologies, Алёна Кардаш,