07.03.2022

Плотность записи данных в ДНК удалось удвоить На один грамм удалось записать более 400 тысяч терабайт

Текст Александр Пономарёв

Американские ученые из Университета Иллинойса в Урбан-Шампейн при помощи алгоритма глубокого обучения смогли вдвое повысить плотность записи информации в ДНК

Нити ДНК формируются в виде чередования пар комбинаций из четырех азотистых оснований: аденина (A), гуанина (G), цитозина (C) и тимина (T). Четыре единицы кодирования лучше двух (0 и 1), но и это не предел. Расширение кодирования данных в ДНК с 4 до 11 символов позволило удвоить емкость подобных методов хранения информации. Такой подход повышает скорость записи данных в последовательности ДНК, но современные методы секвенирования не смогут определять синтезированные азотистые основания.

Для их чтения необходимы новые инструменты и реакции. Для расшифровки ДНК нить проходит через нанопору в специально разработанном белке, который может обнаружить отдельные азотистые основания независимо от того, являются они естественными или синтетическими. Затем алгоритмы машинного обучения декодируют хранящуюся внутри информацию.

С учетом использования для кодирования данных только четырех базовых азотистых оснований в одном грамме ДНК могло храниться до 215 петабайтов данных. Испытав 77 различных комбинаций из 11 азотистых оснований, ученые смогли при помощи нового метода различить каждое из них. Механизм глубокого обучения, используемый для идентификации различных нуклеотидов, является универсальным, что позволяет распространить указанный подход на многие другие приложения.

Нейросеть недавно побила рекорд по расшифровке ДНК: