Мечту записали в ДНК

В искусственную ДНК записали пять файлов общим объемом 5,2 мегабита, в том числе звуковой файл с речью Мартина Лютера Кинга и научную статью нобелевских лауреатов, расшифровавших структуру этой молекулы. Об этом пишет  gazeta.ru.

Объединенная исследовательская группа из Европейского института биоинформатики (EBI), расположенного в Великобритании, и Европейской лаборатории молекулярной биологии (EMBL), расположенной в Германии, совместно с компанией Agilent Technologies (США) разработала технологию, позволяющую использовать искусственные ДНК в качестве долговременного, надежного и энергонезависимого носителя информации. Статья с описанием технологии опубликована сегодня в Nature.

Используя в качестве устройства памяти короткие одноцепочечные ДНК, так называемые олигонуклеотиды (олигонуклеотид — короткая форма нуклеиновой кислоты, содержащая относительно небольшое, до нескольких десятков, число нуклеотидов), исследователи записали на массив таких ДНК пять различных файлов, содержащих полное собрание сонетов Шекспира (текст в формате ASCII), статью первооткрывателей структуры ДНК Джеймса Уотсона и Френсиса Крика "Молекулярная структура нуклеиновых кислот" в формате PDF, цветное фото здания ЕBI в формате JPEG, 26-секундный MP3-файл с фрагментом речи Мартина Лютера Кинга "У меня есть мечта", а также файл с алгоритмом Хаффмана, использованным для конвертации бинарных файлов в вид, удобный для представления данных через последовательность азотистых оснований ДНК.

Общий объем полезных данных, записанных и считанных с ДНК, составил примерно 5,2 мегабита.
Для записи этого объема было использовано 153 335 синтезированных коротких цепочек ДНК по 117 нуклеотидов (117 битов) каждая. Данные кодировались в четырех блоках по 25 нуклеотидов. В оставшихся 17 нуклеотидах (17 бит) кодировались адресные метки, необходимые для сборки данных в исходный файловый массив.

Кодирование происходило в три этапа. Двоичный код, в котором были представлены данные, сначала конвертировался на компьютере в троичный посредством алгоритма Хаффмана, с помощью которого восьмибитные блоки данных (байты) представлялись в виде последовательности из пяти троичных чисел, или тритов (0,1,2). Далее блочная последовательность тритов конвертировалась в код из трех нуклеотидов.

Троичная кодировка позволяла не только сжать данные, но и уменьшить вероятность ошибок при последующем считывании ДНК и реконструкции двоичного массива.

Как известно, ДНК представляет собой полимерную молекулу, в состав которой входят четыре нуклеотида (аденин, гуанин, тимин и цитозин — А, Г, Т, Ц). Для конвертации троичного кода достаточно трех, поэтому в каждом последующем троичном блоке основания можно было комбинировать по-разному, ведь один из четырех нуклеотидов в них мог отсутствовать. Последнее гарантировало, что при синтезе ДНК два и более одинаковых нуклеотида не пришлось бы стыковать в одну полимерную цепочку (так называемый гомополимер), что снижает вероятность ошибок при последующей реконструкции данных.

Полученные таким образом 153335 ДНК-кода были отосланы в США в Agilent Technologies, где они были синтезированы на специальном оборудовании, при этом каждая из 117-битных олигонуклеотидных молекул была размножена в 12 млн копий.

Замороженный и высушенный в вакууме массив синтезированных ДНК, представляющий собой крошечную щепотку органики в герметично запаянной пробирке, был отослан обычной срочной почтой обратно в Англию и далее — в Германию, в одну из лабораторий EMBL, где ДНК были обратно расшифрованы с почти стопроцентной точностью, позволившей, в свою очередь, успешно реконструировать пять первоначальных файлов (число и содержание которых сотрудники лаборатории не знали).

Рассматривать ДНК-память в качестве будущего потенциального стандарта хранения и считывания данных позволяют впечатляющие преимущества, которые имеет эта технология перед электронно-оптическими запоминающими устройствами, которые используются сейчас. Это огромная плотность записи (теоретически, то есть в предельном "идеальном" случае в одном грамме одноцепочечной ДНК можно записать до 455 эксабайт данных, кодируя два бита на один нуклеотид), энергонезависимость, а также долговечность: ДНК со временем хоть и деградирует, но в природной среде может сохранять информацию десятки тысяч лет, а при искусственной консервации и дольше.

Запоминать информацию посредством ДНК успешно пробуют еще с конца 80-х, однако настоящий прорыв в этом направлении произошел только сейчас, со стремительным удешевлением и, главное, увеличением точности технологий по быстрому синтезу и расшифровке ДНК-молекул.

Подробнее - gazeta.ru.




Читайте полную версию на сайте