Новости и мнения

Хранение данных ДНК

Исследователи кодируют книгу в ДНК, демонстрируя возможность использования биологической молекулы для долгосрочного хранения данных.

Кодирование сообщений в ДНК впервые было продемонстрировано в 1980-х годах, но в то время технология позволяла кодировать только один графический символ. Несмотря на то, что эта емкость выросла за последние 3 десятилетия, крупнейший на сегодняшний день проект, завершенный в 2010 году, обработал всего 7 920 бит данных, что соответствует примерно половине страницы печатного текста. Используя новую методику, подробно изложенную сегодня в « Науке» , исследователи из Гарвардского университета и Университета Джона Хопкинса теперь закодировали в ДНК книгу из 53 000 слов, включая 11 изображений JPG и одну программу JavaScript.

«Другие отметили, что ДНК имеет определенные преимущества», – сказал соавтор исследования Шрирам Косури. «Но никто не поднял его до уровня, на котором мы смогли закодировать действительно полезные объемы информации».

Эти преимущества включают в себя плотность информации, которая может быть сохранена: оценка максимальной емкости предсказывает, что один грамм одноцепочечной ДНК может хранить столько же, сколько эксабайт (10 18 байт) данных. Тем не менее, синтез и секвенирование ДНК несет в себе много ошибок. Синтетическая ДНК, как правило, содержит один неправильный нуклеотид на каждые 70, и методы секвенирования следующего поколения могут делать много ошибок при интерпретации хранимых данных.

Чтобы преодолеть такие ошибки, команда присвоила основания A и C равными 0, а G и T равными 1, создав поток цифровых данных. Рукопись и сопровождающие ее документы – черновой вариант книги, написанной в соавторстве с одним из авторов исследования, Джорджем Черчем, под названием « Возрождение: как синтетическая биология будет заново изобретать природу и нас самих» – были преобразованы в HTML перед переводом в поток «0» и 1, которые могут быть записаны в последовательности ДНК. Результирующий поток был длиной 5,27 мегабита, или 5,27 млн. Единиц и 1.

Предыдущие методы сталкивались с проблемами при попытке создать целые потоки в одной длинной последовательности ДНК, сложный и дорогой процесс. Решением команды было разделить поток на более мелкие секции. Они кодировали 96 бит на короткий нуклеотидный участок, называемый олигонуклеотидом, каждый из которых содержал 19-битный «адрес» для упорядочения информации в общей последовательности. Каждый олигонуклеотид синтезировали несколько раз, так что при считывании можно было сравнивать ошибки в каждой копии и достигать консенсусного считывания.

«Это похоже на то, что когда вы секвенируете геном человека, вы не секвенируете его один раз, вы секвенируете его с охватом в 30 или 50 раз, и вы просто принимаете консенсус в каждой позиции», – сказал Косури.

После синтеза последовательности и прикрепления капель ДНК к чипам микрочипов данные хранили при 4 градусах Цельсия в течение 3 месяцев, а затем растворяли в воде, амплифицировали с помощью ПЦР и секвенировали. Сохраняя несколько копий и упорядочивая каждую копию много раз, чтобы достичь консенсуса, команде удалось декодировать всю последовательность длиной 5,27 миллиона бит с ошибками всего в 10 бит.

«Они придумали очень умный способ управления ошибками при создании информации», – сказал синтетический биолог Стивен Беннер из Фонда прикладной молекулярной эволюции, который не принимал участия в исследовании. «[Авторы] предоставляют некоторые умные способы обойти проблемы, позволяя считывать меньшинство молекул, содержащих желаемую информацию, среди большого числа молекул, которые этого не делают».

Хотя хранилище ДНК не перезаписывается и не предназначено для замены вашего жесткого диска, идея долгосрочного хранения больших объемов данных в очень маленьком пространстве имеет преимущества для архивирования записей и данных. В отличие от плоского диска, такого как компакт-диск, с данными, только надписанными на поверхности, на листе ДНК хранятся данные по всей его толщине. Однако основной проблемой, которая остается, является стоимость и эффективность современных технологий синтеза и секвенирования, которые в настоящее время делают эту систему непрактичной для регулярного использования. Однако, поскольку затраты на секвенирование продолжают падать, а технологии продолжают развиваться, такие стратегии хранения ДНК могут вскоре стать гораздо более практичными.

Другая проблема, которую необходимо преодолеть, – это сохранение. ДНК все еще можно секвенировать из высушенных мумий, которым тысячи лет, но такие последовательности редко бывают завершенными.

«Химия ДНК не легко поддается столетним пассивным, неупакованным архивам», – сказал Беннер. «Однако этот документ должен побуждать людей решать проблемы хранения информации на основе молекул, учитывая ее потенциал для хранения с очень высокой плотностью».

Дж. Черч и др., «Цифровое хранилище информации нового поколения в ДНК», Science , DOI: 10.1126 / science.1226355 , 2012.

Обсуждение

Ваш e-mail не будет опубликован. Обязательные поля помечены *