Новости и мнения

Q & A: Кодирование классического фильма, компьютерная операционная система в ДНК

Разговор с ученым Янивом Эрлихом

Янив Эрлих и его коллеги закодировали большие медиафайлы в ДНК, многократно копировали ДНК и все же смогли получить файлы без каких-либо ошибок, сообщили они в Science сегодня (2 марта). Исследователи отметили, что по сравнению с кассетными лентами и 8-миллиметровой пленкой, вероятность того, что ДНК устареет, гораздо меньше, а плотность ее хранения составляет примерно 215 петабайт данных на грамм генетического материала.

Чтобы проверить возможности хранения ДНК, Эрлих, доцент кафедры информатики в Колумбийском университете в Нью-Йорке, и Дина Зелински , старший научный сотрудник Нью-йоркского центра генома, закодировали шесть больших файлов, включая французский фильм и фильм. компьютерная операционная система (ОС), в комплекте с программным обеспечением для обработки текста – в ДНК. Затем они восстановили данные из ПЦР-копий этой ДНК. Ученый говорил с Эрлихом об исследовании и других потенциальных приложениях для хранения данных для ДНК.

Ученый : Почему ДНК – это хорошее место для хранения информации?

Янив Эрлих: Во-первых, мы начинаем достигать физических ограничений жестких дисков. ДНК гораздо более компактна, чем магнитные носители – примерно в 1 миллион раз компактнее. Во-вторых, это может длиться гораздо дольше. Подумайте о своих дисках из 90-х, они, вероятно, уже поцарапаны. [Сегодня] мы можем прочитать ДНК со скелета [то есть] 4000 лет. В-третьих, одна из приятных особенностей ДНК заключается в том, что она не подвержена цифровому устареванию. Подумайте о видеокассетах или 8-мм фильмах. В эти дни очень трудно смотреть эти фильмы, потому что аппаратное обеспечение меняется очень быстро. ДНК – это оборудование никуда не денется. Это было вокруг в течение прошлых 3 миллиардов лет. Если человечество утратит способность читать ДНК, у нас будут гораздо большие проблемы, чем хранение данных.

TS : пытались ли другие исследователи хранить информацию в ДНК?

YE: Есть несколько групп, которые уже проделали этот процесс, и они вдохновили нас, но у нашего подхода есть несколько преимуществ. Наши на 60 процентов эффективнее предыдущих стратегий, и наши результаты очень невосприимчивы к шуму и ошибкам. В большинстве предыдущих исследований сообщалось о некоторых проблемах с получением данных из ДНК, о некоторых пробелах [в полученной информации], но мы показываем, что это легко. Мы даже пытались усложнить это для себя. , , поэтому мы попытались скопировать данные, и ферментативная реакция [вовлеченная в копирование ДНК] вводит ошибки. Мы скопировали данные, а затем скопировали эту копию, а затем скопировали копию этой копии – девять раз – и мы все еще смогли восстановить данные без одной ошибки. Мы тоже . , , достигается плотность 215 петабайт на один грамм ДНК. Ваш ноутбук имеет, вероятно, один терабайт. Умножьте это на 200 000, и мы сможем поместить всю эту информацию в один грамм ДНК.

ТС : Как вы и ваши коллеги выбрали, что кодировать в ДНК?

YE: Некоторые были просто для удовольствия. Мы решили попробовать французский фильм под названием «Прибытие поезда» [на станции La Ciotat], один из первых когда-либо созданных фильмов, а теперь и первый фильм, переживший реакции ПЦР. Мы закодировали полную операционную систему компьютера – вы можете написать свою статью об этой операционной системе. Мы также поместили компьютерный вирус в ДНК. Мы подумали, что было бы забавно поместить туда компьютерный вирус, потому что вы обычно думаете о обычных вирусах в ДНК.

ТС : В своем исследовании вы упоминаете, что высокая точность вашего процесса обусловлена ​​«исходными кодами». Что именно это и почему вы их использовали?

YE: У нас есть две проблемы, когда вы кодируете информацию о ДНК. Во-первых, не все молекулы ДНК созданы одинаково. Если у вас есть молекула с длинным участком того же нуклеотида, как АААА, очень сложно синтезировать эту молекулу и очень трудно ее реплицировать, поэтому делать это не очень желательно. Вторая проблема состоит в том, что не все молекулы ДНК собираются сделать это: некоторые из этого ферментативного процесса в основном выпадают из процесса, и мы все еще должны быть в состоянии восстановить файл. Использование фонтанных кодов является одним из решений, которое решает эти две проблемы.

Это похоже на головоломку судоку. Вместо того, чтобы отправлять файлы напрямую, мы отправляем много подсказок о файле. , , , Мы делаем это настолько легко, что даже если вы пропустите множество подсказок, вы все равно сможете восстановить файл. Так работает фонтан ДНК. Вы не видите все молекулы, но вы все равно можете восстановить содержимое файла. И как только у вас есть файл, компьютер может генерировать бесконечные подсказки о файле. , , как фонтан. Мы берем каждый намек, сопоставляем его с последовательностью ДНК на компьютере и видим, нравится нам эта последовательность или нет. Есть ли у него свойства, которые мы хотим от хорошей последовательности ДНК? Если этого не произойдет, мы откажемся от этого.

Файл ДНК сам по себе содержит множество намеков на файл. Есть несколько мест, где небольшие части файла действительно есть, например, ячейки с ответами на сетке Судоку, но в большинстве мест есть эти подсказки о нескольких ячейках на сетке.

ТС : Насколько сложно было получить файлы, закодированные в ДНК?

YE: Это было супер просто. , , , Как только у нас появилась идея использовать коды фонтанов, все стало на свои места. Мы начали ближе к концу мая, и к середине сентября у нас была готова рукопись.

ТС : Это реалистичный процесс? Насколько это дорого?

YE: Сейчас нужно больше работать. , , В настоящее время это 2 тысячи долларов за два мегабайта данных, но нужно помнить следующее: 7 тысяч долларов предназначены для молекул ДНК очень хорошего качества, потому что цепочка поставок ориентирована на приложения синтетической биологии. Но здесь у нас есть все это встроенное резервирование, мы можем допустить гораздо большую долю ошибок, поэтому это говорит о том, что мы можем в основном пойти и, возможно, произвести более быструю и грязную ДНК, которая будет более ошибочной, но гораздо более дешевой. Таким образом, мы можем реально снизить затраты на хранение ДНК.

Пояснение (3 марта): заголовок этой статьи был обновлен, чтобы прояснить, что исследователи закодировали один фильм и одну ОС в ДНК.

Обсуждение

Ваш e-mail не будет опубликован. Обязательные поля помечены *