Новости и мнения

Ошибочные идентификационные данные

Исследователи работают над автоматизацией трудной задачи идентификации и внесения поправок в ошибочно маркированные последовательности в генетических базах данных.

Researchers at King’s College London were working on some human gene expression experiments in 2008 when they got a strong match to one of the probe sequences in an Affymetrix microarray. Исследователи из Королевского колледжа Лондона работали над некоторыми экспериментами по экспрессии генов человека в 2008 году, когда они получили сильное совпадение с одной из последовательностей зондов в микрочипе Affymetrix. Единственная доступная информация о гене из чипа заключалась в том, что это была человеческая последовательность, вспоминает Уильям Лэнгдон , который помогал в проекте. Поэтому команда провела BLAST-поиск, чтобы найти больше информации. «И первое, что вы получите, это, конечно, сама человеческая последовательность», – сказал Лэнгдон, который сейчас учится в Университетском колледже Лондона. Но когда он просмотрел список других связанных последовательностей, которые появились в поиске, было очевидно, что что-то не так. «Они [были] все разные виды микоплазмы ».

Появился случай ошибочной идентичности; первоначальный отправитель последовательности в GenBank, должно быть, имел микоплазменное загрязнение в образце человека и предполагал, что последовательность была человеческой. В исследовании Langdon и его коллегах, опубликованном в 2009 году, авторы показывают поразительное сходство между этой «человеческой» последовательностью и определенной маркерной последовательностью из различных видов микоплазм .

По сей день последовательность все еще помечена как « Homo sapiens unknown» в базе данных Национального центра биотехнологической информации (NCBI) Genbank. Этот неправильный номер представляет одну из сотен – возможно, тысяч – последовательностей, депонированных в GenBank и в других местах, которые были назначены неправильному таксону.

То, что ошибки существуют в GenBank и других базах данных, является трюизмом. Но исправление ошибочно помеченных последовательностей – трудная задача, которую теперь стараются автоматизировать управляющие базой данных и ученые-компьютерщики. «У меня есть видение, что в течение следующих нескольких лет у нас будет множество вычислительных подходов. , , создать курируемые подмножества во всем GenBank », – сказал Дэвид Липман , директор NCBI.

Выявление проблем

Существует ряд причин, по которым исследователь может назначить последовательность неправильному организму, в том числе микробное загрязнение в образцах, химеризм (когда геномы двух организмов объединяются в процессе амплификации ДНК), плохая таксономическая идентификация или даже простые человеческие ошибки. во время подготовки образца.

Масштабы проблемы с неверно маркированной последовательностью остаются предметом спекуляций, но некоторые исследования дали некоторое понимание. Например, в начале этого года Лэнгдон искал подмножество данных из проекта «1000 геномов» на предмет возможного загрязнения. «Около 7 процентов образцов имеют микоплазменное загрязнение», – сказал он.

Другое исследование этого года показало, что Bradyrhizobium является распространенным контаминантом последовательности в эукариотических последовательностях. Например, последовательности, относящиеся к таксонам, столь же разнообразным, как тибетская антилопа, гриб, простейшие и Homo sapiens, представляют собой Bradyrhizobium. «Проблема гораздо более обширна», – сказал ученый в электронном письме основатель лаборатории ShipShaw Мартин Лоренс . «У меня есть длинный, неопубликованный список загрязненных последовательностей, поскольку используемые мной наборы для извлечения ДНК также загрязнены, поэтому я в конечном итоге вижу зоопарк животных моего клинического вида человека (последовательности попугаев особенно популярны)», – продолжил он. «Очевидно, что рядом с моими образцами не было попугаев или тибетских антилоп».

Эволюционный биолог Стивен Смит из Мичиганского университета строит большие филогенетические деревья растений. В одном проекте, на группе растений, включая кактусы и плотоядные виды, Смит проанализировал около 4000 организмов, у которых было достаточно перекрывающихся последовательностей в GenBank, чтобы сделать дерево. «Что-то порядка 1-2 процентов того, что я использовал для создания этого дерева, неправильно маркировано», – сказал он. «Это не большое число, но если вам все равно, где виды попадают в филогению, это делает это большим делом».

Хотя может быть очевидно, что последовательность ошибочно помечена в GenBank, ее может исправить только тот, кто отправил ошибочную запись. Несмотря на то, что существуют процедуры для оповещения администраторов баз данных о проблемах, для них является трудоемкой задачей связаться с отправителями и расследовать каждый случай. Ошибочно помеченные материалы иногда исправляются, но часто они остаются в базе данных.

Уборка

Алексис Стаматакис , биоинформатик из Института теоретических исследований Гейдельберга в Германии, привык к жалобам своих коллег-биологов на неправильно маркированные последовательности. Несколько лет назад он решил что-то сделать с этим вопросом. Он и его члены группы разработали алгоритм для искоренения ошибочно маркированных последовательностей. «Сейчас метод не полностью автоматический», – сказал он. «У нас есть полуавтоматический метод для облегчения процесса курирования, который затем предоставляет куратору список предполагаемых ошибочно помеченных последовательностей». Пользователь должен решить, действительно ли последовательность принадлежит другому организму.

Разработчики еще не опубликовали свой алгоритм, но Пелин Йилмаз , постдок из Института морской микробиологии им. Макса Планка в Бремене, Германия, принял его для тест-драйва. Она является членом базы данных SILVA, курируемой коллекции данных последовательности рибосомальной РНК. Каждый месяц она получает от пользователей несколько вопросов о потенциально неправильно маркированных последовательностях. Она применила программное обеспечение Стаматакиса к группе организмов, состоящих только из цианобактерий. Используя таксономию от GenBank, «из 1000 [последовательностей] я нашел 150 неправильно маркированных, что не так уж и плохо», – сказала она. Два других набора данных, Greengenes и Проект базы данных Ribosomal, каждый обнаружил с 90 потенциально неправильно маркированными последовательностями, в то время как таксономия SILVA имела 30.

«Было бы очень сложно найти такие ярлыки», – сказал Йилмаз. «Если бы мне пришлось делать это вручную, я полагаю, мне придется строить филогенетические деревья снова и снова. Это намного лучше ».

Успех алгоритма начинает рушиться на уровне видов, но в роде он довольно точен, идентифицируя последовательности с ошибками с точностью до 98 процентов, сказал Алексей Козлов , аспирант лаборатории Стаматакиса. В настоящее время программа может обрабатывать около 10 000 последовательностей, поэтому ее лучше всего применять для небольших наборов данных. Козлов сказал, что увеличение количества последовательностей является будущей целью.

Между тем, NCBI предпринимает некоторые усилия для устранения ошибочно идентифицированных последовательностей в GenBank. Агентство работало внутри и с внешними группами над созданием курируемого набора 16S-последовательностей, связанных с типовыми штаммами, и внутренних транскрибируемых спейсерных (ITS) последовательностей – еще одного широко используемого маркера – у грибов . «Это особенно важные последовательности, чтобы курировать и получать очищенные наборы, потому что они используются многими для классификации их организмов», – сказал Липман.

Липман сказал, что ему приятно узнать о разработчиках, таких как Стаматакис, которые работают над автоматизацией процесса очистки генетических баз данных. Он хотел бы, чтобы такие инструменты применялись во всем GenBank, особенно в момент представления. «В значительной степени это означает, что вместо того, чтобы база данных смотрела на каждую запись в том виде, в каком она поступает в бэкэнд, нужно возвращаться к отправителю, если мы заранее получим эти согласованные модели. , , в конечном счете, вы можете увидеть, как это сэкономит нам много времени ».

Для GenBank особенно важно расставить приоритеты в этих усилиях, учитывая то, как исследователи теперь используют базу данных, добавил он. «Это связано с этим переходом, что последовательность теперь выполняется для сравнительных целей, поэтому мы должны хорошо поработать, чтобы очистить ее, и поэтому мы можем очень быстро дать гораздо более информативный ответ пользователю».

Обсуждение

Ваш e-mail не будет опубликован. Обязательные поля помечены *