Новости и мнения

Ученые продолжают использовать устаревшие методы

Использование неэффективных вычислительных инструментов является основным нарушителем в кризисе воспроизводимости науки – и его стремление избежать этого растет.

hen Lior Pachter came across one of the latest publications from the federally funded Genotype-Tissue Expression (GTEx) project, he couldn’t suppress his disappointment. Когда Лиор Пахтер натолкнулся на одну из последних публикаций из финансируемого из федерации проекта « Генотип-тканевая экспрессия» (GTEx), он не смог подавить свое разочарование.

В статье, опубликованной в октябре прошлого года, исследователи из консорциума GTEx проанализировали данные секвенирования РНК (RNA-seq) из более чем 40 типов тканей в организме человека. Сами результаты были захватывающими, говорит Пачтер, вычислительный биолог в Калифорнийском технологическом институте. Но одна строчка, спрятанная в разделе методов, заставила его чувствовать себя раздраженным. Строка гласила: «Показания RNA-seq были приведены в соответствие с геномом человека. , , используя TopHat (v1.4). »

В ответ Пахтер вышел в твиттер. «Пожалуйста, прекратите использовать Tophat», – написал он в начале декабря. «Больше нет причин использовать его».

TopHat версии 1.4 был обновлением 2012 года для программы с открытым исходным кодом, задуманной Пачтером и его коллегами в 2008 году, которая совмещает чтения из экспериментов RNA-seq с эталонным геномом. Мало того, что версия 1.4 далека от самой последней версии TopHat – с тех пор было выпущено более 15 выпусков, – но сам TopHat обогнал более новое программное обеспечение, включая HISAT , HISAT2 и STAR , разработанное в основном другими исследователями.

«Оригинальная программа TopHat очень устарела, не только по времени, но и по производительности – она ​​действительно была заменена», – говорит Пачтер. «К настоящему времени, в 2017 году, безусловно, высококлассный консорциум с интересными данными не должен использовать этот инструмент».

Кристин Ардли , директор Центра анализа и координации лабораторных данных GTEx в Институте Брод, отмечает, что группа уделяет пристальное внимание выбору инструмента, но неизбежны задержки с учетом масштаба проекта.

«Написание документов консорциума и до конечной точки публикации может занять много времени», – пишет она в электронном письме The Scientist . Данные для октябрьских публикаций были доработаны в 2014 году и обнародованы в 2015 году. «Первоначальный анализ этого был бы проведен за несколько месяцев до этого времени», добавляет она. (TopHat2, непосредственный предшественник TopHat, стал доступен в 2012 году.) «Мы считаем [TopHat v1.4] устаревшим (или что есть лучшие версии), и с тех пор мы действительно обновляли наши инструменты много раз». Проекты GTEx используют STAR.

Но Пахтер отмечает, что GTEx – не единственная группа, выпускающая статьи со ссылкой на устаревшие версии программного обеспечения. Со времени публикации в 2009 году оригинальная статья TopHat , в соавторстве с Пахтером, его аспирантом Коулом Трапнеллом и со-руководителем Трапнелла Стивеном Зальцбергом , собрала более 6500 ссылок, из которых более 1000 были зарегистрированы в прошлом году.

Он посылает сообщение, что на самом деле не имеет значения, какую программу вы используете, что все они похожи – и это не совсем так.

Лиор Пахтер,
Калифорнийский технологический институт

И TopHat – это всего лишь один из многих устаревших вычислительных инструментов, которые стали плохими научными привычками. Действительно, неподтвержденные данные, а также недавние исследования этой проблемы позволяют предположить, что использование устаревшего программного обеспечения широко распространено в сообществе биологических наук и редко даже признается проблемой.

«Довольно часто мы сталкивались со студентами или преподавателями, которые неосознанно использовали эти устаревшие программные инструменты», – говорит Юри Рейманд , вычислительный биолог по раку в Университете Торонто. На вопрос, почему они не рассматривали возможность обновления своих рабочих процессов, «они обычно отвечают, потому что они были впервые ознакомлены с этими инструментами, и они действительно не обращали внимания на то, часто ли они обновлялись».

В настоящее время усиливается импульс для противодействия этой позиции, поскольку становится все более очевидным, что выбор вычислительного программного обеспечения может оказать существенное влияние на прогресс науки. Пользователи старых методов не только не могут воспользоваться преимуществами более быстрых и более точных алгоритмов, улучшенных наборов данных, а также настроек и исправлений, которые позволяют избежать ошибок в более ранних версиях, они также способствуют кризису воспроизводимости из-за различий в результатах, новых и старых. методы производства.

С этой точки зрения, «когда пользователи используют очень старые инструменты, которые, как мы знаем, являются неподходящими для использования, это в некотором смысле обесценивает вклад всех нас в разработку новой методологии», – говорит Пачтер. «Он посылает сообщение, что на самом деле не имеет значения, какую программу вы используете, что все они похожи – и это не совсем так».

Влияние устаревшего программного обеспечения на результаты и воспроизводимость

За последние несколько лет было предпринято несколько попыток количественно оценить влияние использования устаревших вычислительных инструментов на биологические исследования. В 2016 году Рейманд и его коллеги исследовали 25 сетевых инструментов обогащения путей – программ, которые помогают исследователям использовать онлайновые базы данных для понимания экспериментальных генетических данных. Команда хотела знать, попадают ли обновления в эти базы данных и программное обеспечение, используемое для доступа к ним, в литературу и влияют ли эти изменения на научные результаты.

Это не то, что люди просто тратят много времени на публикацию результатов.

– Юри Рейманд,
Университет Торонто

Их выводы были прокляты. В письме редактору, опубликованном в журнале Nature Methods , исследователи писали, что «использование устаревших ресурсов сильно повлияло на практический геномный анализ и недавнюю литературу: 67% из 3900 публикаций, которые мы исследовали в 2015 году, ссылаются на устаревшее программное обеспечение, которое захватило только 26% биологические процессы и пути, идентифицированные с использованием текущих ресурсов ».

Основным виновником этой статистики было популярное программное обеспечение для аннотации генов под названием DAVID, которое в 2015 году не пересматривалось с 2010 года (хотя с тех пор оно обновлялось). Несмотря на то, что ему не удалось обнаружить почти три четверти информации, раскрытой с использованием более поздних альтернатив, DAVID превратил ее в более чем 2500 публикаций, многие из которых, должно быть, использовали инструмент, когда он уже существенно устарел и был заменен другими доступными инструменты, Reimand отмечает. «Это не тот эффект, когда люди просто публикуют результаты».

Даже когда один инструмент регулярно обновляется, исследовательское сообщество может значительно отстать, о чем свидетельствует исследование фармаколога и вычислительного биолога Университета Пенсильвании Кейси Грина в 2017 году, его бывшего аспиранта Бретта Болье-Джонса , в области биотехнологии природы .

Дуэт сосредоточился только на одном инструменте: BrainArray Custom CDF , онлайн-ресурс, разработанный в 2005 году, состоящий из различных файлов, которые помогают экспериментам по экспрессии генов путем сопоставления ДНК-зондов с генами. Перебирая 100 последних публикаций, в которых использовался этот инструмент, теперь в его 22-й версии Грин и Болье-Джонс обнаружили, что более половины не указали, какую версию авторы использовали в целом, что делает выводы этих исследований по существу невоспроизводимыми. В остальных статьях, которые были опубликованы в период с 2014 по 2016 год, цитировалось девять различных версий, в диапазоне от 6 до 19.

Когда исследователи применили несколько последних версий CDF BrainArray Custom к набору данных по экспрессии генов, полученных из человеческих клеточных линий, сконструированных так, что в них отсутствуют определенные Т-клеточные белки, они обнаружили многочисленные расхождения в результатах. Например, в то время как версии 18 и 19 идентифицировали в общей сложности около 220 генов, демонстрирующих значительно измененную экспрессию по сравнению с контролями, 10 генов, которые были идентифицированы с использованием версии 18, были опущены в версии 19, и еще 15 генов, которые были идентифицированы с использованием версии 19, были пропущено по версии 18.

«Это имеет значение на полях», – говорит Грин. «Если один из них ваш любимый ген, это может изменить вашу интерпретацию».

Повышение осведомленности о необходимости оставаться в курсе

Такие исследования, как исследования Грина и Рейманда, являются напоминанием о том, что «существует разница между программным обеспечением и экспериментальным протоколом», говорит Пахтер. «Изменения в информатике происходят очень быстро – темпы изменений и характер изменений просто очень отличаются от экспериментального протокола».

Но донести это сообщение до исследователей не так просто, добавляет он. Хотя некоторые респонденты декабрьского твита Пачтера предложили просто удалить старые инструменты или старые версии программного обеспечения в Интернете, чтобы, по крайней мере, предотвратить новые загрузки устаревших инструментов, есть веские причины для того, чтобы сохранить запись вычислительных динозавров в Интернете. «Существует аргумент – и это важный аргумент – что люди могут захотеть воспроизвести старые результаты или иметь возможность запускать программное обеспечение, как это было в то время», – говорит Пачтер.

Издатели научной литературы также могут помочь повысить осведомленность.

Рейманд согласен с тем, что воспроизводимость является ключевой причиной для сохранения хороших записей старых инструментов. «Должна быть доступная версия того же программного обеспечения, которая позволит вам вернуться, скажем, через шесть месяцев и сказать:« Вот как я тогда получил результаты », – отмечает он. Сейчас многие сайты делают это: например, на сайте BrainArray в настоящее время размещены все 22 его версии для загрузки, хотя на момент исследования Грина в 2017 году по крайней мере пять версий были недоступны.

Вместо этого некоторые разработчики выбирают предупреждения на веб-сайтах, где программное обеспечение доступно для загрузки. На домашней странице TopHat, примечание под панелью описания гласит: «Обратите внимание, что TopHat вступил в стадию низкого обслуживания и низкой поддержки, поскольку теперь он в значительной степени заменен HISAT2, который обеспечивает те же основные функции. , , более точным и гораздо более эффективным способом ». (Акцент TopHat’s.)

Пачтер предполагает, что старые версии программного обеспечения также могут быть изменены разработчиками, чтобы они включали свои собственные предупреждения, «чтобы при загрузке инструмента и его запуске на самом деле программа выводила сообщение и говорила:« Вы можете использовать это, но есть более новые и лучшие инструменты ».

Напротив, сами издатели научной литературы могут также помочь повысить осведомленность о роли вычислительных инструментов, требуя большей прозрачности информации о программном обеспечении. Ряд крупных издательских компаний, таких как Elsevier, Spring Nature и AAAS, приняли руководящие принципы публикации, направленные на улучшение воспроизводимости, многие из которых учитывают проблему программного обеспечения.

«Включение всей информации, зависимостей, переменных конфигурации, тестовых данных и других элементов, необходимых для повторения анализа, на самом деле является лишь частью более широкой картины воспроизводимости, которую Elsevier решительно поддерживает», – пишет Уильям Ганн , директор по научной коммуникации в Elsevier, в электронное письмо ученому . Например, для одного набора руководящих принципов, известных как методы STAR, которые были введены Cell Press в 2016 году и в настоящее время расширяются в журналах Elsevier, «требуется описание программного обеспечения, которое включает информацию о версии, и ссылку для его получения, если оно не указано как дополнительный файл », – добавляет Ганн.

Отказ от загрузки программного обеспечения

Хотя подобные инициативы могут повысить осведомленность о рисках использования устаревшего программного обеспечения, в сообществе биологических наук также предпринимаются шаги для того, чтобы значительно упростить задачу обновления вычислительных инструментов, а также переключения между инструментами и различными версиями.

Грин отмечает, что одним из возможных решений для исследователей является принятие практики загрузки всей своей вычислительной среды вместе со своими публикациями, чтобы анализ можно было выполнять с любыми версиями инструмента по мере их появления. «При изменении версии вы можете провести анализ с обеими версиями с помощью этого программного обеспечения и быстро посмотреть на разницу в результатах», – говорит Грин, чей документ « Биотехнология природы» подробно описал, как такая система может работать.

Этот вид динамического подхода к программному обеспечению широко используется в информатике, но остается относительно новым понятием среди биологов. Тем не менее, как сообщала Nature ранее в этом году, некоторые исследователи считают, что переход к эпохе, когда «ученым больше не придется беспокоиться о загрузке и настройке программного обеспечения», пройдет всего несколько лет назад.

До этого у Pachter есть советы для других разработчиков инструментов. «Делайте, как я, в Твиттере и в других местах, в публичных выступлениях и заявлениях», – говорит он. «Потратьте время, чтобы сказать людям:« У меня есть этот инструмент, он очень популярен. Пожалуйста, не используйте его больше. »

Обсуждение

Ваш e-mail не будет опубликован. Обязательные поля помечены *