Новости и мнения

Q & A: рубеж в 10 000 геномов для данных по детскому раку

Вычислительный биолог Цзинхуэй Чжан из Сент-Джуда понял, что ученые могут более эффективно работать с инструментами и геномными данными, передаваемыми в облаке.

ST. ДЕТСКАЯ ДЕТСКАЯ НАУЧНАЯ БОЛЬНИЦА / ПЕТР БАРТА

J inghui Zhang является движущей силой « Облака Святого Иудея» , платформы, на которой размещаются детские геномы рака, а также инструменты анализа данных для исследователей. На этой неделе в Атланте, штат Джорджия, на собрании Американской ассоциации исследований рака 2019 года Чжан и ее коллеги из детской исследовательской больницы Св. Джуда празднуют достижение 10 000 геномов, загруженных на платформу. Они также продвигают новый браузер генома под названием GenomePaint, предназначенный для интеграции геномных, транскриптомных и эпигеномных данных пациентов.

Ученый поговорил с Чжан, чтобы узнать о ее видении облака Святого Иудея и о том, как платформа со временем изменилась и стала базой данных с наибольшим количеством полных геномов, собранных у педиатрических больных раком и выживших.

Ученый : Что послужило вдохновением для Облака Св. Иуды?

Цзинхуэй Чжан : Мне действительно пришлось загружать данные из общедоступного репозитория, и мы признали усилия и проблемы, связанные с загрузкой общедоступных наборов данных. Если мы сможем загружать данные в облаке, а затем ученые смогут использовать свои инструменты в облаке, то нам больше не нужно загружать данные.

Я также разработчик инструментов, поэтому я должен поделиться своими инструментами с мировым исследовательским сообществом. Мы можем загрузить наши инструменты в облаке, и вы просто выполните одну установку, и каждый сможет использовать ее напрямую.

Третий компонент – визуализация данных. Если мы представим данные в форме, которую люди могут визуализировать, то исследователи, не обладающие вычислительными навыками, могут начать анализировать данные.

ТС: Как развивалось облако Святого Иуды за эти годы?

JZ: Мы начали наш прототип в 2016 году. Изначально мы сосредоточились только на том, чтобы поместить туда инструменты. С 2017 года наступает главная эволюция. Именно здесь Microsoft решила сотрудничать с нами, поэтому мы смогли получить облачное хранилище для размещения этих наборов данных.

Первый этап наступил в 2018 году, когда [5] смогли поместить в облако 5000 полных геномов. AACR в этом году станет второй вехой из 10000 полных геномов на месте.

ТС: Кто использует облако Святого Иудея?

JZ: Есть три отдельных исследовательских объекта. Наиболее очевидными являются исследовательские учреждения, занимающиеся исследованиями рака у детей по всему миру. Вторая группа [это те], которые участвуют в геномных исследованиях в целом, потому что наш ресурс является очень геномным набором данных. Третья группа действительно больше интересуется нашими инструментами. Есть группы, которые даже не участвуют в исследованиях рака, но в общих исследованиях заболеваний человека [которые] заинтересованы в использовании наших инструментов для лечения их конкретных заболеваний.

ТС: Какое влияние оказало облако Святого Иудея на исследования рака у детей?

JZ: У нас есть 800 зарегистрированных пользователей из 400 институтов по всему миру, которые получили доступ к данным. Я уже знаю из одной группы в Австралии, они упоминали, что используют наши инструменты визуализации каждый день для своей клинической работы.

Для нашей собственной программы клинической геномики в Сент-Джуде мы разработали этот быстрый инструмент RNA-seq, который мы используем для обнаружения слитых генов. [ Примечание редактора: слитые гены – это гибриды генов, которые могут вызывать рак. ] И этот инструмент используется, чтобы фактически определить, будет ли больной раком помещен в одну ветвь стихов клинического испытания другой, и это требует очень быстрого времени выполнения. Облачные вычисления действительно сокращают объем анализа данных с первоначально до одной недели или нескольких часов. Это позволяет нам уложиться в сроки для принятия решения по клиническому испытанию.

TS: что дальше для платформы?

JZ: Есть несколько вещей. Одним из них является расширение [до] большего количества пациентов, больше выборок, расширение ресурса данных. Второе – включить дополнительные эпигенетические данные, которые мы получили из педиатрических раковых клеточных линий, чтобы облегчить интерпретацию некодирующей дисперсии. Третий аспект этого. , , мы обсуждаем с Национальным институтом рака о создании федеративной системы данных, чтобы наша база данных могла взаимодействовать с ресурсами, созданными NCI [например, их портал данных], чтобы мы не создавали базы данных в изолированном пространстве.

Примечание редактора: это интервью было отредактировано для краткости.

Обсуждение

Ваш e-mail не будет опубликован. Обязательные поля помечены *