«Анализ больших данных»: российский учёный — об исследованиях на стыке биологии, медицины и информатики

Биоинформатика — одно из самых активно развивающихся междисциплинарных научных направлений в мире. Об этом в интервью RT сообщил директор научно-образовательного центра геномного разнообразия Университета ИТМО Алексей Сергушичев. Он объяснил особенности биоинформатики, находящейся на стыке медицины, биологии и информатики, и рассказал о подготовке специалистов, а также о задачах по расшифровке геномов всех видов позвоночных, сохранению редких видов животных и поиску генов, «виновных» в болезнях.

— Алексей Александрович, что такое биоинформатика? Какие вызовы стоят перед исследователями в этой области научной деятельности?

— Биоинформатика — одно из самых активно развивающихся междисциплинарных научных направлений в мире. Оно зародилось в середине ХХ века, но настоящий бум произошёл с развитием технологий в начале этого столетия.

Биоинформатика базируется на анализе больших данных, на решении фундаментальных задач и разработке вычислительных методов для биологии и медицины.

— Вы проводите олимпиаду по биоинформатике. Что она собой представляет?

— Для выявления талантливых специалистов по биоинформатике проводятся различные соревнования, задания которых основаны на реальных экспериментах. В их числе онлайн-олимпиада Bioinformatics Contest. В июне за звание лучшего биоинформатика поборются студенты и специалисты в области биоинформатики, компьютерных наук и биологии со всего мира. 

— Как становятся биоинформатиками? Какие перспективы есть у специалистов в этой области?

— Обычно в биоинформатику приходят или из биологии, или из IT. Однако для программистов биоинформатика — это скорее возможность заняться более интересными задачами, в то время как для биологов она становится необходимостью и позволяет им стать более востребованными и оплачиваемыми кандидатами на рынке. 

— В чём особенность биоинформатики? Приведите, пожалуйста, примеры прикладного применения.

— Главная тенденция развития биоинформатики — это работа с большими объёмами данных, в том числе публичными, выложенными в интернет. Проводится поиск инструментов, которые позволяют быстрее и легче ориентироваться в гигантском массиве информации. При разработке различных инструментов биоинформатики всё чаще внедряют глубокое обучение, то есть использование методов искусственного интеллекта.

Так, например, в конце 2020 года компанией Google DeepMind была разработана программа на основе глубоких нейронных сетей, которая выполняет предсказания трёхмерной структуры белка. Эту задачу пытаются решить уже полвека, и значительный прорыв оказался довольно неожиданным. 

— Какую пользу может принести биоинформатика в медицинских исследованиях?

— Заболевания или предрасположенность к облысению, полноте или плохому зрению могут быть связаны с определёнными генами. Задача вычислительной генетики — определить, какой именно участок генома из большого количества «подозреваемых» виновен в изменениях. Для этого исследователи обычно сравнивают генетическую информацию двух групп людей: пациентов с заболеванием, например, шизофренией или болезнью Крона, а также здоровых людей. Затем по найденным отличиям в активности и выраженности генов ранжируют их по уровню возможного влияния на заболевание, а биологи подтверждают или опровергают эти связи. 

На первый взгляд может показаться, что не проблема — определить геномы для здоровых людей и потом использовать эти данные для разных заболеваний. Однако из-за того, что во всём мире сейчас довольно серьёзно подходят к персонализированной информации, в том числе и геномным данным, выложить в открытый доступ все геномы становится невозможно, геномы здоровых людей становятся малодоступны.

— Такая работа проводится у нас в России?

— Да, частично решить описанную проблему помогает программный инструмент, разрабатываемый нашей лабораторией совместно с лабораторией пионера вычислительной геномики Марка Дейли.

Чтобы понять, какие гены «виновны» в тех или иных заболеваниях, нужно сравнивать геномы двух групп людей: здоровых и больных. Но важно, чтобы все эти люди были одной популяции. Условно говоря, африканцев нужно сравнивать с африканцами, европейцев с европейцами. По здоровым людям очень сложно найти эти данные, потому что обычно их нет в открытом доступе, а собирать геном с нуля дорого. А тут по данным больных людей определённой популяции программа сама подбирает наиболее подходящий вариант и выдаёт неперсонализированные данные, достаточные для проведения анализа.

Также с ФГБУ «НМИЦ им. В.А. Алмазова» Минздрава России мы изучаем людей с врождёнными патологиями, которые стандартные генетические тесты обнаружить не могут. Например, для кардиомиопатий (нарушений работы сердца) уже определён набор генов и их мутаций с хорошо установленной взаимосвязью с заболеванием. Их наличие выявляют с помощью специальных генетических панелей (фиксированного набора мутаций, которые проверяются у пациента). В большинстве случаев удаётся найти причинную мутацию среди известных кандидатов, но иногда попадаются пациенты с «нестандартным набором», и здесь уже панели не справляются. Тогда приходится находить все мутации в генах и пытаться определить, какие именно из них связаны с конкретным заболеванием.

— Сколько таких мутаций может быть в генах человека? И как узнать, какая из них является причиной болезни? 

— Мутаций у человека может быть очень много: всего их несколько миллионов, а тех, которые участвуют в кодировании белков и которые обычно проще интерпретировать, — около 30 тыс. Мы агрегируем разные данные и ранжируем мутации, которые с большей вероятностью являются причинными. Дальше учёные смотрят на результаты и пытаются понять, что больше похоже на правду. Например, один из способов экспериментальной проверки для генетических заболеваний связанных с сердцем, — внести в специальный вид прозрачных рыбок данио-рерио мутацию и наблюдать, приводит ли она к каким-либо изменениям. Если, например, у рыбки будут неправильно расти мышечные волокна, то это может подтверждать связь мутаций с нарушениями развития сердца и в организме человека.

— Как биоинформатика помогает генетикам?

— Биоинформатика помогает генетикам определить нужный ген и его связь с нарушением, а дальше возникает вопрос: «С каким механизмом это связано?» Это задача более классической биологии, которая изучает различные молекулярные процессы. Например, есть определённое заболевание, конкретные гены, и нужно понять, какие белки они производят, как эти белки реагируют на разные внешние стимулы и взаимодействуют между собой, что именно приводит к активации иммунной системы и как она реагирует на вирусы.

Глобально мы хотим узнать, какие именно процессы приводят к нетривиальным состояниям, нарушениям и болезням, чтобы иметь возможность на них влиять и тем самым предотвращать или лечить заболевания.

— И для этого разрабатываются современные алгоритмы?

— Верно. Если в конце прошлого века приходилось рассматривать каждый ген и каждую происходящую в нём реакцию по отдельности, то сегодня благодаря развитию различных экспериментальных методов учёные научились видеть взаимосвязь всех генов одновременно, получая всесторонний взгляд на клетку. А биоинформатика, в свою очередь, даёт возможность все эти данные анализировать, представлять их в таком виде, чтобы можно было сделать вывод, какие гены наиболее важны и с чем они взаимодействуют. Например, один из наших проектов в этой области — алгоритм, который позволяет выделить важные взаимодействия белков в связи с интересующей болезнью. 

Сейчас мы разрабатываем программное обеспечение для визуализации и интерактивного анализа информации из открытых источников, благодаря которому биологам легче формировать гипотезы, анализировать данные и подтверждать результаты. Также мы усовершенствовали стандартный метод для анализа активности генов, который был очень популярен и которым мы пользовались в своих исследованиях. Мы смогли значительно его ускорить и сделать удобнее в использовании. Сегодня этот метод находится в мировом топе инструментов для биоинформатиков.

— У биоинформатики есть и задачи, не связанные напрямую с человеком. Как она помогает сохранению вымирающих видов животных?

— Первый прорыв в развитии генетики — получение генома человека в начале 2000-х годов.

Тогда в журналах Nature и Science были опубликованы первые результаты секвенирования генома человека. 

Это событие открыло новый, «постгеномный» век в биологии и медицине. С другой стороны, было ясно, что требуется большая дальнейшая работа, чтобы в подробностях понять, как устроен наш геном. Для этого важно изучать не только человека, но и геномы животных.

В связи с этим было основано сообщество Genome 10K, целью которого было определить геномы 10 тыс. видов животных. Затем это сообщество организовало проект для определения последовательностей геномов всех (примерно 70 тыс.) существующих видов позвоночных. Как раз недавно в рамках этого проекта вышла статья с первыми результатами и описана методология эффективного получения геномов. Если проект по получению генома человека потребовал $3 млрд, то теперь мы можем получать высококачественные геномы всего лишь за несколько тысяч долларов.

Изучение генома животных позволяет понимать динамику развития видов. Когда остаётся маленькая популяция, в ней в основном преобладают особи с редкими мутациями гена. При их скрещивании будут рождаться животные с заболеваниями, из-за чего риск исчезновения вида увеличивается в разы.

Одна из недавних историй, иллюстрирующая возможности, которые открываются при исследовании генома редких животных, — это новость про клонирование черноногого хорька, которого считали вымершим видом. Клонирование было сделано с использованием замороженного генетического материала, взятого у особи, умершей более 30 лет назад. В качестве суррогатной матери выступила самка обычного хорька. 

— В России подобные исследования проводились?

— В России в настоящее время таких проектов практически нет, хотя в нашей стране много заповедников с уникальной фауной. Мы будем пытаться развивать это направление. В нашем центре мы как раз проявляем больше внимания к исчезающим видам животных. Нас интересуют редкие виды антилоп, гепардов, газелей, ориксов.

Данные для сборки, то есть объединения большого количества коротких фрагментов ДНК в одну или несколько последовательностей, мы берём у наших партнёров. Эту работу ведёт научный руководитель центра, американский генетик Стивен О’Брайен, который уже много лет занимается геномикой животных. Научные группы учеников и коллег Стивена со всего мира занимаются интересными животными, в том числе изучают их геномы. Чтобы секвенировать, к примеру, геном акулы, извлекается её ДНК из крови. Потом она дробится на части, а дальше определяется последовательность маленьких фрагментов и производится их склейка. Эти проекты — важный шаг в сохранении вымирающих видов животных. 

— Что ждёт биоинформатику через несколько лет?

— Сказать что-то определённое довольно сложно. Я надеюсь, что в ближайшем будущем роль биоинформатиков перестанет сводиться только к аналитике, но также перейдёт и к конкретным предсказаниям. Я надеюсь, что лет через десять мы сможем разрабатывать инструменты, которые будут сами формировать экспериментально проверяемые гипотезы и, возможно, даже сами их проверять с помощью автоматизированных лабораторных инструментов.