«Погрузилась в биоинформатику и с тех пор ни разу не пожалела»
Поступив в 1995 году на физический факультет, Мария Попцова выбрала кафедру биофизики и до сих пор работает в этом междисциплинарном поле. Пытается понять, как устроен геном, чтобы в будущем в нём не было сбоев, а люди жили без тяжелых болезней. Сейчас она руководит магистратурой «Анализ данных в биологии и медицине» на факультете компьютерных наук ВШЭ. Мария рассказала, что такое биоинформатика, какие глобальные идеи движут ею на этом научном пути и кем становится выпускник магистратуры ВШЭ.
Начало пути
Я училась на физическом факультете МГУ, при распределении выбрала кафедру биофизики. Сразу погрузилась в междисциплинарную среду: изучала биологию методами физики. И тогда уже двинулась в сторону компьютерного моделирования. Диплом защищала по анализу нелинейных дифференциальных уравнений на моделях, которые применимы к биологии.
Когда я училась, расшифровывали первый геном человека. Тогда это был фантастический проект на стыке биологии и работы с данными. Я защитила кандидатскую и стала искать позиции постдоков — увидела позиции биоинформатиков. Я знала биологию и умела программировать, так как научилась этому ещё во время студенчества. Одна позиция в Коннектикутском университете была по астробиологии: нужно было расшифровывать геномы бактерий, чтобы изучать возможности и механизмы возникновения жизни. В США я погрузилась в биоинформатику и с тех пор ни разу не пожалела. Потому что это очень интересно.
Разгадать программу клетки
Меня привлекли вторичные структуры ДНК, или, как я это называю, ДНК-пунктуация. Это образования на ДНК, похожие на бусинки на нити. Геном содержит много регуляторных элементов. ДНК способна образовывать трёхмерные структуры из своей двойной спирали: расплетаться, делать «шпильку», параллелограмм или вообще может каким-нибудь кусочком перекрутиться в другую сторону. Вот такими странными штуками я и решила заниматься.
Я рассматриваю клетку как генетический компьютер. Клетка — единица живого. В клетке есть геном, я его абстрактно воспринимаю как программный код. По аналогии с компьютером любую программу можно представить как последовательность нулей и единиц. Представьте, что с одной стороны видны одни нули и единицы, а с другой — готовое программное обеспечение с алгоритмическим поведением, но не известен промежуточный алгоритм, переводящий цифры в работающую программу. ДНК, в моём представлении, то же самое. Мы видим 4 буквы, как фундаментальный уровень, и мы видим, как работают клетки: одна становится клеткой печени, другая становится клеткой мозга. И хочется угадать этот алгоритм, или логику программы.
Зная, как написана программа клетки, можно понять, как она ломается, понять больше о заболеваниях. Рак — это выход генетической программы из строя. Понимание того, как исправлять генетические дефекты, будет делать жизнь людей качественно лучше.
Чтобы понять программу, нужно найти логику между тремя слоями кодировки генома. Эти слои такие:
— линейная разметка самой ДНК;
— эпигенетика — разметка над программой; по сути, это маркировка, которая обозначает, за какие клетки какой участок ДНК отвечает;
— вторичные структуры ДНК, которые регулируют процессы в геноме.
Интересно все эти слои связать, построить модель, которая объясняет, как это работает. Наука часто начинается с чего-то неизведанного, ведь когда неизвестно — это интересно. И вот биоинформатика — как раз такая область. Мы уже научились подкручивать программу ДНК, но пока не понимаем точных механизмов.
Над чем работают биоинформатики ВШЭ
Через несколько лет после возвращения с постдок-программы из США я стала работать в Высшей школе экономики, меня позвали работать на факультет компьютерных наук, развивать биоинформатику. Сначала я создала небольшую научно-учебную лабораторию, которая выросла в крупную международную лабораторию с несколькими направлениями работы. Я помогала развивать магистерскую программу «Анализ данных в биологии и медицине», а в марте 2022 года стала её руководителем.
Биоинформатика — это инструмент, который используется преимущественно в молекулярной биологии. В этой науке не обойтись без сложных методов анализа.
У нашей лаборатории есть научный консультант Алан Герберт, который много работал над изучением роли левозакрученной ДНК в иммунном ответе. Сейчас у него своя компания по терапии рака, где такая ДНК играет не последнюю роль.
В нашей лаборатории мы много работаем над темой рака. Так, вместе с исследователями из других лабораторий мы сделали проект, связанный с перспективами иммунотерапии рака, результаты которого опубликованы в журнале Nature. Мы показали, что запуск одного из алгоритмов клеточной гибели (всего их больше десяти) происходит посредством образования одной из вторичных структур ДНК — левозакрученной ДНК. Мы проанализировали все позиции в геноме, где образуется такая ДНК, и показали, куда можно «нацеливать» препараты, чтобы влиять на судьбу клетки. Таким методом можно убить раковую опухоль.
Ещё одно направление работы нашей лаборатории — кардиогенетика. Мы хотим создать каталог мутаций пациентов с сердечно-сосудистыми заболеваниями. Пока идёт пилотный проект, в котором участвуют 50 пациентов, после него мы рассчитываем получить финансирование на эту задачу.
И последнее направление — персонализированная медицина. Как биоинформатики мы много общаемся с врачами: для одного из проектов мы хотим проанализировать базу данных пациентов с инфарктом миокарда методами машинного обучения. Это необходимо для эффективного определения пациентов с высоким риском развития неблагоприятного исхода на этапе поступления в больницу.
Междисциплинарный подход
Для работы с геномом нужно обрабатывать большие массивы данных. Даже один отсеквенированный геном человека в сыром виде весит 100 Гб: там много шума, необходимо 30-кратное покрытие каждой буквы генома [каждая буква генома должна быть прочитана 30 раз — прим. ред.], чтобы ошибки были ничтожными. Помимо генома, генерируются данные эпигенетики. Только машинное обучение способно справиться с таким объёмом информации. Как правило, мы применяем готовые архитектуры нейронных сетей, которые используют в других сферах. Мы работаем над этим совместно с Яндексом, вместе решаем прикладные задачи по разработке новых методов работы с данными в биологии и медицине.
В магистратуру «Анализ данных в биологии и медицине» мы набираем и биологов, и компьютерных разработчиков. Они учатся друг у друга.
Биологи постепенно осваивают навыки работы с алгоритмами и нейросетями, а компьютерные разработчики начинают погружаться в предметную область и понимать, зачем они применяют ту или иную модель машинного обучения или математические алгоритмы.
Выпускники кафедры могут выбрать как академическую, так и индустриальную карьеру. Академическое направление — это чистая наука: изучение механизмов работы клетки путём анализа молекулярно-биологических данных. Практический путь — это работа в компаниях, занимающихся различными прикладными задачами. Например, при онкоцентрах или в пренатальной диагностике, когда путём секвенирования геномов можно просчитать потенциальные риски передачи заболевания от родителей к ребёнку.
Сейчас увеличивается количество дата-саентистов, работающих в области медицины, они занимаются анализом баз данных пациентов. При поступлении пациента прогностические системы машинного обучения помогают определить вероятность развития неблагоприятного исхода, определить эффективность действия препарата, оценить риски возникновения побочных эффектов при терапии и тому подобное. Это всё шаги к персонализированной медицине. За ней — будущее.