Космическая работа: как решать задачи астрономов с помощью машинного обучения
Машинное обучение применяется в множестве естественных наук: в биоинформатике его используют для анализа последовательностей ДНК и РНК, в физике — для симуляции результатов экспериментов. А астрономам ML позволяет заполнять пропуски в данных с телескопов, определять типы небесных тел и решать множество других нетривиальных задач. Выпускник МФТИ Михаил Сысак рассказал Академии об использовании методов машинного обучения в астрономии и о своём дипломном проекте на cимуляции данных обсерватории в Чили.
В школе я больше интересовался физикой, чем математикой, а астрономия была моим хобби. Несколько лет я ходил в кружок, изучал планеты, астероиды и звёзды. Половина ребят из него поступили на астрономическое отделение физфака МГУ, остальные — в МФТИ. Я выбрал для себя Физтех и пошёл на факультет управления и прикладной математики: мне было сложно определиться с точным направлением, а там как раз учили и физике, и программированию.
В 2018 году наш факультет объединили с факультетом инноваций и высоких технологий, и у нас появилась возможность поступать на кафедру анализа данных в ФИВТ. Она считается очень сильной: во-первых, даёт хорошую основу по алгоритмам, программированию, статистике и машинному обучению, а во-вторых, подойдёт тем, кто хочет работать в индустрии, — ведь занятия проводят преподаватели-практики из Яндекса и ШАД.
На кафедре преподают много разных дисциплин: есть что выбрать как людям с интересом к математике и машинному обучению, так и тем, кто хочет заниматься более техническими вещами. Мне больше всего запомнились два курса: по NLP, лекции на котором вела Елена Войта, и по прикладной data science. Курс по DS полностью состоял из двухнедельных проектов, на которых мы решали реальные задачи датасаентистов в Яндексе.
Учиться было сложно. На третьем курсе я думал, что после окончания поступлю в экономическую магистратуру или останусь на своей кафедре. Годом позже понял, что продолжать учёбу после диплома уже не хочется. Тогда я начал работать аналитиком в Альфа-Банке. Изначально пришёл туда стажироваться, а потом остался и стал заниматься анализом финансовых данных.
У студентов МФТИ был бесплатный доступ к платформе Coursera, поэтому моим первым курсом по машинному обучению была специализация Яндекса и МФТИ. Потом я нашёл бесплатные курсы Samsung «Нейронные сети и компьютерное зрение» и прошёл их. Ещё полгода стажировался в лаборатории МФТИ и занимался там компьютерным зрением — однако эта область машинного обучения всё же показалась мне не такой интересной, как чистый ML.
Машинное обучение и астрономия
Машинное обучение в естественных науках — это передовая и важная область. Большие массивы данных довольно тяжело обрабатывать старыми методами. Из-за того, что реальные эксперименты всегда неточные, есть проблемы с пропусками данных, и поэтому многие тесты тяжело поставить на поток и выполнять автоматически.
Классическое применение машинного обучения к астрономии — это классификация астрономических объектов с помощью методов компьютерного зрения. Например, c его помощью можно определить класс звезды по её изображению. Ещё ML используют для дополнения данных, полученных с телескопов.
Представьте себе наземный телескоп, с помощью которого проводят наблюдения за небесными телами. На самом деле телескоп работает не за счёт того, что показывает космические тела в увеличенном размере. Он собирает свет от объектов и направляет его в прибор, который переводит наблюдения в цифровой вид. Если погода хорошая, то мы получаем данные, а если нет, то есть риск, что мы соберём их с пропусками по времени, большими погрешностями измерений и прочими проблемами.
Для «улучшения» астрономических данных хорошо подходит аугментация: она позволяет дополнить имеющиеся данные синтетическими, у которых та же структура, что и у реальных. Таким образом заполняются пропуски в датасете, и его становится проще обрабатывать.
Дипломный проект на данных чилийской обсерватории
В моём дипломе как раз проверяется работа аугментации: для приближения исходных данных и для проверки применимости преобразованных данных в решении прикладных задач. В приближениях можно использовать регрессию на основе гауссовских процессов — однако это не так эффективно и быстро, и поэтому нашей целью было научиться применять вместо неё нейронные сети.
Данные для исследования мы получили от Обсерватории имени Веры Рубин в Чили: её команда состоит из астрономов со всего мира. Они проводили соревнование по машинному обучению с искусственно сгенерированными астрономическими данными — для подготовки к работе с реальными датасетами. Их мы и использовали в нашем проекте.
Моим научным руководителем стал Михаил Гущин, а консультантами — Константин Маланчев и Денис Деркач. Михаил — кандидат физико-математических наук и окончил бакалавриат, магистратуру и аспирантуру МФТИ. Сейчас он работает в Лаборатории методов анализа больших данных ФКН в Вышке и преподаёт курсы по машинному обучению. Костя работает на ГАИШ МГУ и в Иллинойском Университете, Денис — в ВШЭ.
В проекте участвовали трое руководителей и четверо студентов разных курсов. Каждый из нас занимался своими задачами, мы созванивались каждую неделю и обсуждали результаты.
Для работы с данными мы собрали набор из восьми архитектур нейросетей и нескольких методов, основанных на классическом машинном обучении. Я и ещё одна студентка занимались нейросетевыми моделями: мы разделили архитектуры между собой, реализовывали и тестировали их по отдельности. Другой студент занимался методами из классического ML. Наконец, четвёртая студентка занималась тестами уже подготовленных моделей на реальных данных. С ними сложнее работать — поэтому первоначальную подготовку моделей мы проводили именно на искусственных.
Основная практическая задача, которую я решал в рамках диплома, — это оценка предсказания даты пиковой яркости объекта. Её важно знать, потому что есть такие астрономические объекты, по максимальной яркости которых учёные могут точно определить расстояние до далёких галактик и исследовать расширение Вселенной.
В своей работе я использовал два подхода: прямой поиск пика и поиск с помощью CNN. Существующий алгоритм, которым пользуются астрономы и который основан на гауссовских процессах, работал около десятых долей секунды на одном объекте. А одна из наших моделей — в восемь раз быстрее.
Работа над проектом заняла у нас почти год, она шла ровно и без неожиданных трудностей. Мы показали, что нейронные сети способны обрабатывать данные намного быстрее, чем старые решения: благодаря нашей работе преобразование данных занимает меньше времени, а получившиеся результаты — ближе к реальности. В будущем это позволит решать прикладные задачи учёных точнее и без потери скорости.
Машинное обучение полезно и в других естественных науках. К примеру, оно активно применяется в рамках исследований в квантовой физике в CERN. Там его используют для классификации частиц в коллайдерах, для симуляции наблюдений детекторов, для симуляции взаимодействия частиц между собой — такие задачи интересно решать.