Чем занимаются лауреаты стипендии имени Ильи Сегаловича
Стипендия имени Ильи Сегаловича ежегодно присуждается студентам и аспирантам факультета компьютерных наук НИУ ВШЭ за успехи в учёбе и научной деятельности. Академия Яндекса поговорила со стипендиатами 2020 года о том, чем они занимаются помимо учёбы, как планируют строить свою карьеру в будущем, и почему им нравится заниматься наукой.
Денис Шилов, 3-й курс программы «Прикладной анализ данных»
Я работаю Senior Android разработчиком в DaOffice — это крупнейший российский разработчик корпоративных соцсетей. К примеру, если вы придёте работать в Burger King, то вас попросят поставить на телефон специальное приложение, где вы будете переписываться со своими коллегами. В DaOffice я работаю на part-time и параллельно занимаюсь собственным стартапом Facel.
В Facel мы разрабатываем устройство и софт для того, чтобы отслеживать эффективность пользователя в течение дня и помогать ему управлять техникой при помощи мимики лица. Это удобно, например, когда вы едите пиццу, у вас грязные руки, но вам надо переключить музыку. Вы моргнёте три раза – и уже начинает играть новый трек. Управление жестами может служить альтернативой и для голосовых команд. Например, когда рядом с тобой спит маленький ребенок, ты уже не можешь просто попросить Алису выключить свет, не разбудив его.
Другая задача, которую мы хотим решать, – это помощь в предотвращении выгорания. От 20% до 50% сотрудников сталкиваются с выгоранием на удалёнке, и ВОЗ уже признала это одной из глобальных общественных проблем. Наше устройство позволяет отслеживать разные параметры здоровья: уровень стресса, концентрации, усталости и так далее.
Как мы это делаем? На голову надевается устройство. Оно передает сигнал с двух точек за ушами по Bluetooth на смартфон. Дальше нейросеть с точностью до 98% распознает 12 лицевых движений: например, моргание, нахмуривание бровей и движение глаз. На основании этих данных сервис как-то помогает пользователю: если устали глаза, то он посоветует вам сделать перерыв, а если вы сейчас на пике концентрации — отключит уведомления.
Сейчас мы нацелены на айтишников, потому что они, с одной стороны, любят поиграться с разными новыми устройствами и сервисами, а с другой — часто выгорают. Другая целевая аудитория – это бизнес, который хочет, чтобы кадры работали эффективно и вовремя восстанавливали силы. Кроме того, мы ориентируемся и на школы, потому что около 10-15% подростков испытывают синдром дефицита внимания и гиперактивности, и для них стоит составлять индивидуальные учебные планы.
С помощью устройства мы можем давать менеджерам обратную связь о том, как устают их работники, а учителям — о том, как ученики ведут себя в процессе урока. Но наша фундаментальная установка — не превращаться в инструмент контроля, которым можно было бы злоупотреблять.
Мы выставлялись на Global Grad Show — это одна из самых крупных программ Дубайской недели дизайна, которая нацелена на недавних выпускников университетов. На неё регулярно приезжают ребята из ведущих мировых университетов: например, из Массачусетского технологического института и Стэнфорда. А ребята из России были на ней всего во второй раз в истории: в первый раз, в 2016 году, туда приезжали студенты БВШД, а мы стали первыми, кто участвовал от Вышки.
Сейчас мы в Facel ведём активные переговоры с возможными партнёрами. Также мы выиграли грант Фонда Бортника на 2 миллиона рублей, пока он в процессе оформления. Ещё я выступал со своим стартапом на AI Journey — международной конференции по искусственному интеллекту и анализу данных.
Женя Коган, 2-й курс программы «Прикладная математика и информатика»
Сейчас я учусь на втором курсе ФКН и планирую заниматься теоретической математикой, которая, конечно, напрямую не связана с программированием. На то, чтобы сосредоточиться именно на математике, меня вдохновил Дмитрий Трушин, который вёл у нас линейную алгебру на первом курсе. Мне близка эта область, потому что мне нравится рассуждать и в результате постепенно приходить к умозрительным заключениям.
Что касается науки, то развить математическое мышление и научиться формально записывать свои рассуждения мне помог тополог Аркадий Борисович Скопенков. Он помогал мне с написанием научной статьи. А перед началом второго курса другой преподаватель, Александр Борисович Шаповал, предложил мне стать его ассистентом. Я решил попробовать, и оказалось, что мне очень нравится учить студентов, вместе находить решения для нетривиальных задач, делиться опытом. Неожиданно для себя я стал одним из лучших ассистентов в первом семестре.
В начале года я взял три курса в НМУ — Московском центре непрерывного математического образования. Мне очень понравилось, но, к сожалению, я не рассчитал нагрузку и выгорел, и мне пришлось их бросить. Но я не жалею, потому что всё ещё впереди. Я собираюсь взять дополнительные курсы, которые преподаются на математическом факультете НИУ ВШЭ, и, вероятно, закончить учёбу в НМУ. Более глобальная цель – добиться понимания базового набора тем, которые Дмитрий Трушин назвал бы «джентельменским набором профессионального математика». Хотелось бы найти ментора, который мог бы меня направлять. Думаю, это мог бы быть Аркадий Борисович Скопенков, но он в основном занимается топологией — поэтому пока что я один.
Никита Калинин, 3-й курс программы «Прикладная математика и информатика»
Стипендию имени Ильи Сегаловича я получаю уже во второй раз. Сейчас я параллельно учусь на третьем курсе ПМИ и на втором курсе ШАДа: в Школе мне остался ещё один семестр. Моя специализация на ФКН — это «Теоретическая информатика», хотя я в основном занимаюсь машинным обучением. Это своеобразный путь, но многие курсы по машинному обучению я уже прошел и решил, что мне будет не так интересно слушать их снова. А теоретическая информатика для меня как приятная отдушина.
Сейчас я нахожусь в Финляндии по программе обмена с Хельсинским университетом. Хотя я учусь в бакалавриате, здесь я прохожу магистерские курсы: в Европе бакалавриат по компьютерным наукам послабее, и студенты выбирают специализацию уже в магистратуре. Кроме того, в бакалавриате занятия чаще всего ведутся на финском, а в магистратуре — на английском. Тяжелее всего мне даются математические финансы, потому что мне не хватает базы в стохастическом анализе и теории случайных процессов.
Я пишу курсовую работу про предсказание молекулярных потенциалов при помощи машинного обучения — с недавнего времени делаю это в качестве стажёра лаборатории. Это востребованная тема: когда учёные разрабатывают новый материал, то они хотят заранее оценить, какими макроскопическими свойствами он будет обладать, например, какие у него будут прочность и теплопроводность. Это можно вычислить, используя квантовую симуляцию, но это дорого, долго, и для этого нужен суперкомпьютер. Поэтому вместо неё нередко используют машинное обучение: вычисления получаются менее точными, но дают примерные представления о свойствах материала.
В ШАДе я не только учусь, но и успел поработать ассистентом: было любопытно, когда 30-летние разработчики «Яндекса» писали и спрашивали, почему я проверил и оценил их задание именно так.
С такими сильными учениками стараешься соответствовать высокому уровню преподавания математики.
В университете я решил наверстать упущенное в олимпиадной математике и поучаствовал уже в 16 олимпиадах. Этим летом получил диплом первой степени на Международной студенческой олимпиаде по математике. Она проходила онлайн, но там был очень серьезный прокторинг: за нами непрерывно следили через две камеры. По-моему, олимпиадная математика помогает быстро актуализировать знания: решая задания, сразу понимаешь, что стоило повторить лучше, а что совсем не пригодилось. Кроме того, я преподаю школьникам во время сезонной математической школы «Медиана».
В том, что я одновременно занимаюсь машинным обучением в физике и хожу на олимпиады по математике, нет ничего удивительного. Ещё в школе я параллельно участвовал в олимпиадах по семи предметам, потому что не знал, кем я хочу стать. Люблю всё и сразу.
Полина Таранцова, 4-й курс программы «Программная инженерия»
С первого курса я занималась глубинным анализом процессов (process mining) и даже опубликовала статью по этой теме в международном издательстве Springer, а потом выступала с ней на конференции AIST. На втором курсе у нас начался майнор по машинному обучению, который вёл Евгений Соколов, – и меня очень увлекла тема ML и анализа данных. Я не хотела расставаться со своим научным руководителем Анной Каленковой, и поэтому мы выполнили ещё одну совместную работу: в ней мы занимались предсказанием последовательности символов в логе событий с помощью методов машинного обучения
На третьем курсе меня заинтересовало NLP, и я писала работу, связанную с анализом звука. Под руководством Евгения Соколова я разрабатывала генератор акцентов индийской речи. К сожалению, довести работу до конца не вышло, потому что нам не хватало мощностей, а когда в Вышке появился суперкомпьютер, то у меня были уже совсем другие задачи. Но, надеюсь, я когда-нибудь к этому вернусь.
Сейчас я вновь занимаюсь глубинным анализом процессов и машинным обучением, использую методы кластеризации для того, чтобы майнить модели процессов. Думаю о поступлении в магистратуру: возможно, на биоинформатику, чтобы в будущем анализировать генные коды и помогать улучшать рождаемость, предсказывать болезни, избегать врачебных ошибок. Генный код – это же та же текстовая последовательность, к которой можно применить алгоритмы NLP.
С июля я работаю в Сбербанке и занимаюсь валидацией моделей машинного обучения, то есть проверяю качество их работы и предлагаю альтернативы. В будущем я хотела бы заниматься исследованиями. Мне кажется, что программисты часто работают по шаблону, а исследователи на основании знаний производят что-то новое и толкают науку вперёд, и такая работа кажется мне более творческой.
Самое главное, что дала мне Вышка — это окружение.
Если бы я решила всё изучать самостоятельно, без поддержки, то вряд ли бы добилась таких результатов. Я бы не встретила своего научного руководителя, с которой мы продолжаем работать даже на разных континентах: я в Москве, а она в Университете Мельбурна. Не познакомилась бы с мотивированными одногруппниками, с которыми интересно вместе развиваться и обмениваться идеями.
Мне нравится работать над исследовательскими проектами в целом: не только писать код, но и думать над концепцией, над тем, что можно улучшить или сделать по-новому. Ведь когда твоя идея срабатывает, то сразу ощущаешь прилив эндорфинов, и появляются силы для новых достижений.
Максим Рябинин, 2-й курс магистерской программы «Науки о данных»
Я заканчиваю магистратуру «Науки о данных» по специализации «Анализ интернет-данных» и работаю исследователем в Yandex Research. В бакалавриате я учился на специализации «Машинное обучение и приложения» на ПМИ. Также я веду семинары на курсе по глубинному обучению на ФКН и занимаюсь научным руководством у студентов ПМИ, ПИ и других программ Вышки.
Это уже второй раз, когда я получаю стипендию: в первый я получил её на третьем курсе бакалавриата. Последние несколько лет я преимущественно занимаюсь наукой: так, в прошлом году я опубликовал на NeurIPS работу по децентрализованному обучению нейросетей при помощи краудсорсинга, на EMNLP — статью про графовые представления слов. Недавно отправил ещё несколько статей на конференции ICML (по машинному обучению), ACL (по компьютерной лингвистике) и KDD (по анализу данных).
На основе статьи по децентрализованному обучению мы с коллегами разрабатываем открытый фреймворк, который уже получил поддержку сообщества на GitHub. Пока его не очень активно используют, но мы над этим работаем: к технологии уже проявил интерес один стартап в сфере ML.
Сейчас мои научные интересы лежат в трёх областях. Первая – децентрализованное обучение нейросетей: изучение того, как можно эффективно обучать нейросети на домашних компьютерах, объединённых в большие распределённые структуры, а не на суперкомпьютерах и кластерах. Помимо общей эффективности сейчас мы занимаемся и вопросами безопасности, чтобы один недоброжелатель не мог испортить результаты всего обучения.
Вторая область— это анализ нестандартных Transformer-моделей. Например, существуют многоязычные модели, которые обучаются на большом числе языков и позволяют получать представления текстов на разных языках. Оказываются, что существуют известные людям языковые паттерны, свойства и характеристики, которые модели кодируют одинаковым образом для всех языков.
И третье — это оценка неопределённости в сложных задачах, таких как перевод и распознавание речи. Есть множество ситуаций (например, в медицине), когда нам важно не просто получить предсказание, но и знать, насколько модель в нём уверена. Такие подходы активно развиваются для простых задач наподобие классификации изображений, но методов, подходящих для генерации текста и других структурированных объектов, буквально единицы.
Я собираюсь пойти в аспирантуру ФКН по компьютерным наукам, чтобы и в дальнейшем заниматься наукой в Вышке и Яндексе. Также у меня есть план разработать большой курс по построению эффективных систем глубинного обучения с акцентом на практические детали, которые обычно остаются за рамками программы. Насколько мне известно, в этом году первый подобный курс начали читать в Стэнфорде, а мы планируем сделать свой в следующем году на базе ФКН и ШАДа.
Айбек Аланов, аспирантура школы по компьютерным наукам НИУ ВШЭ
В 2017 году я закончил бакалавриат ПМИ и Школу анализа данных, а потом пошёл в магистратуру на программу «Статистическая теория обучения», которая проводится совместно со Сколтехом. С 2019 года я учусь в аспирантуре под руководством Дмитрия Ветрова.
Учась на бакалавриате, я шесть месяцев стажировался в Яндексе и занимался активным обучением для поиска. По статистике больше 50% новых запросов уникальны и никогда не встречались раньше. Поэтому для того, чтобы результаты поиска всегда были релевантными, модель нужно постоянно переобучать.
После бакалавриата я стажировался в международной инвестиционной компании WorldQuant. Я был квантом и писал алгоритмы на C++, которые должны были предсказывать цены акций. Это очень интересная и высокооплачиваемая область, но она оказалась мне не по душе: мне больше нравится заниматься исследованиями в машинном обучении. Так что я решил не продолжать работать в WorldQuant после стажировки, хотя мне и предлагали.
После этого еще в магистратуре я начал работать Samsung AI Center в лаборатории под руководством Дмитрия Ветрова. В основном я занимался генеративными моделями: GAN и вариационными автокодировщиками. В частности — генерацией текстур. Вместе с коллегами нам удалось разработать модель, которая позволяет выучивать внутренние представления для текстур из больших фотографий в unsupervised режиме. С помощью полученного представления мы можем генерировать эту же текстуру в намного большем разрешении, либо генерировать видео из текстур, в котором одна плавно переходит в другую. По результату этой работы мы подготовили статью на международную конференцию.
Мой текущий круг интересов — это компьютерное зрение, задачи ранжирования, генеративные модели, байесовские методы. Причём мне интересны как академические, так и индустриальные исследования. Поэтому сейчас я стараюсь заниматься обоими направлениями.