Яндекс + Университет «Сириус» = интенсив по машинному обучению

Анализ зашифрованных данных, генерация панорам с высоты птичьего полёта и другие эксперименты, которые можно будет провести во время учёбы.

В ноябре 2019 года Яндекс и Университет «Сириус» проведут практический интенсив для студентов-разработчиков. Во время двухнедельной программы участники воспроизведут результаты последних исследований в сфере машинного обучения: например, по генерации изображений-панорам и распознаванию смыслов в речи человека. Практикум организует Алексей Толстиков — руководитель Школы Анализа Данных в Минске и разработчик образовательных проектов Яндекса. Он рассказал о том, как попасть на программу, какие проекты будут реализовывать студенты этого года, и почему важно уметь повторять чужие эксперименты.

Как пройти отбор

Для участия необходимо не позднее 12 сентября 2019 года пройти регистрацию на конкурсный отбор. Попробовать свои силы могут студенты любых российских университетов: на школу отберут 30 человек с лучшими результатами.

Первый этап (1-15 сентября 2019 года) — онлайн-соревнование на платформе Яндекс.Контест. Задания направлены на проверку знаний алгоритмов, умения писать код на одном из языков программирования (Python и C++) и анализировать научные статьи.

Второй этап (19-25 сентября) — скайп-интервью с сотрудниками Яндекса и оценка мотивационного письма. А результаты станут известны первого октября.

Чем займутся студенты

В программе двухнедельного интенсива — лекции и практические занятия по компьютерному зрению, автоматической обработке текстов, защите информации в машинном обучении и системах хранения данных. На этот раз студенты не будут создавать собственные проекты по разным темам, а займутся анализом и воспроизведением чужих исследований.

По словам Алексея, разработчикам в индустрии часто приходится изучать исследования своих коллег (например, читать доклады и смотреть записи конференций), чтобы понять, насколько полученные результаты применимы в их проектах. Это тот навык, которому не учат в университетах, — но он нужен для практической работы.

Выбор программ

Участники интенсива разделятся на четыре группы, каждая из которых будет заниматься своим направлением исследований. К командам будут прикреплены менторы — исследователи и разработчики в сфере машинного обучения. Менторы будут направлять студентов и помогать воспроизводить условия для экспериментов.

Например, можно будет выбрать тему компьютерного зрения и поработать с экспертами в ней. Один из экспериментов в рамках этой темы — автоматическая генерация изображений-панорам по обычным фотографиям. Также студенты могут попробовать воспроизвести алгоритм для автоматического улучшения качества фотографий, аналогичный тому, который использует Nvidia.

На направлении по автоматической обработке текстов будет проводиться эксперимент по определению намерений человека по описанию его действий (например, что можно сказать про человека по предложению “Коля выпил чашку кофе”?). Кроме того, учащиеся поработают с выбором сценариев в диалоговых ассистентах. Так, если человек ищет рецепт блюда для вечеринки, ассистент может также направить его на сайт для выбора подарков: для этого важно научить алгоритм распознавать контекст.

Студенты смогут разобраться и с системами хранения данных: реализовать оптимизационные подходы для баз данных и провести эксперименты с различными архитектурами дисков (HDD и SSD).

Четвёртое направление — защита информации в машинном обучении.

Пользовательские данные нужно хранить в обезличенном виде — и для их анализа важно уметь находить подобие между объектами, обрабатывая зашифрованные данные.

Не только машинное обучение

Участники интенсива не только проведут эксперименты, но также будут развивать менеджерские и лидерские качества.В конце программы они будут презентовать результаты своей работы — как успехов, так и неудач. Руководитель практикума рассказывает про важность работы над ошибками: например, эксперимент может пройти неудачно из-за ограниченных вычислительных мощностей, других условий или недостатка времени. Так студенты будут учиться понимать, какие ресурсы нужны им для работы над проектом, — и говорить об этом заказчику или коллегам.

Программа пригодится не только тем, кто хочет работать в индустрии, но и людям, которые собрались заниматься исследованиями: они узнают, как описывать свои эксперименты так, чтобы их понимали.

Краткий пересказ от Yandex GPT