Зачем специалисту по data science нужна экономика?

Разработчик deep learning в Яндекс.Такси о своём переходе из экономики в науки о данных.

Для того, чтобы заниматься науками о данных, необязательно получать фундаментальное математическое образование или диплом по Computer Science. У датасаентиста может быть опыт работы, например, в области социологии или экономики — и это даст свои преимущества в работе. Академия Яндекса поговорила с Никитой Селезнёвым о том, как он перешёл из экономики в data science и для чего ему пригодилось знание микроэкономических моделей и корпоративных финансов.

Из экономиста в датасаентисты

Я работаю датасаентистом, успел поработать во всех трёх направлениях, связанных с машинным обучением в Такси. Первое отвечает за клиентский опыт: подсказки точек назначения, пунктов подачи машин и прочего. Я пришёл туда стажёром и занимался тем, что составлял портреты пользователей из логов. Затем я ротировался в группу анализа неструктурированных данных и сосредоточился на компьютерном зрении. Там я занимался проектом по автоматизированной проверке соответствия автомобилей требованиям сервиса: чистые ли они и того ли цвета, которого должны быть.

Сейчас я работаю в группе, которая занимается задачами бизнеса, например, скидками для пользователей Такси. Ещё я пытаюсь реализовать AutoML, чтобы люди могли использовать наши модели и решения, не отвлекая специалистов по data science от сложных задач.

Я долго шёл к тому, чтобы определиться, чем хочу заниматься: сперва я поступил на экономический факультет Вышки. В середине первого курса мы с друзьями загорелись идеей поработать в консалтинге и активно участвовали в кейс-чемпионатах (соревнованиях по решению бизнес-задач). Мы с переменным успехом решали кейсы почти год, но так и не попали в полуфиналы и финалы крупных соревнований.

К концу второго курса я заинтересовался образованием и написал исследовательскую работу про массовые онлайн-курсы (MOOCs). До конца третьего курса мне казалось, что я хочу заниматься образовательной политикой и приносить таким образом пользу. Потом увлёкся урбанистикой.

А с науками о данных у меня всё началось с поверхностного знакомства: я ходил на лекции про искусственный интеллект в Институт «Стрелка».

Потом посмотрел фильм Ex Machina с Алисией Викандер и подумал: «А почему я до сих пор не занимаюсь AI?»

Кроме того, я изучал эконометрику (науку о работе с данными и моделями в экономике) во ВШЭ и в Гронингене в Нидерландах, куда я ездил по обмену. Я на практике увидел, что работать с данными не так сложно, и продолжил самостоятельно осваивать машинное обучение, в частности, взял курс Эндрю Ына на Coursera. И с тех пор желание работать в сфере data science у меня не пропало.

Сначала, когда я только пришёл в Яндекс, мне хотелось использовать эту работу как трамплин в науку, но это быстро прошло. Мне хочется не программировать, а, скорее, решать бизнес-задачи.

Что нужно, чтобы стать хорошим датасаентистом, и при чём здесь экономика

На экономическом факультете математический анализ и линейную алгебру преподавали в достаточном объёме для того, чтобы полученные знания можно было использовать в ML. Мне немного пригодился курс по динамической оптимизации: уравнение Беллмана и оптимальный контроль используются в обучении с подкреплением.

Знания из микроэкономики полезны при общении с ребятами из команды эффективности, которая занимается тем, чтобы в системе было меньше «простоев». Или в работе со скидками на Такси: они помогают определять, какие программы скидок тестировать сначала, и делать предположения о том, к чему приведёт их введение.

При работе в любой корпорации полезно знать корпоративные финансы: понимать, что такое EBITDA (прибыль до вычета процентов, налогов и амортизации) и нераспределённая прибыль, знать, как производится оценка стоимости компании. Эти же знания полезны для того, чтобы обсуждать KPI и долгосрочные цели с различными менеджерами. В том, что я делаю руками, экономика мне не сильно пригождается, но для коммуникации с разными людьми она нужна.

Обычно датасаентисту нужно уметь хорошо гуглить, иметь навык чтения научных статей и хорошо знать английский. Специалисты, которые с трудом читают западные источники, почти всегда будут применять старые решения, потому что переводы на русский появляются с большим опозданием.

Обязательно хорошо разбираться в математической статистике, ведь когда дело доходит до A/B-тестов, нужно понимать, что такое центральная предельная теорема и как работает бутстрэп. Нужно уметь программировать, в том числе писать красивый код и знать некоторые конвенции.

Остальное зависит от конкретного случая. Например, разработчикам команды компьютерного зрения в Яндексе не всегда нужны менеджерские навыки. К ним приходят с конкретными технически сложными задачами: как сделать так, чтобы решение было отказоустойчивым и работало при высоких нагрузках.

Если ты работаешь в Такси, то тебе, наоборот, в 90% случаев нужны нетехнические навыки. Нужно уметь заниматься менеджментом проектов. Бывает так, что заказчики о чём-то просят, а потом перестают интересоваться твоей работой. Поэтому иногда проект нужно делать самому, если хочется, чтобы он был сделан хорошо.

Очень важны продуктовые навыки, потому что датасаентист, который не задумывается о том, как его работа влияет на пользователей, — это плохой датасаентист. И то, как пользователь будет взаимодействовать с результатами работы алгоритмов, напрямую влияет на то, как эти алгоритмы должны быть реализованы.

Data science — это не про знание алгоритмов и математики, а про кругозор в различных сферах

В чём пересекаются экономика и наука о данных

Data Science и экономика пересекаются в самых разных областях, например, в области онлайн-рекламы, где используется как машинное обучение, так и моделирование аукционов. В целом связь этих двух дисциплин можно описать так: они идут рука об руку, когда есть некоторая платформа, на которой взаимодействуют поляризованные участники рынка. Например, это могут быть водители и пассажиры, рекламодатели и люди, которые смотрят объявления.

При работе над такими маркетплейсами экономисты и специалисты по науке о данных действуют сообща: им нужно искать оптимум между интересами поляризованных агентов. Но намного проще, если ты сам разбираешься в обеих областях, потому что коллеги не всегда будут рядом, чтобы что-то подсказать.

Анализ данных и экономика тесно связаны в области научных исследований. В технических статьях экономика используется для того, чтобы делать предположения о поведении агентов. А в экономических исследованиях машинное обучение применяют, чтобы работать с большими объёмами данных и строить сложные модели. Кроме того, в современной теории игр используется обучение с подкреплением. Макроэкономика же связана с data science намного слабее, чем микроэкономика, потому что в ней меньше данных и учёные часто имеют дело всего лишь с сотнями наблюдений.

Если бы я снова поступал в вуз, то я бы всё так же выбрал экономику, а не Computer Science.

Экономика — это как философия с количественными методами

После её изучения ты смотришь на мир иначе: лучше понимаешь мотивы людей и можешь оценить, насколько они рациональны. А это полезно, чем бы ты ни занимался.

Краткий пересказ от YandexGPT