Зачем специалистам социальных наук изучать анализ данных

Академия Яндекса и Европейский университет в Санкт‑Петербурге выпустили хендбук «Прикладной анализ данных в социальных науках». Мы пообщались с директором Центра МАСТ, соруководителем программы ПАНДАН ЕУСПб Иваном Бибиловым и узнали, как появился хендбук и зачем нетехнарям нужен анализ данных

Расскажи, чем ты занимаешься в Яндексе

По образованию я специалист по информационным системам. Я пришёл в Яндекс в Екатеринбурге в 2007 году и занимался бэкенд-разработкой. Когда открылась Школа анализа данных, я подготовил курс по Python.

Так меня затянуло в образование. Сначала я совмещал должность разработчика и преподавателя, курировал ШАД в Екатеринбурге, а потом полностью погрузился в образовательные проекты.

Сейчас я руковожу программой «Прикладной анализ данных» от Яндекса в Европейском университете в Санкт‑Петербурге (ЕУСПб). Мне нравятся проекты, которые совмещают технические инструменты и социально-гуманитарные науки. На базе ЕУСПб мы открыли лабораторию машинного обучения, анализа данных и статистики. Там мы занимаемся исследованиями в социальных областях и инфраструктурной поддержкой проектов.

Как вы создавали хендбук?

Когда я узнал, что Академия Яндекса разрабатывает хендбуки для программистов, предложил создать онлайн-учебник для специалистов прикладных дисциплин, которые используют в работе технические инструменты. Мы собрали две команды: исследователей из Европейского университета и сотрудников Яндекса. Приступили к работе в ноябре 2022 года.

Особенность учебника в том, что его составляли не преподаватели по программированию. У нас не было цели из всех людей сделать разработчиков. Материал для хендбука готовили семь авторов: специалисты из Европейского университета, Высшей школы экономики и независимые исследователи. Основную часть писали социологи.

Мы показали на примере коллег, что анализ данных и программирование — часть их профессии. Они не используют эти навыки в том же объёме, что и разработчики. При этом умеют проверять гипотезы, обрабатывать и визуализировать данные. В крупных вузах постепенно добавляют технические инструменты в учебную программу для прикладных дисциплин. Но так происходит не везде. Хендбук поможет освоить базовые навыки и научит применять их в практических задачах.

Какие навыки и знания полезны специалистам прикладных наук?

Нужно знать основы программирования и статистики, на ней основаны некоторые методы анализа данных. В хендбуке мы предполагаем, что на входе человек ничего не знает про автоматизированную обработку данных, а к концу учебника умеет применять основные методы количественных исследований и работать с инструментами для визуализации данных.

Если говорить про разные уровни знаний, то по возрастанию сложности они выглядят так:

  1. Основы программирования — язык Python.

  2. Базовая статистика.

  3. Продвинутая статистика.

  4. Машинное обучение.

  5. Нейронные сети.

В учебнике мы затрагиваем первые два пункта и немного касаемся основ машинного обучения. Есть главы, которые связаны с парсингом данных и обработкой текстов на естественных языках.

Est

А если захочется что-то дополнительно изучить?

Тем, кто хочет изучить дополнительные материалы, советую книги:

  • «Голая статистика: самая интересная книга о самой скучной науке», Чарльз Уилан, 2016.

  • «Статистика и котики», Владимир Савельев, 2021.

  • «Как лгать при помощи статистики», Дарелл Хафф, 2016.

  • «Культурная эволюция. Как изменяются человеческие мотивации и как это меняет мир», Рональд Инглхарт, 2020.

  • «Сравнительная политология», Григорий Голосов, 2018.

  • Introduction to Sociology, Frank van Tubergen, 2020.

А вот что кроме книг поможет вкатиться в тему:

Спасибо! А как анализ данных помогает в социально-гуманитарных сферах?

В социальных науках применяются количественные и качественные методы. Например, социальные антропологи решили изучить жизнь дальнобойщиков, чтобы выявить проблемы, с которыми те сталкиваются. Учёные погружаются в их мир, живут с ними пару месяцев, проводят глубинные интервью — это качественные методы. При этом есть количественные методы, основанные на разных типах данных: административных, текстовых, опросных. Их анализ позволяет расширить возможности исследователей и ответить на большее количество вопросов.

Это не значит, что всем нужно отказаться от качественных методов. Чем больше инструментов доступно специалисту, тем легче проверить гипотезу. Данные помогают принимать верное решение: исследователь опирается не только на свою экспертизу, он использует накопленный опыт многих людей. К тому же идею, которая подкреплена научными методами, проще защитить.

Учёным доступны огромные массивы данных, что позволяет анализировать поведение людей во всех сферах. Есть открытые источники, например соцсети. Некоторые компании предоставляют информацию исследователям, чтобы те ответили на вопрос, опубликовали результаты в научном сообществе, но данными ни с кем больше не делились. Также можно запросить нужные материалы для исследований у государства. Появляются даже платформы для переработки данных в удобный для анализа вид: проект «Если быть точным», Центр перспективных управленческих решений.

Получается, что анализ данных помогает:

  • Автоматизировать работу, которую специалист и так делает, но тратит на неё больше времени. Он читает километры текстовых файлов, хотя может обработать эти данные с помощью программирования.

  • Посмотреть в сторону, которой человек раньше не замечал. Если исследователь использует только качественные методы, его выводы основаны на ограниченной выборке людей. Технические инструменты позволяют ему охватить больше источников и точнее проводить эксперименты.

Tehnicheskie

Здорово! А теперь подскажи, какие инструменты технарей можно использовать в прикладных науках

Перед тем как начать работать с данными, нужно их собрать. В хендбуке мы объясняем, что информации вокруг много, но она не всегда готова для анализа. Сначала исследователь находит и приводит её к виду, в котором с ней можно работать. Для этой задачи подходит парсинг — инструмент для извлечения данных из интернета.

Для обработки данных используются разные инструменты, основанные на статистике. В гуманитарных науках часто встречаются тексты, поэтому важно уметь их обрабатывать. В учебнике мы рассматриваем два метода работы с текстовыми данными:

  • Извлечение именованных сущностей. Например, пользователь пишет запрос в поисковике: «Когда появился язык Python?» И сразу видит правильный ответ: «В феврале 1991 года». Ему не приходится искать нужную информацию внутри страниц. Дата — это извлечённая именованная сущность, которая отвечает на вопрос.

  • Анализ тональности. Основная задача алгоритма — понять, отрицательный текст написан или положительный. Например, в отзывах о книгах или фильмах.

Ещё в анализе данных есть алгоритмы компьютерного зрения, многие из них узкоспециализированы или требуют серьёзного погружения в материал. Поэтому в хендбуке мы их не объясняем. Для начала лучше освоить методы, которые используются чаще всего. Например, к ним относятся линейная регрессия и факторный анализ.

Линейная регрессия. Этот инструмент считает, как один показатель связан с другими. Например, как затраты на пиар в сфере онлайн-обучения влияют на количество новых учеников. Метод хорошо подойдёт агрегаторам — у них есть большие объёмы данных для анализа.

Факторный анализ. Позволяет выяснить, как разные факторы влияют на исход события. Представим, что ресторатор открывает новое заведение и хочет понять, от чего зависит выручка. Есть понятные вещи: в выходные приходит больше посетителей, чем в понедельник. Но факторный анализ позволяет найти неочевидные связи: например, как влияет локация ресторана, интерьер, политика лояльности.

Можно расписать любую ситуацию как набор факторов, проверить гипотезу статистическими методами и выяснить, что и с какой вероятностью влияет на результат. Данные для анализа можно посмотреть у конкурентов. Или взять информацию по другим точкам сети, которые уже приносят прибыль.

Факторный анализ подойдёт для интернет-магазинов: они поймут, от чего зависит решение покупателя, что он выбирает и почему. Нужно добавить в инструмент все накопленные на человека данные — возраст, среднюю зарплату, частоту покупок — и посмотреть, какие ключевые факторы влияют на поведение клиента.

Оба приёма можно использовать в медицине. Врач наблюдает пациента, знает его состояние и историю болезней. Медик использует данные других людей и может спрогнозировать, какие заболевания возможны у его пациента и с какой вероятностью. Выводы врача опираются не на личный опыт, а на научные исследования, которые проводились на большом массиве данных.

Поделись примерами, когда анализ данных успешно применили в социальных проектах

В нашей лаборатории был проект «Сверхурочная работа в госзакупках России». Его задача — выяснить, как распределено рабочее время в разных часовых поясах. Для эксперимента исследователи взяли открытые данные о контрактах, которые специалисты загружают на сайт госзакупок. Там есть временная метка — это момент, когда человек изменил документ на сервисе.

Мы проанализировали информацию за 2015 — первую половину 2021 года и сделали неочевидные выводы. Один из них — люди вынуждены перерабатывать, так как сайт не всегда доступен. Обычно технические работы проходят ночью по московскому времени, о них не всегда предупреждают. Поэтому сотрудникам на Дальнем Востоке приходится перерабатывать, чтобы загрузить контракт поздно вечером. Это социальная проблема — теперь можно обсуждать её и искать решения.

Другой пример — проект «Безопасные и качественные дороги». Его запустили в 2017 году в 32 регионах страны, чтобы сократить количество аварий. Для этого сделали новые развязки, обновили асфальт, заменили освещение. Цель исследования — понять, как улучшение дорог влияет на безопасность. Может показаться, что ДТП должно стать меньше. Но чем лучше условия, тем быстрее едут водители. Тогда нужны дополнительные механизмы, которые заставят людей соблюдать скоростной режим. Результаты анализа не подтвердили гипотезу, что работы в рамках проекта «Безопасные и качественные дороги» снижают вероятность ДТП. Ещё исследователи обнаружили, что в регионах нет единого подхода к планированию работ и приоритету безопасности.