Почему анализ данных — новый английский?

Тренд на изучение алгоритмов и языков программирования сформировался не случайно: с этими знаниями можно эффективнее решать задачи многих специалистов. Почему изучение анализа данных так важно даже для людей нетехнических профессий — обсудили с Евгением Соколовым, научным руководителем Центра непрерывного образования ФКН НИУ ВШЭ

Обучение анализу данных становится неотъемлемой частью современного образования. Университеты, курсы по переподготовке, онлайн-школы постепенно внедряют в свои образовательные планы уроки по работе с данными. Эксперты Центра непрерывного образования ФКН НИУ ВШЭ в своём подкасте «Уютный ФКНчик» говорят, что для специалистов будущего знание основ программирования и машинного обучения станет необходимой строчкой в резюме — наравне со знанием английского языка.

Какие цифровые навыки важны

Работа с медиаданными. Например, отретушировать фотографию, собрать видеоряд или презентацию, поработать с аудиодорожкой, убрать шум в записи. Эти умения кажутся необязательными, но с минимальным набором подобных задач мы сталкиваемся постоянно. Важно справляться с ними быстро и легко.

Поиск информации в интернете. Самостоятельное освоение поиска на начальном уровне происходит интуитивно, в период обучения в школе или университете. Но глубины интернета бесконечны, и можно потратить очень много времени на поиск нужного факта. Поэтому важно уметь искать эффективно — с минимальными затратами времени и максимальным качеством.

Опыт работы с генеративными сетями. Сейчас это уже стоит считать отдельным навыком, который открывает возможности быстрее искать информацию, собирать идеи, тексты, шаблоны писем, черновики кода и многое другое. Главное — знать, как и о чём спросить.

Поэтому бок о бок с этим навыком идёт умение формулировать свой запрос — промт-инжиниринг. Это необходимо, чтобы писать чёткие промты. Подробнее об этом мы рассказали в отдельной статье.

Структурирование и анализ данных. Можно пытаться использовать Word и Excel, но такое получится не с любыми данными: нужны отфильтрованные по определённому признаку, готовые к обработке. Другой вариант — написать короткий простой алгоритм и не только структурировать информацию, но и проанализировать её, сделать выводы. Это поможет не потеряться в хаосе и работать быстрее.

Я пишу алгоритмы для анализа успеваемости. Если хочу просто отфильтровать сильных и слабых студентов, использую простые таблички. Но когда мне нужно увидеть сложные взаимосвязи, я пишу нетривиальный код. 
Например, нужно найти студентов, которые хорошо учатся по одной специальности и отстают по другой. Это важно, чтобы следить за трендами: если много «успевающих» студентов получают плохие оценки в одной конкретной специальности, значит, стоит в первую очередь поговорить с преподавателем этой дисциплины. Может, неверно составлена программа или неточные требования. Такие ситуации требуют моего вмешательства, но заметить их без анализа данных я бы не смог.
Евгений Соколов, научный руководитель Центра непрерывного образования ФКН НИУ ВШЭ

Как использовать анализ данных

Зачастую, когда слышишь о задаче анализа данных, представляешь себе необходимость построения сложных алгоритмов: например, чтобы проанализировать сотни текстовых расшифровок custdev-интервью с покупателями маркетплейса. Но анализ данных — это также визуализация и верная интерпретация результатов. И если с первой, алгоритмической частью анализа данных сталкиваются не все, то задачи по построению графиков и выявлению закономерностей есть и у продакт-менеджеров, и у социологов, и у журналистов.

Например, нам нужно опубликовать результаты опроса студентов: какие вузы они выбирают для поступления. Для этого нужно выбрать, какой это будет график, как подписать оси и какие выводы читатель должен сделать. А может, нужен не график, а диаграмма? Или даже таблица? И какие закономерности мы видим в этом опросе? Отвечать на эти вопросы и максимально полно доносить смысл помогает анализ данных.

На стыке компьютерных наук и предметных областей есть безграничные варианты использования анализа данных. Например, на проектном семинаре образовательной программы по медиакоммуникациям студенты анализировали СМИ: заголовки, статьи, новости. После этого семинара они построили облако слов, изучили статистику.

Это помогает не только в учёбе, но и в работе. Скажем, в информационном агентстве ТАСС есть отделы, которые занимаются оценкой и анализом данных в СМИ.

Погружение в работу с данными и программирование хотя бы на начальном уровне необходимо, чтобы взаимодействовать с командой. Сейчас практически в любом проекте есть IT-специалисты, которые создают поддерживающую информационную среду. И чтобы работать с ними эффективно и получать результат, нужно чётко ставить задачи и понимать, что возможно, а что нет.

С другой стороны, важно уметь делать какие-то вещи самостоятельно, не беспокоя всех подряд. Например, визуализировать, писать запросы на SQL, фильтровать и сортировать. Это простые задачи — быстрее и эффективнее выполнить их самому, чем идти к специалистам.

Однажды мы объясняли своим студентам-экономистам тему парсинга на примере задачи на поиск квартиры для аренды в Москве. Давайте спарсим «Циан»: какие есть характеристики, цена, район, как максимально быстро и легко найти нужные варианты. И прикладная задача, и полезная, и действительно рабочая.
Евгений Соколов, научный руководитель Центра непрерывного образования ФКН НИУ ВШЭ

С чего начать

Лучше — с языка программирования Python. Другие языки тоже хороши, но с него проще всего начинать, это веяние индустрии. У него намного ниже порог входа: уже на втором-третьем занятии студент может писать алгоритмы, используя циклы и условия, и получать результат. Также у Python гораздо больше библиотек, которые удобно использовать.

Но, например, на факультете психологии в Вышке все специалисты — адепты языка R. Поэтому на курсах для психологов анализ данных преподаётся именно на нём. Для них там настроены все статистические пакеты и библиотеки.

Изучение любого первого языка поможет сформировать алгоритмическое мышление в целом, но дальше стоит подключать изучение другого, например С++, Go, Java, чтобы знать другие инструменты.

Ещё поможет математическая статистика. Это раздел математики, где изучают, как на математическом языке объяснять те или иные свойства набора чисел. Именно статистика помогает проверять гипотезы относительно тех данных, что у нас есть.

Краткий пересказ от Yandex GPT