Как историки, врачи и другие специалисты используют анализ данных в своей работе

А что, если умение пользоваться современными технологиями — уже конкурентное преимущество для историков, лингвистов и даже врачей? Как прикладные специалисты могут использовать анализ данных в своей работе, обсудили с Иваном Бибиловым, соруководителем программы прикладного анализа данных ПАНДАН в Европейском университете СПб

В каких социальных профессиях программирование давно используют, а где — ещё нет?

Количественные методы проникают в инструментарий наук по-разному. Предлагаю представить это в виде отрезка, где на одном краю — экономисты, как самые математизированные специалисты среди социальных наук, а на противоположном — философы. В работе вторых вообще нет никакой интеграции с технологиями, в то время как у экономистов — сильная математическая подготовка. Они используют математические модели, элементы оптимизации. Интересно, что если мы вспомним работу исследователей в области экономики, то увидим, что 10–20 лет назад они минимально работали с данными и математическими моделями.

Artboard 1 copyist.webp

Журналисты и психологи пока ближе к философам, чем к экономистам. Они уже применяют современные технологии, но не повсеместно: в университетах, где готовят специалистов, нет такой культуры. Но анализ данных определённо поможет в опросах и моделировании поведения, в построении моделей взаимодействия между людьми.

Юристы гораздо ближе к экономистам в вопросе интеграции. Анализ данных помогает им в работе с документами, в поиске информации. В Европейском университете есть отдельный институт проблем правоприменения, где проводят качественные и количественные исследования. Они помогают, когда нужно изучить практические кейсы, практику по применению определённого закона.

Здорово. А расскажи, что такое ПАНДАН

ПАНДАН — образовательная программа, где специалистов социогуманитарных наук обучают использовать современные технологии. Программой управляют Яндекс и Европейский университет, и два соруководителя представляют обе стороны. Это помогает видеть и подбирать классные способы и форматы обучения и подстраивать их под нужды практических задач и бизнеса. При создании программ мы видим глубинные проблемы, которые возникают у исследователей в разных областях, и одновременно даём возможности для практики.

ПАНДАН — довольно инструментальный и прикладной проект. Здесь можно быстро овладеть какими-то новыми навыками и начать их применять. Работает это в режиме годового ДПО либо двухлетней магистратуры.

Мы верим, что знание машинного обучения и основ программирования — необходимые навыки для любой современной профессии. Это не хайп со словами «это интересно, у нас же 21 век». Нет, мы считаем, что раньше был один набор инструментов, а теперь он стал объёмнее и разнообразнее.

Мы предлагаем довольно широкий круг направлений: социология, политология, журналистика, история и так далее. Всех этих специалистов мы обучаем инструментам. Важно, чтобы историк оставался историком, не терял в своих знаниях, но обладал большим набором инструментов, чтобы автоматизировать, анализировать, преобразовывать данные и исследования. И в результате мог эффективнее делать свою работу.

А как знание основ анализа данных поможет, например, историкам в работе?

Специалистам социогуманитарных наук всегда нужно много работать с текстами. Историки, например, работают с базами данных. На этом этапе им очень помогут методы работы с большими данными и текстами: фильтровать, искать общие признаки и закономерности, задавать вопросы, которые не ставились при ручной обработке информации.

Ещё историки часто работают с архивами и старыми журналами. ИИ помогает быстрее сканировать и распознавать текст, не вводить его вручную, сохранять детали и смысл, не тратя много времени.

Тогда какие IT-инструменты им важно изучать?

Например, внутри ПАНДАНа мы обучаем программированию на языках R и Python, а также статистике. Важно, чтобы историки знали разные библиотеки: для работы с конкретными типами текстов на разных языках, для поиска сущностей и так далее. Это не готовые программы, но и не чистое написание кода с нуля. Скорее, знание всего разнообразия инструментов, определённых библиотек и умение применять их в нужной ситуации — прикладное программирование в анализе данных.

У нас нет цели, чтобы наши студенты стали промышленными разработчиками. Нам важно, чтобы они могли использовать программирование в своих прикладных задачах.

Интересно, а как машинное обучение помогает лингвисту?

Например, есть лингвисты, которые работают с текстами 11–18 веков. Технологии помогут распознать шрифты и неизвестные слова, найти закономерности использования слов.

Важно не только анализировать эти тексты, но и каталогизировать, сортировать. Если у вас 2–3 текста, вы можете это сделать вручную, но если у вас их сотни и тысячи — вы потонете в ручной работе. А с помощью программирования вы можете это сделать за 3–4 строчки кода.

А что насчёт врачей?

Мы уже помогаем врачам. Например, есть программа работы с раковыми регистрами — некоторые статистические данные об огромном количестве раковых заболеваний. Там нет персональных данных, только агрегированные. И там очень много задач по автоматизации и обработке, по построению моделей смертности.

То, что эти данные собираются в одном месте, — уже какое-то чудо. Но с ними важно работать, хотя бы минимально обрабатывать и приводить в читаемый вид: вводить терминологию, фильтры, разбивать по столбцам и строкам. Тогда эти данные уже можно анализировать и использовать.

При этом я считаю, что заставлять врачей изучать программирование пока рано. Им скорее нужны решения с готовыми интерфейсами, куда можно загрузить данные и получить визуализированный отчёт.

Зачем специалистам социогуманитарных наук самим изучать программирование, если есть нейросети? Зачем гуманитариям мучиться с этим всем?

Это очень хороший вопрос. Во-первых, мы не ставим запрет на использование нейросетей, той же YandexGPT от Яндекса. Она отлично подсказывает в узких задачах, которые много раз решались: когда нужно посоветовать библиотеку, создать маленький сценарий, скрипт.

Код, который нейросеть выдаёт, стоит рассматривать как то, от чего можно оттолкнуться. Это заменяет поиск в интернете. Но ведь когда мы что-то нашли в интернете, мы не слепо этому верим, а проверяем. А как проверить на адекватность, если у вас нет знаний в этой области?

Значит, всем нужно уметь писать промты и управлять нейросетями? Станут ли они частью повседневной жизни?

Да, я считаю, что нейросети станут частью обычной жизни. Если мы будем рассказывать, как это сделано, то, наверное, сможем протянуть эту ниточку смысла изучения анализа данных. Всем, кто сомневается, нужно ли изучать математику, станет ясно: нейросетью мы пользуемся каждый день, а это чистая математика, так что она помогает нам познавать мир.

Творческие математические задачи нейросети решают всё ещё ужасно. Но надо понимать, что нейросеть работает как усреднённый решатель проблем, которые сто раз уже решены. Зато у тебя всегда есть готовый советчик. Не нужно никого искать, ты всегда можешь посоветоваться, посмотреть. Нейросеть может валидировать то, что ты пишешь и создаёшь, делать ревью, тестировать.

Это актуально не только для разработчиков, но уже и для копирайтеров, журналистов, переводчиков, историков, лингвистов и всех, кто работает с данными. Они могут и должны использовать нейросеть как компаньона или консьержа для открытий, исследований и работы.

Краткий пересказ от Yandex GPT