13.1. Об основных источниках данных для исследований

Это — последний раздел учебника. В нём мы кратко описали всё, что может заинтересовать вас и побудить к дальнейшему изучению методов работы с данными.

В этой главе мы расскажем, откуда можно брать вторичные данные для исследований, на чём держатся сервисы доставки и о многом другом.

Полезные источники данных

Мы уже не раз говорили, что не обязательно всегда собственноручно собирать информацию для анализа. Для учебных и исследовательских целей есть публичные источники данные, с помощью которых можно получить опыт работы с опросными данными.

Доступ к данным академических исследований можно получить, используя Harvard Dataverse. Это платформа для публикации данных, сопровождающих международные исследования со всего мира. Их публикуют для независимой верификации научных исследований, поэтому вам будут доступны и данные, и код (впрочем, не обязательно на Python).

Ещё один популярный источник — это Kaggle. В отличие от Harvard Dataverse, он скорее ориентирован на индустрию машинного обучения. Там больше прикладных наборов данных, которые могут использоваться для собственных исследований и обучения.

Оба ресурса работают по принципу поисковика: задайте ключевые слова, и в результатах появятся наиболее подходящие наборы данных.

Дополнительно перечислим международные исследовательские проекты, которые содержат социально-демографические данные, результаты сравнительных исследований образовательных достижений учащихся, а также результаты опросов о ценностях, общественного мнения:

Как учесть изменения с течением времени?

Мы уже много сказали про табличные данные и даже поработали с ними. Табличные форматы очень широки по своему применению. В основном, мы проводили анализ над численными значениями — пытались на их основе ответить на вопросы о статистической связи, провести эксперименты и предсказать их значения. Однако, далеко не всё строится на численных данных.

Отсылая к определению из части 2.1, мы знаем, что всё может быть зафиксировано как информация. Немаловажной информацией для предсказания и анализа может оказаться такая переменная как «время». Опираясь на время, мы можем не только выяснить динамику данных, но и понять, как оно влияет на увеличение или снижение числовых значений.

Для времени есть два основных и самых распространённых вида записи в таблицы.

Временные ряды

Они представляют собой лонгитюдные данные. В каждой строке таблицы, помимо значений, присутствует переменная времени. Так, например, можно проанализировать данные о заболеваемости за разные периоды и предсказать, возникнет ли эпидемия или нет. Это было особенно популярно во время эпидемии коронавируса. Например, в этой статье сравнивается между собой предсказательная сила нескольких моделей для эпидемии коронавируса.

Страна

Количество заболевших ОРВИ за месяц (на тысячу населения)

Население (в млн.)

Дата: Месяц.Год

Албания

4,6

1,609

01.1960

Индия

20,1

446

01.1960

Китай

16,3

667,1

01.1960

Албания

1,9

2,812

01.2023

Индия

18,1

1,408

01.2023

Китай

13,7

1,412

01.2023

Имея на руках данные такие данные, можно выявить количество заболевших. Самым простым способом визуализации будет линейный график по годам.

Учитывая тенденции заболеваемости, можно воспользоваться временными рядами и построить предсказание на годы вперед.

Панельные данные

Вторая разновидность — это информация, собранная при проведении панельных исследований. Главное отличие — данные собраны на одних и тех же наблюдениях, но в разный период времени. В случае опросов — это одни и те же респонденты. Обычно эти опросники собирают большие исследовательские центры. Единственным примером таких обследования в России является “Российский мониторинг экономического положения и здоровья населения” (РМЭЗ), разрабатываемый НИУ ВШЭ. Мы уже анализировали их в части 6.3, когда разбирались с темой размерности данных.

Такие исследования не очень популярны в силу своей дороговизны и сложности. Собрать данные от одних и тех же людей — большая задача. Кто-то может уехать из страны, ограничив свою доступность для опросов или выбыть из опроса по естественным причинам: тяжелой болезни или смерти.

Сложность таких обследований не ограничивается сбором. Анализ тоже требует тщательной проработки и освоения новых методов. В отличие от временных рядов, панельные данные предназначаются в основном для построения сложных моделей, где необходимо учесть динамику времени. Например, при помощи РМЭЗ можно отслеживать социально-экономическую ситуацию в России на протяжении 20 лет.

На чем держатся сервисы доставки, такси и исследования города

Помимо времени, в таблицах можно зафиксировать и локации. Географические данные — основа аналитики во всем, что связано с географией. Точки парковок самокатов, расчет времени подачи такси, городские пробки, приложения по доставке еды домой — это всё не было бы возможным без геоданных. В компаниях, которые разрабатывают картографические приложения, всегда есть большие отделы по исследованиям географии города.

У геоданных могут быть полигоны. Это атрибуты точек, которые хранят в себе свойства записанной локации. В них может быть вписан размер области или его форма. Если мы отразим здание как геоточку, то с помощью полигона мы сможем определить его размер или объем.

Таким образом можно анализировать и пространство: в языках программирования есть множество пакетов, которые без труда могут переносить записанные адреса или города на карты. Это открывает новые горизонты и области анализа данных.

Сети

Возможно вы слышали про «теорию шести рукопожатий» — что любых двух людей в мире разделяет максимум 6 знакомых друг с другом людей. И в теории они могут познакомить первого человека со вторым.

Это не байка, а вполне реальная социологическая модель. Секрет в том, что она составлена на табличных данных, где наблюдением является факт знакомства. Через это мы приходим к идее, что данными могут быть и социальные отношения. Основываясь на фактах из жизни человека, мы можем составить так называемый граф — изображение социальной сети между людьми.

Отличный пример такой сети — проект «Шесть рукопожатий Фрэнсиса Бэкона». На ней изображены все социальные связи Фрэнсиса Бэкона — английского философа XVI века.

Но что это нам дает? Все очень просто. Сетевые модели позволяют нам выяснить значимость того или иного агента внутри сети. С помощью анализа социальных сетей можно ответить на вопросы:

  1. Кто является самым популярным агентом?
  2. Насколько плотно переплетены связи внутри сети?
  3. Какие агенты играют роль посредников в отношениях?
  4. Как сеть структурирована?
  5. Направления связей между агентами: кто с кем дружит или не дружит?
  6. Что будет, если тот или иной агент выпадет из сети

Объектами наблюдений могут быть не только люди. Ими могут являться компании на рынке или даже страны. Коммерческие сетевые исследования часто пытаются проанализировать отношения внутри рынка при помощи таких данных. Наука тоже не остается в стороне: историки могут пытаться выстроить связи между историческими личностями, исследователи международных отношений — политическими договорённостями между странами, литературоведы — связи писателей или героев художественных произведений.

Данные сетей связи открывают нам новые горизонты для анализа отношений, и у них широкое применение. Основными источниками для их добычи служат опросы об отношениях, доверии людей, исторические документы, уголовные дела, персональные или служебные переписки и т.д. Обычно, они кодируются самими исследователями вручную. Процесс этот довольно трудоемкий, но более надёжного способа пока что не придумали.

С помощью чего компьютеры поют, рисуют и монтируют?

Иногда табличные формы данных нас ограничивают. К примеру, мы не можем вписать в таблицу изображения волков или аудиозаписи песен группы «Кино». Но кто сказал, что это не может быть данными?

В таких случаях, альтернативным способом записи является векторизация. Этот процесс выявляет значимые точки у анализируемых объектов и создаёт из них вектор объектов и массивов. Проще говоря, он пытается их разметить и выстроить вариации последовательностей.

Самый известный пример векторизации: модель, которая лежит в основе ChatGPT. Вот тут можно почитать об векторизации текстов.

С её помощью компьютеры учатся выполнять однотипную работу. К примеру, обрабатывать и компилировать тексты, изображения, музыку и видеозаписи. Нейросети, удивляющие пользователей своими возможностями, питаются такой информацией и учатся воспроизводить похожий результат. Автоматические редакторы изображений или целые творческие проекты создаются на этих технологиях. На основе векторизированных данных можно создавать множество инструментов классификации и генерации.

Вот вы и узнали о том, с какими данными работают современные исследователи. Переходите к последнему параграфу раздела: в ней мы коротко поговорим о любопытных методах обработки данных, которые мы не разбирали в учебнике.

Отмечайте параграфы как прочитанные чтобы видеть свой прогресс обучения

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.
Вступить
Сообщить об ошибке
Предыдущий параграф12.3. Преобразование текстовых данных и работа с ними в Python
Следующий параграф13.2. О методах, не охваченных в данной книге