В прошлых параграфах мы чаще всего собирали данные сами. Но что делать, если нам нужно получить доступ к уже существующим данным? Тут есть свои подводные камни и нюансы, которые стоит держать в уме. Давайте разбираться.

Административные и исследовательские данные

У собранных данных (их ещё называют вторичными) есть владелец, который распоряжается правами на эти данные. Он может хранить их, использовать и передавать кому-то ещё. Простейший пример владельца данных: вы сами являетесь владельцем информации о своих персональных данных.

🔍 Владелец данных — это организация или индивид, который владеет данными и определяет требования для доступа к этим данным.

Так как владелец определяет, что можно сделать с данными, а что — нельзя, то исследователю необходимо убедить его предоставить данные. Иногда данные публикуются владельцем открыто, но чаще всего есть какая-то причина, которая мешает их открытию. Это может быть необходимость обеспечить защиту персональных данных, отсутствие заинтересованности в проведении исследований, коммерческие интересы.

Можно разделить данные на две большие группы по цели их сбора: административные и исследовательские. Государственные органы, коммерческие компании или некоммерческие организации собирают административные данные для того, чтобы зафиксировать какие-то факты, которые необходимы им в их деятельности. Они стремятся зафиксировать все факты для всех возможных наблюдений.

Например, государственные органы фиксируют факт рождения или смерти, пересечения границы, получения аттестата или диплома об образовании каждого гражданина страны. Коммерческие компании могут собирать пользовательскую статистику о прослушивании музыки или просмотре фильмов для всех своих пользователей.

Недостатком административных данных является то, что обычно они пытаются ответить на много вопросов сразу, причём эти вопросы необходимы для каких-то управленческих решений, а не для исследований как таковых. Эти данные часто содержат важную информацию о пользователях, поэтому не могут быть открыты для всех.

Исследователи, наоборот, собирают данные для того, чтобы ответить на какую-то исследовательскую гипотезу. Они фиксируют некоторые факты для некоторых возможных наблюдений. Такого рода данные обычно собираются в академических или коммерческих организациях для решения исследовательских задач. Часто эти данные можно использовать повторно, поэтому они могут быть ценны для других исследователей.

Чаще всего исследователи проводят опрос: задают несколько вопросов определённой выборке людей. Исследователи могут спрашивать людей о том, родился или умер кто-то в их семье в последнее время, бывали ли они за границей, какой музыкой или фильмами они интересуются.

Недостатком чужих исследовательских данных является то, что обычно они отвечают на конкретные вопросы, которые могут не подходить для вашего исследования. Кроме того, обычно исследователи, которые собирают данные, планируют свою работу на их основе, поэтому могут не захотеть делиться ими.

Итак: исследовательские и административные данные могут отвечать на одни и те же вопросы, но собираются с разными целями. Административные данные могут быть преобразованы в исследовательские. Для этого из них можно выбрать данные, которые отвечают на определённые вопросы, и сформировать из генеральной совокупности наблюдений репрезентативную выборку.

Прежде чем приступать к самостоятельному сбору данных, исследователи обычно проверяют, можно ли ответить на их исследовательский вопрос, используя уже существующие данные. Использование готовых данных сильно упрощает и удешевляет работу, так как не нужно тратить время и финансы на самостоятельный сбор данных.

Режим доступа к данным

Ранее мы сказали, что владелец данных распоряжается правами на данные. Мы говорим, что он устанавливает режим доступа к ним. После того как исследователь определяет, у кого есть данные, ему необходимо понять, как получить эти данные.

🔍 Режим доступа — разрешенный способ доступа к данным.

Режим доступа состоит из отдельных правил, по которым можно взаимодействовать с данными. Эти правила могут включать в себя:

  • запрет на выполнение определённых действий (в том числе в определённое время) — копирование, изменение, передачу данных или публикацию результатов без уведомления владельца данных;
  • ограничение доступа к части данных;
  • искажение данных владельцем (например, укрупнение значений).

Эти правила обычно оговорены в лицензии на право доступа к данным. Если правил немного и их легко выполнить, то данные можно назвать открытыми — кто угодно может получить к ним доступ. Если правил много и их сложно выполнить, то такие данные называют закрытыми — они доступны для ограниченного круга исследователей.

Примеры открытых и закрытых данных.

Открытые

Закрытые

Тексты законов

Индивидуальные данные переписи населения

Статистика по половозрастному составу

Данные по индивидуальным пенсионным накоплениям населения

Заголовки статей, опубликованных исследователями в России

Данные по индивидуальным баллам ЕГЭ

Чем более ценны данные, тем реже к ним бывает открытый доступ.

Доступ к административным данным редко предоставляется на уровне индивидуальных наблюдений, вместо этого исследователям обычно доступны агрегированные данные. Например, для каких-то больших групп населения, проживающих на определённой территории. Административные данные часто публикуются в архивах в полном виде, когда проходит достаточно большой промежуток времени.

Исследовательские данные часто доступны ограниченной группе исследователей в первые несколько месяцев или лет, а потом, после того как первые результаты оказываются получены, раскрываются для всех.

В зависимости от установленного режима доступа исследователи решают, могут ли они получить доступ и использовать данные. Но установленный режим доступа — не догма. К владельцу данных можно обратиться с запросом о предоставлении данных. Обычно для этого требуется найти контакты человека, который может принять решение об изменении режима доступа, и написать аргументированный запрос, содержащий описание исследования, состав и объём необходимых данных.

Если данные являются общедоступными, но опубликованными в неудобной форме, то исследователь может собрать их, написав код, который выделит и сохранит опубликованные данные. Например, в России публикуются решения судов, которые могут быть собраны таким образом. Это не является нарушением прав доступа, хотя такие способы получения данных могут блокироваться владельцем данных (например, с помощью капчи).

Обогащение данных

Некоторые данные изначально собраны так, что с ними можно работать, а некоторые приходится дополнять другими — это как повезёт. Исследователь может самостоятельно дополнить (обогатить) их.

🔍 Обогащение данных — это расширение основного или основных источников данных вспомогательными данными, чтобы расширить доступный исследователю набор переменных.

Обычно это выглядит следующим образом. Исследователь имеет доступ к одному или нескольким основным источникам — например, к данным о материальной обеспеченности средних школ в России по регионам. Дальше эти данные могут быть обогащены. В этом примере исследователь мог бы обратиться к Базе данных показателей муниципальных образований и расширить данные характеристиками регионов.

Важно, что правила доступа могут напрямую запрещать обогащение данных или препятствовать ему. Обычно для этого исключаются переменные, которые могут использоваться как ключи для связи между двумя наборами. В таком случае можно попробовать переформулировать исследовательский вопрос, договориться с владельцем данных или получить похожие данные где-то ещё.

В этом параграфе мы узнали о нюансах работы со вторичными данными. Они помогают исследователям экономить время и ресурсы — но для этого нужно получить доступ к данным. Это может оказаться непростой задачей: нужно не только понять, кому они принадлежат, но и получить разрешение на их использование.

В следующем параграфе мы продолжим разговор об обработке данных — на этот раз научимся анализировать категориальные переменные.

Отмечайте параграфы как прочитанные чтобы видеть свой прогресс обучения

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.
Вступить
Сообщить об ошибке
Предыдущий параграф3.3. Базовые статистические тесты в Python
Следующий параграф4.2. Категориальные переменные и их анализ