Введение
В прошлой главе мы говорили об опросах, как о данных, которые необходимо собирать специально для исследования. Но вокруг нас много уже существующих данных. Это могут быть результаты уже проведенных опросов, цифровые следы интернет-пользователей или сведения об эффективности лекарств. Когда мы проводим собственное исследование, полезно обратиться к уже имеющимся данным. Их часто называют вторичными, и мы поговорим о них в этой главе.
Международная и национальная статистика
Обычно перед началом исследования нам необходимо оценить число всех возможных наблюдений. Это поможет нам построить корректную выборку и понять, какие стратегии сбора данных могут быть уместны. Для этого можно использовать данные национальных статистических ведомств. Главное из них в России — Федеральная служба государственной статистики (Росстат), но не только.
Национальные данные в России могут собираться разными способами:
- Это опросы разных уровней (от региональных подразделений организаций до масштабных исследований Росстата).
- Статистические показатели ЗАГСов (например, их данные по рождаемости и смертности — наиболее надёжные из всех, что у нас есть).
- Отчёты по разнообразным показателям муниципальных и федеральных ведомств (Роструд, Центробанк, Минэкономразвития и так далее).
Предположим, мы решили исследовать взгляды жителей нескольких городов с населением больше миллиона на проблему гендерного неравенства. Чтобы грамотно составить выборку и представлять себе генеральную совокупность, нам могут пригодиться демографические данные об изучаемых городах – ожидаемая продолжительность жизни у мужчин и женщин, среднее количество детей в семье и др. Такие данные мы можем получить из национальных статистик и переписей населения.
К преимуществам национальных статистик относятся:
- регулярная публикация (обычно раз в год или несколько лет);
- большое число наблюдений и переменных (число вопросов может составлять несколько сотен);
- стабильность задаваемых вопросов из года в год;
- подробное фиксирование показателей в отчётах государственных и муниципальных органов (например, проведённые мероприятия, информация о сотрудниках и др.).
Впрочем, национальные данные (и в России, и в других странах), к сожалению, часто бывают низкого качества: с искажениями, неполной информацией, дубликатами наблюдений и так далее. Кроме того, эти данные обычно находятся в закрытом режиме доступа.
Но зачастую для решения наших задач требуется оценить проблему в общем и сравнить её с другими примерами. Допустим, мы изучаем связь между средним уровнем образования в стране и мнением о проблеме гендерного неравенства. В этом случае кажется логичным начать разбираться в проблеме с того, чтобы обратиться к мировому опыту – нам пригодится международная статистика. Такие данные собирают и публикуют международные организации, такие как ООН и Всемирный банк.
Международная статистика обладает следующими преимуществами:
- регулярная публикация (обычно раз в год или несколько лет);
- к ней прилагаются подробные отчёты, которые удобно использовать в том числе как источник литературы для работы;
- часть данных уже описана в отчётах, проведены базовые статистические тесты – этими результатами можно воспользоваться (со ссылкой на источник информации);
- из года в год и от страны к стране остаются одинаковые или поддающиеся сравнению переменные, что позволяет проводить сравнительный анализ;
- у данных прозрачная методология, с которой может ознакомиться любой желающий.
При этом важно помнить, что данные для такой статистики предоставляют национальные министерства, НКО и другие организации. Поэтому, например, Россия в статистике ООН будет представлена российскими же данными.
Поскольку мы рассуждаем о связи между средним уровнем образования в стране и взглядами на проблему гендерного неравенства, то мы можем обратиться к информации о том, какое место изучаемая нами страна занимает в стороннем международном рейтинге гендерного равенства. Таких рейтингов на разных уровнях довольно много, их составляют по самым разным вопросам.
Например, все мы встречали рейтинги университетов. Они бывают общемировые, так и по конкретным регионам, предметам, сложности вступительных испытаний. В основе таких рейтингов часто экспертная оценка группы или организации, которая ранжирует участников по собственным параметрам.
Стоит быть внимательным к выбору данных и их источников. За данными может стоять определённая методология (зачастую подробно описанная), но она может иметь недостатки, которые могут помешать использовать их в исследовании. Например, в неё могут быть включены субъективные мнения экспертов о том, как именно должны быть собраны данные. Обычно это приводит к появлению в методологии допущений или упрощений, который могут значительно повлиять на смысл собранных данных. Вопросы могут быть не только к методологии, но и к качеству сбора. Поэтому нужно держать в уме все потенциальные сложности, чтобы оценить степени их влияния на итоговый результат.
Официальные запросы на получение данных
Обычно в открытом доступе находится только часть данных – это касается и опросов, проведённых исследовательскими центрами, и государственных документов, и национальных статистических показателей. Информация может быть скрыта по этическим соображениям, из-за требований законодательства, специфики работы организации или просто потому, что данные не предназначались для исследовательской работы. Если нам не хватает информации, то мы можем её запросить.
При этом необходимо понимать, что:
- сайты университетов и других исследовательских организаций чаще всего публикуют предупреждение о том, какие из собранных ими данных не находятся в открытом доступе, какие из них возможно запросить и как это сделать;
- лучше всего сразу кратко обозначить, кто вы, какие данные вам нужны и почему (можно в 1-2 предложениях рассказать о проводимом исследовании и его уровне – университетский групповой проект, магистерская диссертация и др.);
- персональные данные не могут быть предоставлены;
- при запросе следует указать аффилиацию, возможно, предоставить справку или рекомендацию с места вашей учёбы или работы;
- при обращении в государственные ведомства следует конкретизировать запрос: например, подробно указывать страницы необходимого документа.
Парсинг открытых данных
Интернет-пользователи оставляют большое количество цифровых следов, анализ которых может быть полезным для социального исследования. Источниками таких цифровых следов могут быть:
- социальные сети и блоги;
- новостные сайты (например, раздел комментариев);
- государственные и негосударственные площадки для обсуждений (например, онлайн-петиции).
Цифровые следы можно преобразовать в данные. Для этого можно использовать API (application programming interface) или сохранить себе нужные интернет-страницы и найти в них данные (эту процедуру часто называют парсинг). Если есть выбор между двумя способами, то лучше выбрать первый. API обычно есть у многих государственных онлайн-ресурсов, библиотек и социальных сетей.
🔍 API – это набор правил и программных инструкций, которые позволяют двум программам (вашему скрипту для сбора и серверу с данными) взаимодействовать друг с другом.
Предположим, что пользователю необходимо получить перечень русскоязычных академических публикаций в сфере молекулярной биологии за последние полгода. Если база данных научных публикаций имеет встроенный API, исследователь может сформулировать свой запрос, следуя инструкции владельца данных (вот, например, ссылка на документацию для Twitter, а вот для лонгитюдного опроса НИУ ВШЭ о траекториях в образовании и профессии) и получить результат в одном из форматов, подходящих для дальнейшего анализа (JSON, XML и др.). Важно понимать, что API предоставляет доступ не ко всем типам информации: у каждого ресурса есть свои внутренние правила, которые обычно описаны в соответствующем разделе сайта.
Поскольку большая часть интернет-ресурсов не имеет доступа к API, для сбора данных применяют парсинг. Это может быть актуально, например, для мониторинга меняющейся информации: цен на товар, погоды и др. Такие данные можно собирать вручную (путём простого копирования/скачивания необходимой информации) или же автоматизировать процесс с помощью парсера – специально написанной для вашей задачи программы.
Суть работы парсера вкратце можно описать таким образом. Любая информация, находящаяся в интернете, размечена с помощью HTML. У каждой веб-страницы есть код, в котором описаны типы данных (изображение, текст и др.), их характеристики (размер и цвет шрифта), другие детали (заголовки, основной текст). Программа-парсер понимает этот код и распознаёт его элементы. Нам достаточно сформулировать, какие данные мы хотим получить.
Предположим, нам нужно проанализировать комментарии, которые оставляют пользователи под новостями в разделе «Здоровье и медицина». В первую очередь необходимо определить интересующие нас HTML-элементы. Парсер будет искать аналогичные элементы и выполнять ту работу, которая заняла бы очень много времени вручную: открывать десятки и сотни страниц новостей в нужно разделе, находить комментарии, выгружать их в общий документ.
Возможность парсить данные очень удобна и полезна для исследователя, но необходимо помнить и об ограничениях этого метода.
Если вы неверно сформулируете запрос, программа может собрать недостаточные, избыточные или неподходящие вам данные. Также ошибка может быть со стороны сайта – парсер соберет неверную информацию, если элементы на сайте размечены неверно. Представьте, что при вёрстке страницы один из заголовков случайно разметили как основной текст. В параграфе 7.2 мы обсудим эти методы подробнее.
Извлекаемая информация может содержать персональные данные или объекты авторского права – работа с такими данными может быть рискованной со стороны законодательства.
Ограничения вторичных данных
Важно помнить, что эти данные собирали организации или отдельные исследователи, ставившие собственные цели. Поэтому часть информации в них может быть для нас недостаточной или избыточной. Это нормально, извлечение нужного из вторичных данных – отдельная большая работа.
Одни и те же вопросы могут задаваться по-разному, что требует дополнительных усилий по сопоставлению данных. Например, если в вашем опросе возраст респондента записан как целое число, а в опросе коллег – в виде десятилетнего интервала, при анализе объединённых данных это потребует грамотного перекодирования переменных.
В предложенные варианты ответа тоже может быть вложен разный смысл. Допустим, вы спрашиваете у респондента о его или её семейном положении, предлагая следующие варианты ответа: «женат/замужем», «разведен_а», «вдовец/вдова», «не состою в браке». Ваши коллеги могут задать тот же вопрос, но исходить из предпосылки, что люди, не состоящие в браке, могут находиться в незарегистрированных партнёрских отношениях. Тогда они добавят один или несколько вариантов ответа, которые существенно обогатят картину, но теперь сопоставление ваших опросов будет затруднительным.
Часто мы не знаем, как вторичные данные были собраны – вопросы качества выборки, внешних факторов, условий полевой работы нам неизвестны. В этом случае мы во многом полагаемся на авторитет человека или организации, занимавшихся сбором данных. Не стоит использовать данные из сомнительных источников, поскольку это может исказить наши собственные результаты.
Например, в качестве заслуживающего доверия источника можно упомянуть данные IPUMS — платформы, собирающей данные переписей со всего мира. С сомнением мы должны относиться к экспертным оценкам стоимости чего бы то ни было. Например, трансфертной стоимости футболистов, которая доступна на Transfermarkt. В новостях о ней говорят, как о точном значении, но на самом деле это не так. Эта оценка является субъективным показателем, который корректируется, если доступна информация о сделках.
Заключение
Использование вторичных данных – относительно новое направление, поэтому исследовательские методологии, этика и язык для работы с ними ещё не выработаны в полной мере. Если вы занимаетесь исследованием на основе больших данных – обязательно консультируйтесь с коллегами. По возможности обращайтесь в организации, занимающиеся сбором необходимых вам данных, уточняйте технологии их работы, чтобы не пропустить возможные искажения и ошибки, возникающие в самом начале.
В следующем параграфе мы поговорим о том, как оформить данные таким образом, чтобы было удобно ими пользоваться.