В этой главе поговорим о том, что такое обогащение данных и как делать это этично — не нарушая права респондентов.
Это важная тема — именно от «обогащённость» данных зависит эффективность современных маркетинговых инструментов.
Итак, приступим.
Что такое обогащение данных
Зачем нам нужно обогащать данные? Прежде всего, дополнительная информация делает наши результаты более точными на всех этапах работы. Это значит, что мы можем ответить на более сложные исследовательские вопросы.
🔍 Обогащение данных — это дополнение существующих данных новыми.
Стоит различать использование данных до начала исследования, чтобы поставить исследовательский вопрос, и после. Первое — это не обогащение данных, так как данных у нас ещё нет. Это просто часть подготовки к исследованию.
Например, мы изучаем интерес жителей города N к веганским продуктам и планируем провести масштабный опрос на эту тему. Для начала можно собрать открытые данные, связанные с динамикой веганских брендов на рынке города N – в какие годы они появлялись и исчезали, в каких магазинах продаются и другие данные. Изучая эти данные, мы можем заметить, что в один из годов в городе N кратно увеличилось число веганских продуктов. Этот факт стоит учесть при составлении опросника.
Говоря об обогащении данных, мы подразумеваем, что располагаем собственной информацией. Эти дополнительные сведения помогут объяснить полученные результаты, проверить гипотезы и создать модели. В этом случае дополнительная информация поможет прояснить полученные результаты, проверить гипотезы и построении моделей.
Очень часто прибегают к обогащению данных в маркетинговых исследованиях — это инструмент для более точной работы с потребителем. Например, крупные поисковые системы составляют подробные портреты пользователей: возрастная категория, гендер, приблизительный доход, интересы, сфера занятости и др. Здесь важен не столько объём информации, сколько количество задействованных источников. В результате этой работы интернет-пользователь видит рекламу, соответствующую его интересам. Интерфейс также подстраивается под пользователя: учитывается язык, часовой пояс, предыдущие поисковые запросы и др.
Этика и лицензирование обогащения данных
Давайте сначала разберемся с тем, что мы можем сделать. Работа с обогащением данных ограничивается с нескольких сторон. С одной стороны — это ожидания респондентов и других исследователей (вторые важны, если мы говорим об академических исследованиях), а с другой — законы страны, в которой вы проводите исследования.
В некоторых случаях возможно обогащение на индивидуальном уровне. Можно объединить данные в рамках одной организации, если у пользователя есть несколько точек взаимодействия с организацией. Например, если вы открываете счет в банке, берете кредит и выбираете категории для кэшбека, то все эти данные могут быть объединены в единый массив.
Это возможно, так как обычно в таких случаях данных передаются в рамках единого соглашения, поэтому это вопрос внутренних политик безопасности и коммерческих задач — обогащать или нет.
Другой сценарий — передача данных другой организации, которая прописана в соглашении. В таком случае логика обогащения оказывается такой же, как если бы это было в рамках одной организации.
Если обработка по соглашению возможна только в обезличенном виде, то обогащение на индивидуальном уровне невозможно, так как оно требует наличия уникальных идентификаторов — то есть, обезличивания. Дальше есть два сценария: нормальный и плохой.
Нормальный сценарий часто используется в академических исследованиях. Это обогащение агрегированных данных. Например, можно объединить данные по индивидам на уровне муниципалитета или какой-то организации (например, школы или центра занятости населения), а потом обогатить их на этом уровне. В таком случае данные используются в обезличенном виде, поэтому нарушения соглашения не происходит.
Плохой сценарий — это вероятностное обогащение. Можно не использовать однозначные индивидуальные идентификаторы (имя, контактные данные или номера документов), а полагаться на косвенные признаки. В случае цифровых данных говорят о цифровом следе: комбинации характеристик браузера и операционной системы, технических характеристик устройства (разрешения) и ip-адреса. Использование такой комбинации обычно достаточно точно позволяет идентифицировать разные действия индивида, чтобы объединить их. Нарушения законодательства в таком случае может не происходить, но это «серая» зона, в которой по нашему мнению лучше не находиться.
Этические требования заключаются в невозможности использовать и демонстрировать публично персональные данные индивида, даже если по какой-то причине они были вам им переданы. Также однозначно этически невозможно использование в исследовательских целях украденных и опубликованных данных, в том числе утечек из сервисов. Это вопрос, в том числе, персональной ответственности и этики каждого отдельного исследователя.
Наконец, при публикации результатов и обезличенных данных необходимо иметь в виду, что они могут быть использованы для недобровестного обогащения. Будет лучше всего сразу прописать условия их использования и сделать максимально затруднительным использование данных для обогащения других данных. Это может включать в себе ограничение доступа к отдельным атрибутам и/или наблюдениям.
Источники обогащения
Источниками обогащения могут быть любые подходящие данные, которые доступны вам. Если мы говорим о данных, внутри какой-то компании, то тут сложно составить какую-то систематическую классификацию, так как она зависит от того, чем занимается компания.
В академических исследованиях источниками обогащения выступают внешние (чаще всего открытые) данные. Это могут быть государственные статистические данные (например, итоги переписи населения), фактическая информация (например, сведения об интересующих нас населённых пунктах), данные из интернет-ресурсов (социальных сетей и др.). Приведём несколько примеров, чтобы понять, о каких данных стоит подумать.
Демографические данные
Представим, что мы проводим сравнительное социальное исследование, посвящённое гендерным различиям в школьном образовании. Нас интересует, как учатся мальчики и девочки, какие предметы предпочитают, как ведут себя на уроках и сколько времени посвящают домашним заданиям. Для исследования мы выбираем пятьдесят школ в десяти регионах России. Полученные данные – это ответы детей на вопросы нашей анкеты. Но мы также хотим расширить картину данными из других источников – узнать среднюю наполняемость класса, среднее количество детей в семьях, процент населения с высшим образованием и др. Эта информация будет полезной, поскольку она описывает контекст исследования и может быть использована для сопоставления. Мы получаем эти дополнительные данные из открытых источников и по запросу в образовательные учреждения.
Географические данные
Поскольку в нашем воображаемом исследовании школьного образования есть компаративистский потенциал – мы рассматриваем десять регионов – для нас были бы полезны данные, описывающие характеристики изучаемых мест. Это, например, численность населения, специфика инфраструктуры, мест занятости и бюджета региона. Такие данные чаще всего есть в открытом доступе, например, в справочниках Росстата.
Пользовательские данные
Обогащение пользовательскими данными связано с цифровым поведением и следами индивида. Такие данные часто используют для разработки таргетированных рекламных кампаний, но и в нашем исследовании они могут оказаться полезными. Под пользовательскими данными в этом случае мы будем понимать цифровую вовлечённость школьников – наличие и использование компьютера для учёбы и развлечений. Чтобы добавить эти данные к нашим, можно обратиться к результатам исследований коллег: практически все современные опросы школьников так или иначе затрагивают тему цифрового поведения.
С обогащением данных разобрались. Теперь самое время поговорить о мощном инструменте анализа — линейной регрессии. С его помощью вы сможете раскрыть секрет популярности видео, песен, тиктоков и другого медиаконтента. Как это сделать — расскажем в следующем параграфе.