Коротко вспомним, что мы уже знаем про данные. Итак:
- Это информация, которая формализована по установленным нами правилам.
- Данные состоят из наблюдений, описанных с помощью общих характеристик. Они называются переменными.
- Переменные измеряются с помощью шкал. Значения шкал могут быть числом или текстом.
В этом параграфе мы поговорим о том, как делать выводы обо всех возможных наблюдениях по малой части данных (и почему это нормально). А заодно научимся правильно собирать данные в таблицы. Вы удивитесь, но тут тоже есть свои нюансы!
Выборки и генеральная совокупность
Представьте, что мы решили собрать информацию о художественных книгах и оценках читателей. Узнать мнение каждого читателя о каждой книге невозможно. Как поступить?
Для начала стоит оценить — а какие данные нам доступны? От этого будут зависеть гипотезы, которые мы сможем проверить.
Например, если мы решили собрать данные об отношении школьников Санкт-Петербурга к роману Льва Толстого «Война и мир», то мы не можем, используя только лишь эти данные, судить обо всех читателях книг в принципе. Выводы, которые мы сделаем, будут об одной книге и единственной группе читателей.
Всех школьников Санкт-Петербурга мы назовём генеральной совокупностью. А опрошенных школьников — выборкой.
🔍 Генеральная совокупность — совокупность всех возможных наблюдений, относительно которых предполагается делать выводы при постановке гипотезы.
🔍 Выборка — часть генеральной совокупности, которая была охвачена сбором данных.
В большинстве ситуаций мы не можем собрать данные обо всех возможных наблюдениях и характеристиках. Во-первых, потому что это непосильная задача (попробуйте опросить каждого без исключения школьника Санкт-Петербурга). Во-вторых, потому что многие характеристики нам не нужны, потому что не соответствуют выдвинутой гипотезе (например, оценки школьников по математике). В итоге в выборку должны попасть случайные наблюдения.
Но мы не знаем наверняка, совпадает ли распределение отдельных характеристик наблюдений в выборке и в генеральной совокупности. Иными словами — можно ли доверять выборке?
Это на самом деле очень важный вопрос, но, чтобы ответить на него с учётом всех нюансов, потребуется уйти в дебри теории вероятности. А мы не хотим вас путать. Поэтому вот упрощённый ответ: можно только предполагать, что они соответствуют друг другу. Но чем больше данных мы соберём, тем более похожим будет распределение выборки и генеральной совокупности (это одно из следствий центральной предельной теоремы). Если это объяснение вас не удовлетворило и вы всё же хотите забраться в дебри, то переходите по ссылке.
Продолжим. Для оценки распределения переменной нужно не меньше 30 наблюдений. Если мы хотим оценить распределение переменной по группам, то нужно получить те же 30 наблюдений, но для каждой группы. Например, если мы хотим получить среднюю оценку среди всех нехудожественных книг в онлайн-сервисе, то нам достаточно изучить отзывы на 30 случайных книг в этом жанре. А если помимо нехудожественных книг мы хотим рассмотреть ещё и художественную литературу, и комиксы, то нам нужно изучить минимум по 30 книг в каждой из этих групп.
Работа с табличными данными
Итак, мы собрали выборку и записали её в таблицу — или таблицы. Дальше эти данные нужно как-то обработать для удобства исследования. «Удобство» зависит от того, какие именно тесты мы будем проводить. Подробнее о тестах мы рассказываем в параграфе 3.2, здесь же просто обозначим, что у каждого теста специфические требования к структуре данных и переменным.
Часто при обработке мы сталкиваемся с одной из двух проблем:
- данные состоят из нескольких таблиц;
- переменные излишне детализированы.
Например, если мы анализируем книги и пользовательские оценки, то данные об авторах книг (родном языке и стране происхождения) могут оказаться в одной таблице, а названия книг и читательские оценки — в другой.
Имя |
Родной язык |
Страна происхождения |
Генри Джеймс |
Английский |
США |
Иван Тургенев |
Русский |
Россия |
Жорж Санд |
Французский |
Франция |
Чарльз Диккенс |
Английский |
Великобритания |
Автор |
Название книги |
Читательская оценка |
Генри Джеймс |
Поворот винта |
3.4 |
Иван Тургенев |
Отцы и дети |
4.0 |
Иван Тургенев |
Муму |
3.8 |
Жорж Санд |
Консуэло |
4.1 |
Жорж Санд |
Графиня Рудольштадт |
4.2 |
Чарльз Диккенс |
Большие надежды |
4.2 |
Чарльз Диккенс |
Холодный дом |
4.1 |
С переменными проблема может быть в том, что в данных указали год издания, но не указали десятилетие, в котором опубликована книга, — а мы, например, хотим найти самую популярную книгу в каждом десятилетии 20-го века.
Сейчас расскажем, как можно решить эти проблемы.
Преобразование таблиц
Обычно сначала мы организуем таблицы, с которыми будем работать, а затем переменные внутри этих таблиц.
В нашем случае организация означает, что из двух (трёх, четырёх — неважно) мы сделаем одну. Для этого нам нужно понять:
- из каких таблиц состоят исходные данные;
- где в них находятся интересующие нас переменные.
Преобразование таблиц особенно важно, если мы собирали данные с помощью агрегирования.
🔍 Агрегирование данных — это процесс сбора данных из нескольких источников в единый набор, который может использоваться в исследованиях.
Преобразование переменных
Про переменные мы уже говорили в параграфе 2.1. Сейчас расскажем о них подробнее, но сперва коротко напомним, что мы уже знаем.
Переменные бывают непрерывные и дискретные.
🔍 Непрерывная переменная — переменная, которая может принимать любые значения в некотором интервале.
Например, число страниц в книге. Не бывает книг толщиной в десять тысяч страниц, но в некотором диапазоне число может быть любым: от четырёх до полутора тысяч страниц.
🔍 Дискретная (категориальная) переменная — переменная, которая может принимать ограниченный диапазон значений.
Например, книжные жанры, имена авторов, названия издательств. Каждое такое значение будет уникальным.
Вот тут математики могут возмутиться — мол, почему мы привели для непрерывной переменной некорректный пример: если бы количество страниц действительно было непрерывным, то мы могли бы легко найти книгу толщиной от -∞ до +∞ страниц. Или 300,(3) страниц. Ну вы поняли. Дело в том, что между статистической и математической «непрерывностью» есть различия. Для статистика непрерывная переменная — та, с которой можно совершить арифметические операции. Например, деньги, возраст, зарплата, количество друзей и так далее.
С математиками разобрались, можно продолжать. Так вот: при необходимости непрерывные переменные могут быть преобразованы в дискретные через укрупнение значений. Для этого мы составляем таблицу соответствий новых значений и старых, а дальше создаем новую переменную с изменёнными значениями. При перекодировке возможно только движение от непрерывных к дискретным и от более дробных дискретных к менее дробным дискретным шкалам.
Пример укрупнения года публикации книги.
Исходное значение |
Возможное значение по группам |
Ещё одно возможное значение (Современная литература или нет) |
1836 |
1 (...–1899) |
0 (Нет) |
1932 |
2 (1900–1999) |
0 (Нет) |
2012 |
3 (2000–...) |
1 (Да) |
Решение о преобразовании зависит от выбранного статистического теста. Например, мы можем заменить год публикации книги на три значения: литература до начала 20-го века, литература 20-го века и литература 21-го века. Мы упростили точное значение и сделали его приблизительным. Если для исходной переменной мы могли использовать тесты для непрерывных переменных, то для новой — только тесты для категориальных переменных.
Ещё такие замены важны, потому что определяют, какие операции допустимы при преобразовании данных. Например, мы можем совершать осмысленные арифметические операции с непрерывными переменными, но не можем делать этого с категориальными. Зато категориальные переменные мы можем объединять вместе или разделять.
Мы можем объединить в одной переменной страну издания и название издательства книги или, наоборот, разделить их, если они были объединены. Или мы можем сравнивать средние оценки книг по группам в зависимости от года издания. С непрерывной шкалой у нас было бы слишком много групп, и сравнение не удалось бы.
Использование дискретных шкал позволяет получать более общие оценки, так как вслед за укрупнением шкалы происходит и упрощение исследовательского вопроса. Можно сравнить три исследовательских вопроса:
- Какой год самый популярный у читателей?
- Какой период самый популярный?
- Чаще читают современные или классические книги?
При всей схожести используемых данных изменение шкалы кардинально изменяет вопрос исследователя и тесты, которые он использует. Некоторые тесты, такие как хи-квадрат, о котором мы поговорим в параграфе 4.2, требуют менее детализированных данных.
Итак, теперь вы знаете, что такое выборка и генеральная совокупность и почему для исследования нам не всегда нужны все данные. Кроме того, вы познакомились с базовыми принципами правильной организации данных для дальнейших исследований.
Мы чуть коснулись статистических тестов (очень поверхностно), но в следующем параграфе расскажем о них подробнее. А заодно научимся правильно формулировать гипотезы.