Итак, мы уже умеем проводить базовые статистические тесты — биноминальный, t-тест и ANOVA. Однако они предназначены для анализа либо только непрерывных переменных, либо непрерывных и категориальных.

Но что делать, если нам нужно проанализировать только категориальные переменные? Давайте разбираться.

Вначале нам важно разобрать два понятия — что такое корреляция и сводные таблицы.

Корреляция

В параграфе 3.1 мы говорили о том, что можем выдвигать гипотезы о различиях между группами наблюдений в значениях какой-то непрерывной переменной. Фактически мы проверяем наличие связи (корреляции) между неупорядоченной категориальной переменной и непрерывной переменной.

Однако это не единственная возможная комбинация типов переменных. Мы можем предполагать связь между любыми двумя переменными. Иначе говоря, мы утверждаем, что есть соответствие между значениями двух переменных. Например, чем больше в книге букв, тем больше страниц.

Нам не так важно направление этой связи. Вслед за увеличением значений одной переменной значения другой могут увеличиваться (как в примере выше) или наоборот — уменьшаться. Например, чем меньше продолжительность светового дня, тем дольше на небе видны звёзды.

Представим, что у нас есть гипотеза: чем больше актёров на площадке, тем больше времени уходит на съёмку одного дубля. Собираем данные, строим график.

Мы видим, что есть связь: с увеличением количества актёров на съемочной площадке увеличивается время на съёмку одного дубля. При 20 актёрах необходимо 0,62 минуты, а при 80 актёрах — 1,12 минуты.

4

Обычно нас интересуют только такие связи, где направление изменений не меняется. Мы называем их линейными. Такие связи проще идентифицировать, и мы знаем много хорошо работающих методов для этого. На графике выше показана линейная связь.

Мы говорим, что связь нелинейная, если за увеличением значений одной переменной значения другой увеличиваются или уменьшаются на каких-то отрезках. Например, если бы в нашем примере при 20 актёрах было бы необходимо 0,62 минуты на съёмку дубля, при 80 актёрах — 1,12 минуты, а при 40 (точка между) — 2,87 минуты.

К таким связям стоит относиться осторожно, так как явление, которое мы стремимся объяснить, становится непредсказуемым. Это может означать наличие каких-то других переменных, связанных с теми двумя, которые мы используем в модели.

Когда мы смотрим на график, то нам кажется, будто длительность съёмки фильма зависит от количества актёров на площадке. Но это не так — режиссёр мог уйти на больничный или же деньги на съёмки кончились и команда ушла в простой. То есть причина могла быть совсем иной. Такая жёсткая зависимость одной переменной от другой — это причинно-следственная связь.

А теперь очень важно: корреляция не подразумевает причинно-следственной связи. График нам говорит только о том, что между переменными есть какая-то связь. Никакой из методов, о которых мы говорим в этой книге, не утверждает, что событие А случилось, потому что случилось событие Б.

🔍 Корреляция не подразумевает причинно-следственной связи.

Когда мы говорим о том, что у связи есть направление, то имеем в виду наши предшествующие (априорные) знания о мире. Например, мы знаем, что если автор написал длинный текст, то он потребует больше печатных страниц, а не наоборот. У каждого из нас есть свои представления о мире — и мы на их основе строим гипотезы для статистических тестов.

Сравните:

  1. Авторы пишут длинные тексты, поэтому их приходится печатать на большом количестве страниц.
  2. Есть связь между числом слов в тексте (заменяем длину текста на какую-то переменную, которую можем посчитать) и числом страниц.
  3. Нулевая гипотеза: этой связи нет. Альтернативная гипотеза: эта связь есть.

После теста мы можем пройти эту последовательность в обратном порядке и сделать вывод.

Сводные таблицы

На начальном этапе исследования обычно сложно понять, на какие исследовательские вопросы можно ответить.

Мы можем использовать описательные статистики для отдельных переменных. Однако нам нужно понять, на какие исследовательские вопросы о связи переменных мы можем ответить.

Для этого мы можем использовать таблицы сопряжённости (сводные таблицы). Они показывают совместное распределение двух переменных и позволяют увидеть, есть связь между ними или нет.

Предположим, что мы проводим исследование о причинах возникновения головной боли напряжения и возможных факторах её сдерживания. Есть версия, что постоянная работа за компьютером и напряжение глаз приводят к тому, что у человека начинает болеть голова. Если же давать глазам отдых, делая специальную гимнастику два раза в день, головная боль напряжения может исчезнуть. Получается, что головная боль будет возникать чаще у тех, кто не делает гимнастику для глаз.

Проверим это предположение, составив таблицу сопряжённости (обе переменные — категориальные).

Занятия гимнастикой

Голова болит

Голова не болит

Всего

Делают гимнастику

20

30

50

Не делают гимнастику

50

25

75

Всего

70

55

125

Столбцы соответствуют значениям шкалы одной переменной, строки — другой. В ячейки заносится информация о количестве случаев совместного пересечения значений переменных.

Таблица сопряжённости может содержать две переменные с любым типом шкал за исключением абсолютных (т. е. непрерывных). Для использования в таблицах сопряжённости они могут быть преобразованы в интервальную шкалу.

Таблица сопряжённости может использоваться, чтобы описать данные и показать причины, по которым была выбрана та или иная исследовательская стратегия. Если частью исследования является эксперимент (как в нашем примере выше со сравнением людей, которые делают или не делают зарядку для глаз), таблица сопряжённости может быть частью результатов исследования.

Однако сама по себе таблица сопряжённости ничего не говорит нам о том, насколько значима связь, которую мы можем предположить, глядя на таблицу. Для этого мы можем использовать тест под названием Хи-квадрат, который позволяет оценить её значимость.

Хи-квадрат

Тип: непараметрический.
Применяется: когда есть предположение о связи двух переменных, выраженных с помощью категориальных шкал.
Проверяет: существует ли статистически значимое отличие средних значений между двумя группами.
Данные: должны состоять из двух категориальных переменных.

Вернёмся к таблице сопряжённости головной боли и гимнастики для глаз. Попробуем доказать, что между ними действительно есть отрицательная связь (если респондент делает гимнастику, то у него скорее не болит голова). Хи-квадрат позволяет рассчитывать частоты тех или иных ответов – как это происходит, сейчас выясним.

Составим таблицу, в которую внесём число наблюдений для каждой комбинации.

Занятия гимнастикой

Голова болит

Голова не болит

Всего

Делают гимнастику

20

30

50

Не делают гимнастику

50

25

75

Всего

70

55

125

Добавим к ним ещё одну строку: частоту (в процентах) головной боли у всех испытуемых. При этом мы не будем учитывать фактор гимнастики, а посмотрим просто на частоту головной боли:

Голова болит

Голова не болит

Всего

56%

44%

100%

Теперь рассчитаем ожидаемые значения – то есть те, которые были бы в случае отсутствия эффекта от гимнастики для глаз (как будто различий в группах нет).

Для каждой ячейки перемножаем общее число значений в ряду и в колонке, в которых она находится, и делим его на общее число значений во всей таблице. Например, для комбинации «Голова болит» и «Делают гимнастику» ожидаемое число значений равно 50*70/125, то есть 28. Это то число наблюдений, которое было бы, если бы эффекта не было.

Занятия гимнастикой

Голова болит

Голова не болит

Всего

Делают гимнастику

28

22

50

Не делают гимнастику

42

33

75

Всего

70

55

125

Что показывает сравнение этих двух таблиц? Эффект от гимнастики для глаз искажает ожидаемые значения. Чтобы понять, насколько серьёзно это искажение, нужно рассчитать хи-квадрат.

Мы делаем это в несколько шагов:

  1. сначала для каждой комбинации значений в таблице находим возведённую в квадрат разницу между фактическими и ожидаемыми значениями;
  2. эту разницу делим на число ожидаемых значений;
  3. затем суммируем эту разницу.

Если выполнить все эти вычисления, то окажется, что результат равен 6,87. Мы проверяем значимость этого показателя с помощью таблицы критических значений. Уровень значимости мы устанавливаем так же до того, как проводим тест (0,95 или 0,99).

Однако в этот раз для определения уровня значимости нам необходимо число степеней свободы. Для теста «Хи-квадрат» оно равно числу комбинаций значений двух переменных минус один.

🔍 Степень свободы — это число значений переменной в выборке, которые нам необходимо знать, чтобы вычислить статистику (например, среднее значение или хи-квадрат).

Дальше мы просто находим табличное значение на пересечении числа степеней свободы и критерия уровня значимости (например, тут).

В нашем случае значение критерия равно 0.95, число степеней свободы равно 3. Это означает, что в данном случае эффект незначим, мы не можем отклонить нулевую гипотезу.

Хи-квадрат определяется следующими условиями:

  • переменные в группах, которые мы сравниваем, должны быть номинальными («зелёные глаза», «синие глаза») или порядковыми («никогда», «иногда», «часто»);
  • в выборке должно быть не менее 30 наблюдений;
  • группы должны быть независимы друг от друга (поэтому нельзя, например, использовать тест «Хи-квадрат» для сравнения по типу «было/стало»).

Итак, в этом параграфе мы увидели разницу между корреляцией и причинно-следственной связью, познакомились с таблицами сопряжённости и научились проводить тест для поиска связи между категориальными переменными. В следующем параграфе мы научимся проводить тест «Хи-квадрат» в Python, а заодно познакомимся со структурами, которые помогут добавить вариативность нашим скриптам.

Отмечайте параграфы как прочитанные чтобы видеть свой прогресс обучения

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.
Вступить
Сообщить об ошибке
Предыдущий параграф4.1. Типология данных. Источники данных
Следующий параграф4.3. Работа с категориальными данными в Python