Представьте, что вам задали вопрос: «Зарплата 100 тысяч рублей в России — это много?»

Интуитивно кажется, что да, но неплохо бы собрать данные и проверить это предположение. В этом параграфе мы расскажем, какие инструменты существуют для оценки данных, что есть «много», «мало», «нормально» и почему всё относительно.

Эмпирическое распределение

Как вы уже поняли, статистика любит точность и вопросы. Поэтому вместо «что есть мало?», «что есть много?» и «что есть нормально?» можно спросить:

  • какое максимально возможное значение переменной;
  • какое минимальное возможное значение;
  • какие значения встречаются чаще всего?

Эти три вопроса сводятся к одному понятию — распределению наблюдений относительно друг друга.

🔍 Эмпирическое (статистическое) распределение — это описание того, с какой частотой в переменной встречаются определённые значения.

Предположим, нас попросили исследовать зарплату сотрудников в небольшой компании. В этом случае зарплата будет нашей переменной, сотрудники — наблюдениями, а зарплата конкретного сотрудника (например, Анны из бухгалтерии) — значением. Когда мы собрали данные и записали, кто сколько получает, мы можем разложить наблюдения по «корзиночкам»:

  • 0–10 тысяч рублей;
  • 11–20 тысяч рублей;
  • ...
  • больше 100 тысяч рублей.

И подписать, сколько наблюдений попало в «корзиночку». Все «корзиночки» и будут нашим распределением. Это удобно визуализировать в таблице:

Зарплата, тысяч

Количество сотрудников

0 - 10

0

11 - 20

0

21 - 30

0

31 - 40

2

41 - 50

5

51 - 60

6

61 - 70

5

71 - 80

3

81 - 90

2

91 - 100

0

больше 100

2

Сейчас количество наблюдений у нас выражено абсолютным числом. Это не всегда удобно — нужно постоянно держать в голове, сколько сотрудников работает в компании, чтобы примерно прикинуть масштаб. Тогда уж проще сразу посчитать долю.

🔍 Доля — это количество наблюдений с конкретным значением переменной, разделённое на общее число наблюдений.

Всего в нашей компании работает 25 человек. В этом случае доли распределятся так:

Зарплата, тысяч

Количество сотрудников

Доля сотрудников

0 - 10

0

0

11 - 20

0

0

21 - 30

0

0

31 - 40

2

0.08

41 - 50

5

0.2

51 - 60

6

0.24

61 - 70

5

0.2

71 - 80

3

0.12

81 - 90

2

0.08

91 - 100

0

0

больше 100

2

0.08

Глядя на таблицу, мы можем проанализировать распределение — то есть ответить на три вопроса, которые сформулировали в начале:

  • чаще всего встречается значение в диапазоне 51–60 тысяч;
  • минимальное значение равно 31–40 тысячам;
  • максимальное — больше 100 тысяч.

Это эмпирическое наблюдение можно использовать, например, чтобы сказать, что в этой компании:

  • большинство сотрудников получает зарплату размером больше 50 тысяч;
  • встречаются люди, которые получают зарплату равную 50 тысячам и меньше, но их 28%.

Аналогичную логику мы можем использовать, например, чтобы оценить стоимость медицинской страховки в разных компаниях или процент по вкладу в банке.

Нормальное распределение

Анализ данных не может закончиться на том, чтобы просто сказать, где значения больше или меньше. Так мы можем ответить только на самые простые вопросы. Чтобы ответить на более сложные вопросы, нам нужно разобраться в соответствии видимого нам эмпирического распределения и невидимого теоретически ожидаемого распределения.

Из теории вероятности мы знаем, что если у нас будет много случайных наблюдений, то их распределение будет приближённо соответствовать нормальному распределению. Конечно, такие случаи происходят далеко не со всеми данными. Но если говорить о социальных данных (результаты опроса общественного мнения, социально-демографические характеристики и тд.), это будет соответствовать действительности. Выглядит нормальное распределение вот так:

5

Здесь по нижней оси отмечены возможные значения переменной, а по вертикальной — сколько раз они встречаются. Мы видим, что есть единственный центр и два симметричных хвоста, которые постепенно снижаются ближе к краям.

Если мы возьмём рост всех мужчин планеты, то наименьшим значением будет 65,2 сантиметра, а наибольшим – 251 сантиметр. Но очень маленьких и очень больших людей будет мало (хвосты графика), тогда как в центре будет средний рост — примерно 170–175 см.

🔍 Нормальное (Гауссово) распределение — это теоретическое распределение случайной величины.

Скажем сразу, что форма нормального распределения является общей для многих физических явлений. Например, нормально распределены физические размеры всех живых существ, скорость движения автомобилей в потоке, температура воздуха в какой-то местности. Если какое-то явление подвергается воздействию огромного количества помех, каждая из которых влияет случайным образом, то его распределение будет случайным.

Это следствие Центральной предельной теоремы:

🔍 Центральная предельная теорема — сумма каких-либо величин, которые независимы друг от друга (т. е. слабо или никак не влияют друг на друга), имеет распределение, близкое к нормальному.

Социальные явления тоже могут быть распределены нормально. Например, возраст, размер заработной платы, число дней на больничном.

Для эмпирических данных форма нормального распределения может меняться:

  • хвосты могут быть больше или меньше;
  • хвосты могут быть ассиметричными;
  • может появляться второй, меньший, центр.

Из-за этого бывает сложно сказать, нормально ли распределены данные, или нет. А это важный показатель — от него зависит выбор инструментов для анализа данных. Как определить «нормальность» распределения, мы подробнее расскажем в параграфе 3.2 — пока просто держите в уме, что на это нужно обращать внимание.

Меры центральности

Однако распределение не позволяет нам напрямую ответить на вопрос, какие значения встречаются чаще всего. Интуитивно кажется, что нас должно интересовать значение, которое встречается максимальное число раз. Но это не единственный способ ответить на этот вопрос. Позднее мы поговорим о том, чем они отличаются друг от друга.

Есть три возможных ответа на этот вопрос: мода, среднее арифметическое и медиана. Вместе их называют мерами центральности.

🔍 Мера центральности — центр или типичное значение распределения.

Представьте: ваша знакомая работает HR в ИТ-компании.
И руководитель дал ей задачу — посчитать, какую зарплату хотят SMM-специалисты с опытом работы до трёх лет.

Мода

Первый способ описать центр — тот, который казался нам наиболее интуитивным. Мы просто можем взять самое часто встречающееся значение в наборе данных. Такая мера называется мода.

🔍 Мода — значение признака, которое встречается наиболее часто во множестве наблюдений.

Например, у нас есть информация о вакансиях и предложенных в них уровнях зарплат.

Данные о зарплатах:

Идентификатор резюме

Заработная плата (тыс. рублей)

1

60

2

95

3

60

4

120

5

70

6

90

И здесь мы просто находим самое частое значение, встречающееся в нашей последовательности.

Самым частым значением зарплаты в наборе данных оказывается 60 тысяч рублей. Оно встречается два раза. Это первый из возможных вариантов ответа для вашей знакомой.

Сложность с модой заключается в том, у нас может быть распределение, в котором одно из крайних значений встречается больше раз, чем остальные, поэтому такой центр не будет отражать распределения всех значений.

Представьте на секунду, что в таблице выше три раза встречается значение 120 тысяч рублей. В большей части резюме зарплата была бы меньше, а использование моды сделало бы среднее значение больше, чем оно есть на самом деле.

Обычно мы используем моду для переменных, выраженных с помощью номинальной шкалы, так как из трёх мер центральности она единственная не требует того, чтобы значения были упорядочены. Например, мы можем получить моду для гендера или района города, где живут люди, которые описаны в наших данных.

В таком случае говорят, что чаще всего в данных встречаются женщины, жители Центрального района Санкт-Петербурга или люди, которые называют своим любимым цветом белый.

Среднее арифметическое

Другой способ найти типичное значение — это найти такое число, больше и меньше которого будет ровно половина от суммы всех возможных значений. Такое число будет меньше подвержено тому, чтобы быть смещённым ближе к одному из краев.

Можно представить себе, что если посмотреть на распределение как на геометрическую фигуру, которая ограничена горизонтальной осью и линией графика распределения, то линия среднего значения будет делить площадь этой фигуры пополам. Это удобно, если мы хотим оценить всю совокупность наблюдений вместе.

🔍 Среднее арифметическое — сумма всех значений признака во множестве наблюдений, делённая на их количество.

Предположим, что мы хотим узнать среднее, исходя из собранных нашей знакомой данных по зарплатам. Мы должны сложить все значения зарплат в наших данных и эту сумму поделить на количество наблюдений.

Иными словами, мы берём месячные зарплаты всех резюме, складываем их в одну копилку, а потом разбиваем и делим поровну на всех. Так мы узнали, что средняя зарплата в резюме составляет 82,5 тысячи рублей.

Теперь мы знаем, где находится центр распределения. Для каждого из наблюдений можем сказать, больше его значение, чем среднее арифметическое, или меньше.

Проблема со средним в том, что оно подвержено влиянию больших крайних значений (выбросов). Например, если мы добавим всего одно дополнительное значение в таблицу с резюме, то среднее сильно изменится.

🔍 Выброс – это результат измерения признака, выделяющийся в данных. Обычно это либо очень большое, либо очень маленькое значение по отношению к другим элементам выборки.

Идентификатор резюме

Заработная плата (тыс. рублей)

1

60

2

95

3

60

4

120

5

70

6

90

7

200

В таком случае среднее стало равно 99,3 тысячи. Хотя мы добавили всего одно значение, пусть и большое! Эта мера центральности сильно зависит от того, насколько максимальные и минимальные значения отличаются от всех остальных значений. Мы говорим, что среднее чувствительно к выбросам. Третий способ определения центра позволяет избежать таких ситуаций.

Медиана

Этой проблемы можно избежать, если мы посчитаем медиану по зарплатам. Главное преимущество медианы в том, что она устойчива к выбросам.

Чтобы получить медиану, мы сортируем все значения по возрастанию, а дальше берём то из значений, что стоит посередине. Это легко сделать, если число наблюдений нечётное. Если наш набор чисел чётный, мы берём два числа, которые наиболее близки к середине, и получаем их среднее арифметическое — оно и будет медианой.

🔍 Медиана — значение признака, которое делит упорядоченное множество наблюдений, то есть для половины наблюдений значение признака больше медианы, а для другой половины — меньше.

В нашем первом примере медиана равна 80. Для этого упорядочим все значения: 60 60 70 90 95 120 — и найдём среднее у двух, находящихся посередине. Достоинство медианы в том, что в нашем втором примере она будет равняться 90. Медиана тоже отреагировала на добавление выброса, но изменилась меньше. В отличие от среднего медиана устойчива к выбросам.

Теперь мы знаем три способа ответить на вопрос о том, какие значения встречаются чаще. Остаётся только понять, как эти способы соотносятся между собой.

Предположим, что все наши значения в выборке распределены нормально. В нормальном распределении среднее арифметическое, медиана и мода совпадают друг с другом. Они равны и не отличаются друг от друга. Тогда не важно, через какую меру мы будем выражать центральность нашего распределения.

1

Однако, если у нас появляются выбросы, значения мер центральности смещаются.

2

Из-за появления выбросов происходит смещение среднего. В таком случае уместно использовать медиану, а не среднее. Влиянию выбросов часто подвержены денежные показатели, например зарплаты, стоимость товаров и услуг.

Что касается нашей знакомой, то будет лучше всего, если в качестве ответа она назовёт медиану заработных плат в резюме, так как таким образом сможет избежать влияния на ответ нескольких резюме с большим размером ожидаемой заработной платы.

Дисперсия и стандартное отклонение

Для полноты картины нам не хватает понимания мер, с помощью которых измеряют величину разброса в данных. Нормальное распределение имеет центр и два хвоста. Мы знаем, как описать середину с помощью мер центральности и расстояние между крайними точками хвостов (просто минимум и максимум распределения), однако это не говорит нам ничего о форме распределения. Мы хотели бы знать, насколько много или мало наблюдений ближе к центру или к хвостам функции.

Если мы вернёмся к нашему примеру со знакомой и заработными платами, то знание формы распределения позволит нам, например, сказать, в каком диапазоне можно обсуждать с кандидатами размер будущей заработной платы.

Для этого мы можем использовать показатель меры разброса — стандартное отклонение, чтобы оценить распределение наблюдений. Благодаря ему мы сможем сказать, насколько в среднем отличаются зарплаты в резюме от среднего значения во всех резюме.

Чтобы посчитать его для наших эмпирических данных, нужно сначала посчитать дисперсию.

🔍 Дисперсия — мера средней степени различий наблюдений и среднего.

В этом примере мы не будем пользоваться дисперсией для интерпретации, отнеситесь к ней сейчас как промежуточному шагу. Но она пригодится нам в следующих параграфах, где мы поговорим о ней подробнее. Чтобы её посчитать, нужно:

  • посчитать разницу между значением каждого отдельного наблюдения и среднего арифметического;
  • возвести её в квадрат;
  • суммировать получившиеся числа;
  • вычесть из числа наблюдений единицу;
  • поделить сумму возведённых в квадрат разниц на число из предыдущего шага.

Возведение в квадрат необходимо, чтобы разницы не обнуляли друг друга: если для части наблюдений разница отрицательная (то есть они меньше среднего), для части больше (то есть они больше среднего), то при их складывании общая сумма будет равна нулю для теоретического распределения.

Если мы вернёмся к нашим данным по зарплатам (без выброса), то увидим, что выборочная дисперсия будет равна 557,5 тысячи в квадрате.

Чтобы получить выборочное стандартное отклонение из выборочной дисперсии, мы просто берём из неё квадратный корень. Это число мы можем легко интерпретировать. Для нашего примера с заработными платами оно означает, что в среднем заработная плата отклоняется на 23,6 тысячи от среднего значения.

🔍 Стандартное отклонение — показатель рассеивания значений случайной величины относительно её математического ожидания. Вычисляется оно как квадратный корень из дисперсии.

Это означает, что мы можем сказать нашему руководителю, что в среднем заработные платы отклоняются от средней на 24 (округлим) тысячи. Эти данные можно использовать, чтобы указать в резюме зарплатную вилку.

Доверительный интервал

Последний шаг, который можно сделать, — оценить доверительный интервал. Это ещё один, дополнительный шаг для того, чтобы ответить на вопрос, какие наблюдения встречаются чаще всего.

В примере с заработными платами мы сможем ответить на вопрос, в каком диапазоне находится большинство заработных плат. Мы сможем сказать нашему руководителю, в каком диапазоне 95% кандидатов просят заработную плату.

Важно: рассчитать доверительный интервал можно только для нормально распределённых данных. Как это сделать, мы скажем в параграфе 3.2, пока просто обратите внимание на этот аспект.

🔍 Доверительный интервал — интервал, в который попадают значения наблюдений с заданной надёжностью.

Когда мы оцениваем доверительный интервал, то отвечаем на вопрос, в какой диапазон значений попадает x наблюдений, где x — какой-то интересующий нас процент.
Обычно нас интересует промежуток, в который попадает 95% всех наблюдений. Реже — 99% (обычно в биомедицинских исследованиях).

Чтобы получить доверительный интервал, мы должны разделить стандартное отклонение на квадратный корень из числа наблюдений и умножить результат на коэффициент 1,96 для 95% и 2,575 для 99% Эти коэффициенты не случайны — они берутся из таблицы доверительного интервала.

Для нашего примера с зарплатами значение доверительного интервала для 95% наблюдений будет равно 17,2. Это значит, что 95% всех заработных плат в резюме в том случае, если распределение зарплат нормально, будут укладываться в диапазон 65,3 и 99,7 тысячи. Для 99% — 61,9 и 103,1 тысячи соответственно.

Если мы знаем минимальное и максимальное значение, среднее, медиану, моду и стандартное отклонение, то можем ответить на вопрос о том, какие значения встречаются чаще всего. Если мы уверены в форме распределения, то можем ответить и на вопрос о том, сколько наблюдений попадает в заданный промежуток точности.

Теперь мы понимаем, что такое распределение данных, и можем кратко охарактеризовать отдельные переменные, с которыми работаем. Самое время научиться основам Python и автоматизировать расчёт описательных статистик. А если проще — в следующем параграфе вы узнаете много нового о пассажирах «Титаника».

Отмечайте параграфы как прочитанные чтобы видеть свой прогресс обучения

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.
Вступить
Сообщить об ошибке
Предыдущий параграф2.1. Данные
Следующий параграф2.3. Переменные в программировании