6.5 Непрерывные случайные величины

В предыдущем параграфе вы познакомились с дискретными случайными величинами — величинами, которые принимают конечное или счётное множество значений. Научились описывать их распределения, считать вероятности, а также познакомились с примерами таких распределений: биномиальным, геометрическим и распределением Пуассона.

В этом параграфе мы рассмотрим непрерывные случайные величины — такие, которые могут принимать бесконечно много значений из некоторого интервала. Их важнейшее свойство состоит в том, что вероятность получить любое конкретное значение равна нулю, и вместо перечисления вероятностей мы используем функции плотности.

Непрерывные случайные величины описывают характеристики реального мира, значения которых измеряются, а не считаются — например, температуру воздуха, уровень шума, расстояние до объекта, время ожидания автобуса или уровень сахара в крови.

Разобравшись с такими величинами, вы сможете уверенно использовать их в регрессионных моделях, анализе временных рядов, обработке и интерпретации данных, полученных с физических или медицинских приборов.

Непрерывные величины и плотность вероятности

На самом деле мы уже встречали непрерывные случайные величины. Рассмотренная ранее модель геометрической вероятности для отрезка задаёт распределение, которое мы называем равномерным .

Давайте посмотрим на него с новой, более общей, точки зрения. Рассмотрим случайную величину и распишем вероятность события следующим образом:

Получаем, что у нас есть постоянная функция и вероятность того, что значение попадёт в , равна интегралу от этой функции по . Чтобы не ограничиваться , плотность вероятности задают следующей формулой:

Формально для произвольной случайной величины плотность вероятности — это просто функция, такая что для любого (измеримого) множества выполняется:

Непрерывные случайные величины определяют как случайные величины, у которых есть плотность вероятности. Это согласовано со свойством выше, — если у есть плотность вероятности, то:

Давайте посмотрим на примеры. Попробуем построить распределение случайной величины со значениями на , у которой плотность будет линейной. То есть:

Так как всегда , плотность должна удовлетворять следующему условию:

То есть в нашей плотности . Мы не будем это обосновывать, но для любой неотрицательной функции , для которой выполняется условие ниже, на самом деле существует вероятностное пространство и случайная величина на нём с такой плотностью:

Это означает, что любой желающий может построить сколько угодно непрерывных распределений.

Но главный вопрос — насколько они полезны и для каких прикладных задач применимы. Поэтому давайте рассмотрим их подробнее и начнём с экспоненциального распределения.

Экспоненциальное распределение

Раньше мы уже обсуждали, что распределение Пуассона описывает количество событий в простейшем потоке. Теперь, познакомившись с непрерывными распределениями, мы готовы описать, как распределено — время между любыми последовательными событиями потока. Например, между приездом двух машин на заправку или между двумя звонками в колл-центр.

Эту случайную величину описывают экспоненциальным распределением, у которого следующая плотность вероятности:

Это распределение обозначается . Таким образом, в простейшем потоке интенсивности среднее время между событиями описывается , а количество событий за единичный промежуток времени описывается .

Довольно естественно спросить, сколько в среднем проходит времени между событиями в простейшем потоке. Чтобы ответить на этот и аналогичные вопросы о средних значениях других случайных величин, ввели понятие математического ожидания.

Математическое ожидание

Математическим ожиданием (или коротко — матожиданием) непрерывной случайной величины (или, точнее, её распределения) называется следующее число:

Его можно интерпретировать как среднее значение , где для усреднения используется плотность вероятности.

Давайте посмотрим, какое получится среднее время между событиями в простейшем потоке. Пусть , тогда по формуле интегрирования по частям имеем:

То есть абсолютно логично, что -событиям за единицу времени соответствует среднее время между событиями .

Определение, данное выше, пригодно только для непрерывных случайных величин. Для дискретной случайной величины матожидание определяется похоже:

Здесь вместо интеграла стоит сумма, которая всегда конечна или счётна, а вместо плотности распределения стоит функция вероятности.

Давайте посмотрим, сколько в среднем раз подряд выпадает решка при подкидывании нечестной монетки. То есть найдём для . Посчитать эту сумму можно несколькими способами.

Чтобы не привлекать слишком много математического анализа, давайте выразим её через саму себя.

откуда находим . В преобразованиях выше мы воспользовались суммой геометрической прогрессии и сделали замену .

Основным свойством матожидания является его линейность. Это означает, что для любых случайных величин и и любых чисел и :

Доказательство для дискретного случая

Здесь мы в начале разбили событие на более мелкие, а в конце, наоборот, собрали события и из частей.

Кроме матожидания самой случайной величины , часто рассматривают матожидания , где — некоторая функция. Мы уже говорили, что — это новая случайная величина и — это её математическое ожидание. Важным и очень полезным фактом является то, что для нахождения достаточно знать только распределение . Для непрерывной случайной величины можно использовать следующую формулу:

В дискретном случае формула имеет следующий вид:

Иногда функция не просто задаёт преобразование данных, а описывает некоторую важную характеристику самой случайной величины. Давайте посмотрим, как это бывает, на примере следующего важного понятия — дисперсии.

Матожидание не всегда существует. Распределение Коши.

На самом деле не у всякой случайной величины есть матожидание. Это связано с тем, что интеграл/сумма в определении матожидания могут расходиться. Стандартным примером здесь является распределение Коши , которое имеет плотность

где — центр распределения, который может принимать любьое значение, а — параметр масштаба.

Несмотря на то, что такое распределение имеет центр симмутрии — точку , у него нет матожидания, так как интеграл

расходится.

Дисперсия и среднеквадратичное отклонение

Кроме среднего значения случайной величины часто интересно, насколько сильно и насколько часто она отклоняется от своего среднего значения. Именно это измеряет дисперсия:

То есть это матожидание квадрата отклонения от матожидания. Обратите внимание, что матожидание в правой части берётся от квадрата выражения в скобках.

Для дисперсии есть следующая формула, которая часто оказывается удобной.

Здесь мы воспользовались только линейностью матожидания. Давайте посмотрим, как эта формула применяется на примере.

Пусть — количество выпавших очков на игральному кубике. Тогда:

Видим, что среднее количество выпавших очков равно , что довольно естественно. А как проинтерпретировать полученное значение дисперсии? Если бы мы сравнивали два разных распределения, то после сравнения значений их дисперсий можно было бы сказать, в каком из них значения чаще лежат ближе к среднему значению, а в каком из них — дальше от него.

Однако для одного распределения дисперсия сама по себе не очень информативна. Это вызвано отчасти тем, что из-за присутствия квадрата в формуле дисперсия измеряется не в тех же величинах, что сама случайная величина . В примере выше очков в квадрате.

Поэтому вместо дисперсии часто рассматривают среднеквадратичное отклонение:

Оно измеряется в тех же величинах, что и .

И вот теперь мы готовы рассказать про главного героя этого параграфа и, возможно, всего урока.

Нормальное распределение

Хотя формула плотности нормального распределения может показаться довольно причудливой и сложной, это распределение на практике встречается чаще всего. Потому что сумма большого числа случайных величин имеет примерно нормальное распределение.

Строгую формулировку этого утверждения мы дадим в параграфе про предельные теоремы, а сейчас давайте опишем нормальное распределение.

Говорят, что случайная величина распределена нормально с матожиданием и дисперсией , если её плотность имеет следующий вид:

Это распределение обозначается . Давайте на его примере посмотрим, какой смысл имеет среднеквадратичное отклонение .

image

То есть вероятность, что нормальная случайная величина отклонится от матожидания не больше чем на , примерно равна , на , а не более — уже больше . Этот статистический факт называют ещё «правило трёх сигм», он позволяет в уме выполнять прикидки в математической статистике.

Для нормального распределения уже нетривиально проверить даже, что интеграл по всей числовой прямой равен 1, то есть что указанная плотность действительно задаёт распределение.

Коротко про вычисление интегралов с .

При вычислении интегралов с плотностью нормального распределения стандартным первым шагом является замена . После неё остаётся только с некоторой константой перед ней.

Для начала найдём интеграл от этой функции по всей числовой прямой. Чтобы это сделать, обозначим его как , перемножим два таких интеграла по разным переменным и , а затем перейдём к полярным координатам.

То есть , и становится понятно, откуда появился такой коэффициент в плотности нормального распределения.

Упражнение: с помощью интегрирования по частям и замен переменной найдите следующие интегралы:

и проверьте, что математическое ожидание и дисперсия действительно равны и .

Ответы к упражнению

С помощью нормального распределения описывается великое множество абсолютно разных величин. От роста взрослых людей и артериального давления до количества осадков и ошибок предсказаний регрессионных моделей. Нормально распределённые характеристики постоянно встречаются в датасетах.

Кроме этого, нормальное распределение встречается не только в данных, но и в самих моделях. Например, веса в нейронных сетях инициализируют малыми значениями либо из равномерного, либо из нормального распределения. Вариационные автоэнкодеры — одни из лучших способов генерации изображений — пытаются свести описание изображения к набору нормально распределённых характеристик. Причём делают это таким образом, что любые другие значения этих характеристик будут давать новые разумные изображения.

Рассмотренные выше примеры — это только вершина айсберга. Но для описания всех применений нормального распределения пришлось бы выделить отдельный параграф.

Чтобы работать с непрерывными распределениями на практике, особенно при анализе данных и прогнозировании, нам нужно уметь находить не только плотности, но и вероятности попадания случайной величины в заданный интервал. Для этого удобно использовать функцию распределения, которую мы уже рассматривали ранее для дискретных случайных величин.

Функция распределения непрерывных случайных величин

Для непрерывных величин функция распределения — это гораздо более важный объект, чем для дискретных. Потому что для проведения любых статистических тестов необходимо вычислять значения функции распределения и обратной к ней функции.

Для нормального и нескольких других распределений раньше использовали большие таблицы этих значений. Сейчас достаточно двух строчек кода, чтобы найти их с гораздо большей точностью.

Ещё одна особенность непрерывных случайных величин — это наличие следующей простой связи между функцией распределения и плотностью распределения:

Эта связь на самом деле не что иное, как формула дифференцирования интеграла по верхнему пределу.

На практике часто возникает необходимость изменить распределение случайной величины. Это может потребоваться, чтобы сделать данные более удобными для анализа, привести их к нормальному виду или, например, устранить смещения и асимметрии. Такие преобразования особенно актуальны в задачах, где нужно предсказывать одну величину по другим, — и именно с этим мы сейчас разберёмся.

Трансформации случайных величин

Давайте представим, что мы хотим предсказывать цены на недвижимость по уровню преступности, доле жилой застройки, уровню загрязнения воздуха и другим характеристикам .

Пускай мы построили гистограммы, чтобы прикинуть, какие распределения описывают каждую из них, и получили совсем разные результаты. Например, цена на недвижимость распределена нормально, уровень преступности — экспоненциально, а доля жилой застройки — равномерно.

Кажется, что самые простые модели, которые будут пытаться выразить цену в виде линейной комбинации остальных характеристик, тут неприменимы. Ведь вряд ли связь нормально распределённого с экспоненциальным распределением линейна. Однако данные можно предобработать — заменить каждую характеристику на так, чтобы такая связь могла быть линейной. Обсудим, как это делать.

Рассмотрим непрерывную случайную величину , монотонную функцию и попробуем найти плотность распределения . Для этого распишем:

Получившееся равенство проще запомнить, если написать его с помощью дифференциалов:

Для того чтобы превратить распределение в какое-то другое , можно взять . Но на практике часто используют более простые , которые выполняют примерно такое же преобразование.

Мы увидели, что с помощью преобразований можно привести случайную величину к более удобному виду — например, чтобы использовать простые линейные модели или сравнивать данные с теоретическим распределением.

Но даже такие преобразования не всегда позволяют описать данные одной функцией плотности: иногда в выборке скрываются разные типы наблюдений, которые подчиняются различным законам. В таких случаях используют смесь распределений — подход, который объединяет несколько распределений в единую модель.

Смеси распределений

На практике часто оказывается, что распределение некоторой характеристики не получается описать ни одним из рассмотренных распределений. Например, рассмотрим датасет звонков в кол-центр, в котором собрана статистика звонков по дням.

Давайте посмотрим, как распределено количество входящих звонков.

image

Такой вид гистограммы может свидетельствовать о разнородности объектов — объекты (то есть дни), скорее всего, можно разделить на некоторые группы так, что внутри каждой группы значения выбранной характеристики будут описываться «чистыми» распределениями.

С интуитивной точки зрения, смесь распределений возникает, когда данные формируются под действием нескольких различных причин. Например, количество звонков в колл-центр может по-разному распределяться в зависимости от дня недели: в будние дни много обращений, в выходные — значительно меньше.

Кроме того, бывают исключительные дни, когда резко возрастает число звонков — например, из-за технической аварии, рекламной кампании или неполадок в системе. Такие выбросы тоже можно считать результатом «включения» другого распределения с высокой интенсивностью. Таким образом, каждое наблюдение — это результат работы одного из нескольких сценариев, и модель смеси позволяет это учесть.

В примере выше подавляющее большинство дней с количеством звонков меньше 80 приходится на один и тот же день недели. То есть данные логично описать как «смесь» двух распределений Пуассона (о них мы говорили в предыдущем параграфе) с разными интенсивностями в пропорции — шесть обычных будних дней и один более «спокойный» выходной.

Давайте опишем это формально. Пусть у нас есть случайные величины и вероятности выбора каждой из них , причём . Чтобы получить значение смеси этих случайных величин , мы случайно с вероятностями выбираем одну из и берём её значение.

Несложно проверить, что плотность распределения можно найти как:

image

На рисунке выше показано, как выглядит плотность смеси трёх нормальных распределений. Ещё раз видим, что количество «горбов» в общем и целом совпадает с количеством «чистых» распределений в смеси.

Напоследок стоит сказать, что в функциональном анализе есть понятие обобщённых функций, которое позволяет единообразно описывать как непрерывные, так и дискретные случайные величины. Но оно, к сожалению, далеко выходит за рамки нашего хендбука.


В этом параграфе мы изучили непрерывные случайные величины — математические модели для измеримых характеристик, таких как время, расстояние и температура. Мы узнали, как с помощью плотности вероятности вычислять вероятности, как находить математическое ожидание, дисперсию и другие важные числовые характеристики.

Также мы рассмотрели ключевые непрерывные распределения, такие как равномерное, экспоненциальное и нормальное, и научились работать с функцией распределения, выполнять преобразования случайных величин и описывать сложные явления через смеси распределений.

Эти идеи лежат в основе современных статистических моделей и алгоритмов машинного обучения. Умение работать с непрерывными величинами позволяет не просто анализировать данные, а по-настоящему понимать закономерности, которые за ними скрываются, — будь то поведение пользователей, параметры физических процессов или структура шума в изображениях.



Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E
Предыдущий параграф6.4. Дискретные случайные величины
Следующий параграф6.6. Совместное распределение. Ковариация и коэффициент корреляции