В предыдущих параграфах этой главы мы рассмотрели случайные события и их основные свойства. Однако на практике часто нас интересуют не столько отдельные события, сколько числовые характеристики, связанные с ними.
Например, количество покупателей, посетивших магазин за день, или число очков, выпавших при броске игрального кубика. Такие величины, которые могут принимать различные значения с определёнными вероятностями, называются случайными величинами.
Они позволяют перейти от анализа отдельных событий к количественному описанию процессов и явлений — например, вместо «пользователь кликнул» мы начинаем говорить о среднем числе кликов, вариации, вероятности хотя бы одного клика. Это открывает дорогу к построению прогнозов, оценок рисков, оптимизации бизнес-процессов и разработке моделей для машинного обучения.
В этом параграфе мы изучим дискретные случайные величины и их основные характеристики. Разберёмся, как формально задаются такие величины, как описываются их распределения и как рассчитываются ключевые числовые характеристики, — всё это станет основой для дальнейшего анализа вероятностных моделей.
Определение дискретных случайных величин
Дискретные случайные величины — это величины, которые принимают конечное или счётное число значений. На практике такие величины часто представляют собой количество чего-либо, то есть часто их значениями являются целые числа. Например, количество купленных билетов, количество человек на пароме или количество звонков в колл-центр за день.
В задачах анализа данных и машинного обучения дискретные случайные величины встречаются постоянно. Например, можно предсказывать количество новых пользователей приложения за день или оценивать вероятность того, что товар не будет куплен или будет куплен, — это можно описать случайной величиной со значениями 0 и 1 (не купят / купят). Также во многих рекомендательных системах подсчитываются клики или просмотры — тоже счётные величины. Всё это — применения дискретных случайных величин в реальных задачах анализа данных.
Теперь дадим формальное определение.
Случайная величина на вероятностном пространстве — это измеримая функция , которая каждому элементарному исходу ставит в соответствие число .
Условие измеримости означает, что для любого промежутка на числовой прямой мы можем определить вероятность того, что случайная величина примет значение из этого множества. Не стоит пугаться, если это определение кажется сложным: на конкретных примерах всё станет понятно и интуитивно ясно.
Строго про измеримость относительно -алгебры
Говорят, что измерима относительно $\sigma$-алгебры , если для любого выполняется следующее условие:
Это означает, что мы можем найти , ведь -алгебра как раз состоит из событий, вероятности которых мы можем найти. На первый взгляд может показаться, что такое определение не полностью соотносится со словесным описанием выше, — можем ли мы найти, например, ?
Оказывается, что можем! Чтобы это показать, нам потребуется всего два шага:
- Для любых , мы можем расписать
Тут мы воспользовались тем, что замкнута относительно операции дополнения. А это следует прямо из определения -алгебры.
если .
- А теперь представим наше искомое множество в виде объединения:
Здесь мы воспользовались замкнутостью относительно счётных объединений.
На самом деле это рассуждение даёт нам формулу:
Дальше нас будет интересовать не столько вид этой формулы, сколько факт, что задают распределение , то есть вероятности того, что принадлежит любому промежутку.
Со случайными величинами, заданными на одном вероятностном пространстве, можно делать те же самые операции, что и с числами, — их можно складывать и вычитать, можно перемножать и делить, а также можно умножать на вещественные числа и рассматривать функции от них. Например, для любой случайной величины можно рассмотреть случайные величины и .
Несмотря на то, что в определении случайной величины фигурирует вероятностное пространство, чаще всего нам будет интересно только её распределение, то есть вероятности, с которыми она принимает разные значения.
Если этих значений конечное количество, их удобно записывать в виде таблицы распределения. Давайте посмотрим, как это выглядит на практике, — разберём два примера.
Пример №1
Предположим, что в упрощённой модели пользователи выставляют оценку продукту по целочисленной шкале от 1 до 6. Если дополнительных данных о пользователе и его предпочтениях у нас нет, можно считать каждую из шести оценок равновероятной. Пусть случайная величина — это наблюдаемый рейтинг:
|
x |
1 |
2 |
3 |
4 |
5 |
6 |
|
|
|
|
|
|
|
|
Функцию , которая по значению случайной величины возвращает вероятность , называют функцией вероятности. В данном примере она постоянна и равна для всех возможных значений рейтинга. Такая ситуация может возникать при отсутствии какой-либо априорной информации о склонностях пользователей.
Подобная дискретная модель встречается в задачах анализа данных и машинного обучения, когда для оценки продукта или услуги есть ограниченное целочисленное количество баллов (ранг) и до сбора реальной статистики мы допускаем равномерное распределение этих оценок. Далее, по мере изучения поведения пользователей, можно уточнять распределение, отталкиваясь от реальных данных.
Пример №2
Давайте вспомним комбинаторику и рассмотрим следующую ситуацию. Из непрозрачной вазы, в которой лежит красных и чёрных шара, случайно вынимают два шара. Пусть — количество красных шаров среди выбранных.
Элементарные исходы в такой ситуации описываются парами различных шаров. Всего есть таких исходов, и они все равновероятны. Посмотрим, какая получится таблица распределения случайной величины .
|
X |
0 |
1 |
2 |
|
|
|
|
|
Например, чтобы найти , мы выбираем из красных шаров и из чёрных шаров, а дальше делим получившееся количество вариантов на общее количество вариантов.

Заметим, что сумма чисел в нижней строке таблицы распределения всегда равна . Это даёт ещё один способ проверить правильность её заполнения.
Теперь давайте перейдём от простых примеров к описанию самых важных и часто встречающихся распределений.
Основные дискретные распределения
Биномиальное распределение
Рассмотрим подкидывания нечестной монетки с вероятностью выпадения орла . Распределение количества выпавших орлов в серии из подкидываний называется биномиальным и обозначается . Тут написать одну таблицу уже не получится, ведь мы рассматриваем целое семейство распределений. В таких случаях задают функцию вероятности формулой. Для случайной величины , распределённой биномиально с параметрами и , получается следующая формула:
где .
Биномиальное распределение описывает количество «успехов» в серии независимых испытаний. При этом «успехом» может являться и какое-то негативное событие, например неправильная классификация объекта.
Так как часто рассматривается только одно испытание, результатом которого является успех (1) или неудача (0), то для биномиального распределения с используется отдельное название — распределение Бернулли.
Распределение Пуассона
Одним из самых важных распределений является распределение Пуассона. Оно задаёт так называемый простейший поток, который используют для описания великого множества величин от количества пришедших за день в магазин покупателей до количества землетрясений за год.
Говорят, что случайная величина распределена по Пуассону с интенсивностью (пишут ), если функция вероятности задаётся следующей формулой:
Интенсивность потока имеет смысл среднего числа рассматриваемых событий за выбранный период.
Может показаться, что количество покупателей за день всегда меньше миллиона, и поэтому странно использовать для его описания случайную величину, которая принимает любое неотрицательное значение с некоторой положительной вероятностью. Однако на практике эти вероятности настолько малы, что ими пренебрегают.
Чтобы понять причину выбора именно распределения Пуассона для описания потока событий, рассмотрим такую ситуацию. Представим, что есть онлайн-платформа, на которую каждую минуту приходят примерно новых пользователей, и каждый из них с вероятностью оформляет платную подписку. Тогда количество оформлений подписки за одну минуту описывается биномиальным распределением .
А что, если нас интересует общее число платных подписок за час? Кажется естественным умножить пользователей в минуту на минут и сказать, что получаем биномиальное распределение . Однако на практике владелец платформы не будет с полной точностью отслеживать, сколько пользователей вообще зашло в систему, а будет фиксировать лишь количество подписавшихся.
Здесь и появляется распределение Пуассона: при больших (число зашедших пользователей) и малом (вероятность оформленной подписки) биномиальное распределение становится близко к , где .
А если мы знаем только интенсивность , то гораздо удобнее описать число платных подписок именно пуассоновским распределением. Использованное здесь утверждение строго описывается следующей теоремой.
Теорема (Пуассон)
Пусть между параметрами и биномиальных случайных величин есть такая зависимость, что при . Тогда для любого фиксированного справедливо следующее приближение:
при . В нашем примере интенсивность , то есть получается . Сравним распределения наглядно с помощью следующего графика.

Видим, что никакой заметной разницы нет.
Распределение Пуассона широко используется при анализе интенсивности событий — например, в системах мониторинга (количество запросов за секунду), в предсказании количества сбоев или отказов в системах, а также в маркетинговой аналитике (число покупок за час). Оно лежит в основе целого класса статистических моделей для данных, в которых искомая величина может принимать только неотрицательные целочисленные значения.
В частности, в машинном обучении и статистике существует модель Poisson regression (пуассоновская регрессия). Её ключевая идея — предположить, что для объекта с признаками ожидаемое значение целевой переменной , которая чаще всего описывает количество чего-нибудь, задаётся функцией вида:
то есть
Таким образом, целевая переменная при заданных значениях признаков считается распределённым по Пуассону с параметром . В задаче обучения () подбираются так, чтобы максимизировать правдоподобие наблюдаемых данных (или минимизировать соответствующую функцию потерь). Эта модель оказывается особенно полезной, когда мы пытаемся прогнозировать количество кликов, просмотров, обращений, сбоев и прочих счётных характеристик по набору объясняющих факторов.
Геометрическое распределение
И вот ещё один важный пример дискретного распределения. Представим, что у нас снова происходит некоторая серия независимых испытаний с вероятностью успеха , но теперь вместо количества успехов нам интересно — количество неуспешных испытаний до первого успеха. Давайте найдём функцию распределения такой случайной величины.
— это вероятность сразу же получить успех. — это вероятность в первом испытании получить неудачу, а во втором — успех. То есть . Аналогичные рассуждения показывают, что:
Проводя такие рассуждения, удобно держать в уме следующее дерево вариантов:

Такое распределение называется геометрическим и обозначается . Обратите внимание, что в некоторых источниках принято считать количество испытаний, включая последний успех, то есть все значения на 1 больше, чем у нас.
Применение геометрического распределения может встречаться в задачах анализа данных, где нас интересует, сколько раз подряд мы увидим некий неудачный исход, прежде чем случится первый успех. К примеру, в моделировании того, сколько пользователей подряд не совершат целевого действия (покупки, клика), прежде чем случится первый положительный результат.
Функция распределения
Ещё одним удобным инструментом для работы с распределением любой случайной величины является функция распределения . Она по числу выдаёт вероятность того, что не больше .
Широкое применение этой функции обусловлено тем, что с её помощью удобно выражать вероятности принадлежности величины произвольному промежутку. А такие вероятности постоянно приходится находить на практике.
Для примера с выбором шаров из вазы получается следующий график функции распределения.

Отметим отдельно, что, в отличие от функции вероятности, функцию распределения рассматривают для произвольных случайных величин.
В этом параграфе вы познакомились с ключевыми понятиями, связанными с дискретными случайными величинами, а также научились работать с их распределениями. Это создаёт фундамент для изучения более сложных вероятностных моделей и алгоритмов, которые мы рассмотрим в дальнейших главах хендбука.
Многие процессы можно выразить через количество чего-либо: будь то число клиентов, очков или билетов, — для этого подойдут уже знакомые вам дискретные модели. Однако в жизни встречается немало величин, которые не считаются, а измеряются. Например, расстояние до цели, уровень шума или температура.
Такие характеристики требуют более гибкого подхода к описанию вероятностей. Именно этим и занимаются модели непрерывных случайных величин, с которых мы начнём следующий параграф.