До этого мы рассматривали только одномерные распределения вероятностей на числовой прямой. Однако ничто не мешает в качестве носителя $\Omega$ выбрать пространство более высокой размерности. И снова все представляющие практический интерес распределения делятся на два класса: дискретные и непрерывные.
Дискретные многомерные распределения
Пусть, например, эксперимент состоит из двух фаз: сначала подбрасывается монетка, а затем кубик. Тогда вероятностная масса сосредоточена в точках $(i, j)$, $i=0, 1$, $1\leqslant j \leqslant 6$. Вероятность каждого исхода можно записать в виде таблицы
«Неудача» | «Успех» | |
---|---|---|
$\frac 1{12}$ | $\frac 1{12}$ | |
$\frac 1{12}$ | $\frac 1{12}$ | |
$\frac 1{12}$ | $\frac 1{12}$ | |
$\frac 1{12}$ | $\frac 1{12}$ | |
$\frac 1{12}$ | $\frac 1{12}$ | |
$\frac 1{12}$ | $\frac 1{12}$ |
Результат подбрасывания монеты моделирует бернуллиевская случайная величина $\xi$, а результат броска кубика — равномерно распределённая на множестве ${1,2,3,4,5,6}$ случайная величина $\eta$. Содержимое таблицы вероятностей каждого исхода можно также представить матрицей
$$ P = \overbrace{\left.\begin{pmatrix} \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} \\ \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} \end{pmatrix}\right\}}^\eta \xi, $$
которая задаёт совместное распределение случайных величин $\xi$ и $\eta$: $\mathbb P(\xi = i, \eta = j) = P_{ij}$. Пару случайных величин $(\xi, \eta)$ в таком контексте называют также случайным вектором.
Элементы матрицы $P$ не обязаны совпадать; например, монета может быть несимметричной с вероятносью «успеха» $p$, и тогда таблица вероятностей примет вид
«Неудача» | «Успех» | |
---|---|---|
$\frac {1-p}{12}$ | $\frac p{12}$ | |
$\frac {1-p}{12}$ | $\frac p{12}$ | |
$\frac {1-p}{12}$ | $\frac p{12}$ | |
$\frac {1-p}{12}$ | $\frac p{12}$ | |
$\frac {1-p}{12}$ | $\frac p{12}$ | |
$\frac {1-p}{12}$ | $\frac p{12}$ |
Контрольный вопрос. Какая таблица вероятностей соответствует эксперименту, в котором результат подбрасывания монеты «портит» кубик следующим образом: на нём могут равновероятно выпасть только значения $1$ или $2$ в случае «неудачи» и $4$, $5$ или $6$ в случае «успеха»?
Ответ
«Неудача» | «Успех» | |
---|---|---|
$\frac 1{4}$ | $0$ | |
$\frac 1{4}$ | $0$ | |
$0$ | $0$ | |
$0$ | $\frac 1{6}$ | |
$0$ | $\frac 1{6}$ | |
$0$ | $\frac 1{6}$ |
В общем случае дискретное $n$-мерное распределение задаётся многомерным тензором из неотрицательных чисел $p_{i_1\ldots i_n}$, суммирующихся в единицу. Такие тензоры используются для задания совместного распределения вероятностей случайного вектора $(\xi_1, \ldots, \xi_n)$ из дискретных случайных величин:
$$ \mathbb P(\xi_1 = i_1, \xi_2 = i_2, \ldots, \xi_n = i_n) = p_{i_1i_2\ldots i_n}. $$
Непрерывные многомерные распределения
Непрерывное распределение на плоскости задаётся плотностью $p(x, y) \geqslant 0$; при этом вероятность события $A\subset \mathbb R^2$ равна
при условии, что этот интеграл имеет смысл. Простейший пример — равномерное распределение на единичном квадрате $[0,1]^2$: его плотность равна $\mathbb I_{[0, 1]^2}(x, y)$, и
$$ \mathbb P(A) = \iint \limits_{A} dxdy = \vert A\vert \text{ для } A\subset [0,1]^2. $$
Именно так на единичном квадрате формально определяется геометрическая вероятность.
Плотность непрерывного распределения в $\mathbb R^n$ является неотрицательной функцией вида $p(x_1, \ldots, x_n)$ со свойством
Говорят, что случайный вектор $\boldsymbol \xi = (\xi_1, \ldots, \xi_n)$ имеет совместную плотность $p_{\boldsymbol \xi}(x_1, \ldots, x_n)$, если
для всех достаточно «хороших» (измеримых по Лебегу) множеств $A \subset \mathbb R^n$.
Маргинальные распределения
Из совместного распределения можно получить распределение в пространстве меньшей размерности путём суммирования или интегрирования по части переменных. Например, если матрица $P_{ij}$ задаёт совместное распределение случайных величин $\xi$ и $\eta$, $P_{ij} = \mathbb P(\xi = i, \eta = j)$, то каждый из наборов чисел
$$ q_i = \sum\limits_j P_{ij}, \quad r_j = \sum\limits_i P_{ij}, $$
неотрицателен и суммируется в единицу:
$$ \sum\limits_i q_i = \sum\limits_j r_j = \sum\limits_{i, j} P_{ij} = 1. $$
Таким образом, числа ${q_i}$ и ${r_j}$ задают некоторые распределения вероятностей, называемые маргинальными.
Упражнение. Найдите маргинальные распределения, если совместное распределение задано матрицей
$$ \text{а) } \begin{pmatrix} \frac {1-p}6 & \frac {1-p}6 & \frac {1-p}6 & \frac {1-p}6 & \frac {1-p}6 & \frac {1-p}6 \\ \frac p6 & \frac p6 & \frac p6 & \frac p6 & \frac p6 & \frac p6 \end{pmatrix};\quad $$
$$ \text{б) } \begin{pmatrix} \frac 1{4} & \frac 14 & 0 & 0 & 0 & 0 \\ \frac 16& \frac 16& \frac 16 & 0 & 0 & 0 \\ \end{pmatrix}. $$
Ответ
$$ \text{а) } \Big(\frac 16, \frac 16,\frac 16,\frac 16,\frac 16,\frac 16 \Big);\quad \text{б) } \Big(\frac 5{12}, \frac 5{12},\frac 16,0,0,0 \Big). $$
Заметим, что в п. а) после маргинализации получились в точности распределения веротяностей компонент случайного вектора $(\xi, \eta)$ из приведённого выше примера. Это следствие независимости случайных величин $\xi$ и $\eta$.
В непрерывном случае ситуация похожая: если случайный вектор имеет совместную плотность $p(x,y)$, то функции
являются плотностями маргинальных распределений.
Для $n$-мерных распределений можно находить маргинальные распределения, суммируя или интегрируя по любым наборам переменных с индексами $1\leqslant i_1 < i_2 < \ldots < i_k \leqslant n$; в результате получится маргинальное распределение по оставшимся $n-k$ переменным.
Независимость случайных величин
Случайные величины $\xi$ и $\eta$ называются независимыми, если совместное распределение случайного вектора $(\xi, \eta)$ распадается на произведение одномерных. Точнее говоря,
- дискретные случайные величины $\xi$ и $\eta$ независимы, если $\mathbb P(\xi = x_i, \eta = y_j) = \mathbb P(\xi = x_i)\mathbb P(\eta = y_j)$ для всех возможных $x_i$ и $y_j$;
- непрерывные случайные величины $\xi$ и $\eta$ независимы, если их совместная плотность $p(x, y) = p_\xi(x)p_\eta(y)$.
Если случайные величины $\xi$ и $\eta$ независимы, то распределение каждой из них является маргинальным распределением их совместного распределения, поскольку
$$ \sum\limits_i\mathbb P(\xi = x_i)\mathbb P(\eta = y_j) = \mathbb P(\eta = y_j), $$
$$ \sum\limits_j\mathbb P(\xi = x_i)\mathbb P(\eta = y_j) = \mathbb P(\xi = x_i), $$
и
$$ \int\limits_{-\infty}^{+\infty} p_\xi(x)p_\eta(y) dx = p_\eta(y), $$
$$ \int\limits_{-\infty}^{+\infty} p_\xi(x)p_\eta(y) dy = p_\xi(x). $$
Случайные величины $(\xi_1, \ldots, \xi_n)$ независимы в совокупности, если их совместное распределение (совместная плотность) распадается в произведение одномерных распределений (плотностей).
Пример. Рассмотрим $n$ гауссовских случайных величин $\xi_k \sim \mathcal N(\mu_k, \sigma_k^2)$ с плотностями
$$ p_{\xi_k}(x_k) = \frac 1{\sqrt{2\pi}\sigma_k} e^{-\frac{(x_k - \mu_k)^2}{2\sigma_k^2}}. $$
Совместную плотность случайного вектора $\boldsymbol \xi = (\xi_1, \ldots, \xi_n)$ определим как произведение плотностей его компонент:
$$ p_{\boldsymbol \xi}(x_1, \ldots, x_n) = p_{\xi_1}(x_1)\ldots p_{\xi_n}(x_n) = \frac 1{(2\pi)^{n/2}\sigma_1\ldots\sigma_n} e^{-\frac 12\sum\limits_{k=1}^n \frac{(x_k - \mu_k)^2}{\sigma_k^2}}. $$
Случайный вектор $\boldsymbol \xi$ с такой плотностью имеет многомерное нормальное (гауссовское) распределение c независимыми в совокупности компонентами. Любое маргинальное распределение случайного вектора $\boldsymbol \xi$ обладает плотностью того же вида, и поэтому также является гауссовским.
Характеристики случайных векторов
Математическое ожидение случайного вектора $\boldsymbol \xi = (\xi_1, \ldots, \xi_n)$ является вектором той же размерности и вычисляется покомпонентно:
$$ \mathbb E \boldsymbol \xi = (\mathbb E \xi_1, \ldots, \mathbb E\xi_n). $$
Каждая компонента случайного вектора — это обычная случайная величина, и её среднее можно вычислить стандартными методами:
- $\mathbb E\xi_k = \sum\limits_{i_1, \ldots, i_n} i_k p_{i_1\ldots i_n}$ в дискретном случае;
- $\mathbb E\xi_k = \boldsymbol\int\limits_{\mathbb R^n} x_k p(x_1, \ldots, x_n),dx_1\ldots dx_n$ в непрерывном случае.
Математическое ожидание перестановочно с линейным преобразованием случайного вектора: $\mathbb E(\boldsymbol{C\xi}) = \boldsymbol C \mathbb E \boldsymbol \xi$, где $\boldsymbol C$ — фиксированная матрица.
Вместо дисперсии у случайного вектора $\boldsymbol \xi = (\xi_1, \ldots, \xi_n)$ есть матрица ковариаций:
$$ \mathbb V \boldsymbol \xi = \mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi) = \mathbb E\big(\boldsymbol \xi - \mathbb E\boldsymbol \xi\big)\big(\boldsymbol \xi - \mathbb E\boldsymbol \xi\big)^T. $$
Матрица ковариаций симметрична и состоит из попарных ковариаций компонент случайного вектора $\boldsymbol \xi$:
$$ \mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi)_{ij} = \mathrm{cov}(\xi_i, \xi_j). $$
Упражнение. Докажите, что ковариационная матрица любого случайного вектора неотрицательно определена.
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
$$ \boldsymbol x^T\mathrm{cov}(\boldsymbol\xi, \boldsymbol\xi)\boldsymbol x = \mathbb{E}\boldsymbol x^T(\boldsymbol\xi - \mathbb{E}\boldsymbol\xi)(\boldsymbol\xi - \mathbb{E}\boldsymbol\xi)^T\boldsymbol x = $$
$$ =\mathbb{E}\left(\boldsymbol x^T\boldsymbol\xi - \mathbb{E}(\boldsymbol x^T\boldsymbol\xi)\right)\cdot\left(\boldsymbol x^T\boldsymbol\xi - \mathbb{E}(\boldsymbol x^T\boldsymbol\xi)\right)^T = \mathrm{cov}\left(\boldsymbol x^T\boldsymbol\xi, \boldsymbol x^T\boldsymbol\xi\right)=\mathbb{V}(\boldsymbol x^T\boldsymbol\xi)\geqslant 0. $$
Если случайные величины $\xi_1, \ldots, \xi_n$ независимы в совокупности, то $\mathrm{cov}(\xi_i, \xi_j) = 0$, и ковариационая матрица случайного вектора $\boldsymbol \xi = (\xi_1, \ldots, \xi_n)$ диагональна:
Например, матрица ковариации гауссовского случайного вектора $\boldsymbol \xi$ с плотностью
$$ p_{\boldsymbol \xi}(x_1, \ldots, x_n) = \frac 1{(2\pi)^{n/2}\sigma_1\ldots\sigma_n} e^{-\frac 12\sum\limits_{k=1}^n \frac{(x_k - \mu_k)^2}{\sigma_k^2}} = \prod\limits_{k=1}^n \frac 1{\sqrt{2\pi}\sigma_k} e^{-\frac{(x_k - \mu_k)^2}{2\sigma_k^2}} $$
Аналогом ковариации в многомерном случае служит матрица ковариаций между случайными векторами $\boldsymbol \xi = (\xi_1, \ldots, \xi_n)$ и $\boldsymbol \eta = (\eta_1, \ldots, \eta_n)$:
$$ \mathrm{cov}(\boldsymbol \xi, \boldsymbol \eta) = \mathbb E\big(\boldsymbol \xi - \mathbb E\boldsymbol \xi\big)\big(\boldsymbol \eta - \mathbb E\boldsymbol \eta\big)^T. $$
Матрицу ковариаций можно также вычислить по формуле $$ \mathrm{cov}(\boldsymbol \xi, \boldsymbol \eta) = \mathbb E\boldsymbol \xi\boldsymbol \eta^T - \mathbb E\boldsymbol \xi(\mathbb E\boldsymbol \eta)^T. $$
Упражнение. Пусть случайный вектор $\boldsymbol \eta$ получен из случайного вектора $\boldsymbol \xi$ линейным преобразованием: $\boldsymbol \eta = \boldsymbol {C\xi}$. Как связаны между собой их ковариационные матрицы?
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
$$ \mathrm{cov}(\boldsymbol{C\xi}, \boldsymbol{C\xi}) = \mathbb{E}\big(\boldsymbol{C\xi} - \mathbb{E}(\boldsymbol{C\xi})\big)\big(\boldsymbol{C\xi} - \mathbb{E}(\boldsymbol{C\xi})\big)^T = $$
$$ =\mathbb{E}\boldsymbol C(\boldsymbol \xi - \mathbb{E}\boldsymbol \xi)(\boldsymbol \xi - \mathbb{E}\boldsymbol \xi)^T\boldsymbol C^T = \boldsymbol C\mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi)\boldsymbol C^T. $$
Преобразования плотностей случайных векторов
Нередко приходится иметь дело не с самими случайными векторами, а с функциями от них. Но как найти плотность случайного вектора $\boldsymbol \eta = g(\boldsymbol \xi)$, зная плотность $p_{\boldsymbol \xi}(\boldsymbol x)$?
Предположим, что $g \colon \mathbb R^n \to \mathbb R^n$ — гладкая обратимая функция. Тогда для измеримого $A\subset \mathbb R^n$ имеем
$$ \mathbb{P} \big(\boldsymbol \eta\in A\big) = \mathbb{P}\big(g(\boldsymbol \xi)\in A\big) = \mathbb{P}\big(\boldsymbol \xi\in g^{-1}(A)\big) = \boldsymbol\int\limits_{g^{-1}(A)}p_{\boldsymbol \xi}(x)d\boldsymbol x. $$
Чтобы перейти к интегралу по $A$, сделаем замену переменной $\boldsymbol x = g^{-1}(\boldsymbol z)$. По формуле замены координат в кратном интеграле получаем
$$ \int\limits_{g^{-1}(A)}p_{\boldsymbol \xi}(\boldsymbol x)d\boldsymbol x = \int\limits_{A}p_{\boldsymbol \xi}(g^{-1}(\boldsymbol z))\vert \det J(\boldsymbol z) \vert d\boldsymbol z, $$
где $\det J(\boldsymbol z)$ – якобиан преобразования $g^{-1}(\boldsymbol z)$, т.е. определитель матрицы Якоби $J(\boldsymbol z) = \frac{\partial g^{-1}(\boldsymbol z)}{\partial \boldsymbol z}$. Таким образом,
$$ p_{\boldsymbol \eta}(\boldsymbol z) = p_{\boldsymbol \xi}(g^{-1}(\boldsymbol z))\vert \det J(\boldsymbol z)\vert. $$
Упражнение. Пусть $\boldsymbol \xi$ – случайный вектор с плотностью $p_{\boldsymbol \xi}(\boldsymbol x)$. Какова плотность случайного вектора $\boldsymbol\eta = \boldsymbol\mu + \boldsymbol{C\xi}$, где $\boldsymbol \mu$ – постоянный вектор, а $\boldsymbol C$ – постоянная обратимая матрица?
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
В данном случае $g(\boldsymbol x) = \boldsymbol\mu + \boldsymbol{Cx}$, $g^{-1}(\boldsymbol z) = \boldsymbol C^{-1}(\boldsymbol z - \boldsymbol\mu)$. Матрица Якоби преобразования $g^{-1}$ равна $\boldsymbol C^{-1}$. Следовательно,
$$ p_{\boldsymbol \eta}(\boldsymbol z) = \frac1{\vert\det(\boldsymbol C)\vert}p_{\boldsymbol \xi}(\boldsymbol C^{-1}(\boldsymbol z - \boldsymbol\mu)). $$
Распределение суммы независимых случайных величин
В дискретном случае найти распределение суммы двух независимых случайных величин несложно. В самом деле,
$$ \mathbb{P}(\xi + \eta = k) = \sum_{i}\mathbb{P}(\xi + \eta = k, \eta = i)= \sum_{i}\mathbb{P}(\xi = k - i, \eta = i). $$
В силу независимости случайных величин $\xi$ и $\eta$ последняя сумма равна
$$ \sum_{i}\mathbb{P}(\xi = k-i)\mathbb{P}(\eta = i). $$
Полученная формула называется формулой свёртки.
Пусть теперь $\xi_1$ и $\xi_2$ – независимые непрерывные случайные величины с плотностями $p_{\xi_1}(x)$ и $p_{\xi_2}(x)$ соответственно. Сам собой напрашивается аналог формулы свёртки с плотностями вместо вероятностей, но чтобы достаточно строго вывести его и не запутаться, мы немного схитрим. А именно, мы рассмотрим случайный вектор $\boldsymbol\xi = (\xi_1, \xi_2)^T$ и его (обратимое!) преобразование
$$ g(\boldsymbol\xi) = \begin{pmatrix}\xi_1 + \xi_2\\ \xi_2\end{pmatrix} = \begin{pmatrix}1 & 1\\ 0& 1\end{pmatrix}\boldsymbol \xi =: \boldsymbol\eta = \begin{pmatrix}\eta_1 \\ \eta_2\end{pmatrix}. $$
Обратное к нему будет иметь вид
$$ h(\boldsymbol \eta) = \begin{pmatrix}1 & -1\\ 0 & 1\end{pmatrix}\boldsymbol\eta = \begin{pmatrix} \eta_1 - \eta_2\\ \eta_2\end{pmatrix} $$
Тогда по правилу преобразования плотности
$$ p_{\boldsymbol\eta}(\boldsymbol z) = \underbrace{\left|\text{det}\begin{pmatrix}1 & -1 \\ 0 & 1\end{pmatrix}\right|}_{=1}p_{\boldsymbol\xi}\left(z_1 - z_2, z_2\right) = p_{\xi_1}(z_1 - z_2)p_{\xi_2}(z_2), $$
где в последнем равенстве мы воспользовались независимостью $\xi_1$ и $\xi_2$. Распределение случайной величины $\eta_1 = \xi_1+\xi_2$ – это маргинальное распределение, которое вычисляется следующим образом:
$$ p_{\eta_1}(y) = \int\limits_{-\infty}^{+\infty}p_{\xi_1}(y - x)p_{\xi_2}(x)dx. $$
Эта формула также называется формулой свёртки.
Примеры многомерных распределений
Рассмотрим несколько популярных распределений случайных векторов.
Мультиномиальное распределение
Биномиальное распределение $\mathrm{Bin}(n, p)$ моделирует $n$-кратное подбрасывание монеты с вероятностями «успеха» $p$ и «неудачи» $q = 1-p$. Мультиномиальное распределение обобщает этот эксперимент: теперь подбрасывается кубик с $k\geqslant 2$ гранями, и вероятность выпадения $i$-й грани равна $p_i$, $\sum\limits_{i=1}^k p_i = 1$. Обозначим через $\xi_i$ количество выпадений $i$-й грани в серии из $n$ бросков. Тогда случайный вектор $\boldsymbol \xi = (\xi_1, \ldots, \xi_k)$ имеет мультиномиальное распределение, при котором
$$ \mathbb P(\xi_1 = m_1, \ldots, \xi_k = m_k) = \frac{n!}{m_1!\cdot \ldots \cdot m_k!} p_1^{m_1}\cdot \ldots \cdot p_k^{m_k}, $$ $$ \sum\limits_{i = 1}^k m_i = n. $$
При $n=1$ мультиномиальное распределение превращается в категориальное, известное также под названием multinoulli. Категориальное распределение моделирует случайный выбор одного из $k$ классов с заданными вероятностями $(p_1, \ldots, p_k)$.
Многомерное нормальное распределение
Многомерное нормальное (гауссовское) распределение задаётся функцией плотности
$$ p(\boldsymbol x) = \frac1{(2\pi)^{n/2}\sqrt{\det\boldsymbol\Sigma}}\exp\left(-\frac12(\boldsymbol x - \boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x - \boldsymbol\mu)\right), $$
где $\boldsymbol x, \boldsymbol \mu\in\mathbb{R}^n$, $\boldsymbol\Sigma$ — невырожденная симметричная матрица размера $n\times n$. Такое распределение обозначается $\mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma)$.
Если случайный вектор $\boldsymbol \xi \sim \mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma)$, то $\mathbb E\boldsymbol \xi =\boldsymbol \mu$, $\mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi ) = \boldsymbol \Sigma$; таким образом, параметры гауссовского распределения — это его среднее и матрица ковариаций.
Упражнение. Пусть $\boldsymbol \xi \sim \mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma)$ и $\boldsymbol \eta = \boldsymbol{A\xi} + \boldsymbol b$. Докажите, что $\boldsymbol \eta \sim \mathcal{N}(\boldsymbol{A\mu} + \boldsymbol b, \boldsymbol{A\Sigma A}^T)$.
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
$$ \mathrm{cov}(\boldsymbol \eta, \boldsymbol \eta) = \mathrm{cov}(\boldsymbol{A\xi} + \boldsymbol b, \boldsymbol{A\xi} + \boldsymbol b) = \boldsymbol A \mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi) \boldsymbol A^T = \boldsymbol{A\Sigma A}^T. $$
Решим задачу честно в предположении, что матрица $\boldsymbol A$ квадратная и невырожденная. Для этого воспользуемся формулой плотности линейного преобразования случайного вектора:
$$ p_{\boldsymbol \eta}(\boldsymbol z) = \frac1{\vert\!\det(\boldsymbol A)\vert}p_{\boldsymbol \xi}(\boldsymbol A^{-1}(\boldsymbol z - \boldsymbol b)) = $$
$$ = \frac1{(2\pi)^{n/2}\sqrt{\det\boldsymbol\Sigma}\vert\det(\boldsymbol A)\vert}\exp\left(-\frac12(\boldsymbol A^{-1}\boldsymbol z - \boldsymbol A^{-1}\boldsymbol b - \boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol A^{-1}\boldsymbol z - \boldsymbol A^{-1}\boldsymbol b - \boldsymbol\mu)\right) = $$
$$ = \frac1{(2\pi)^{n/2}\sqrt{\det\boldsymbol{A\Sigma A}^T}}\exp\left(-\frac12(\boldsymbol z - \boldsymbol b - \boldsymbol{A\mu})^T \boldsymbol A^{-T}\boldsymbol\Sigma^{-1}\boldsymbol A^{-1}(\boldsymbol z - \boldsymbol b - \boldsymbol{A\mu})\right). $$
В полученном выражении нетрудно узнать плотность гауссовского распределения $\mathcal{N}(\boldsymbol{A\mu} + \boldsymbol b, \boldsymbol{A\Sigma A}^T)$.Заметим, что утверждение сохраняет силу и для случая прямоугольной матрицы $\boldsymbol A$ размера $m\times n$, где $n$ — размерность случайного вектора $\boldsymbol \xi$.
Важный частный случай случайного гауссовского вектора с независимыми компонентами был рассмотрен в примере из секции про независимость случайных величин. Такое распределение получается, если матрица $\boldsymbol\Sigma$ диагональна, $\boldsymbol\Sigma = \mathrm{diag}\{\sigma_1^2, \ldots, \sigma_n^2\}$. Тогда $\sqrt{\det \boldsymbol\Sigma} = \sigma_1 \ldots \sigma_n$, $\boldsymbol\Sigma^{-1} = \mathrm{diag}\big\{\frac1{\sigma_1^2}, \ldots, \frac 1{\sigma_n^2}\big\}$, и поэтому
$$ -\frac12(\boldsymbol x - \boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x - \boldsymbol\mu) = -\frac 12 \sum\limits_{k=1}^n \frac{(x_k-\mu_k)^2}{\sigma_k^2}. $$
Отсюда снова получаем формулу совместной плотности
$$ p_{\boldsymbol \xi}(\boldsymbol x) = \frac 1{(2\pi)^{n/2}\sigma_1\ldots\sigma_n} e^{-\frac 12\sum\limits_{k=1}^n \frac{(x_k - \mu_k)^2}{\sigma_k^2}}, $$
которую можно переписать в виде
откуда следует независимость в совокупности компонент вектора $\boldsymbol \xi$.
Если ковариационная матрица $\boldsymbol \Sigma$ не является диагональной, то отдельные компоненты случайного вектора $\boldsymbol \xi \sim \mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma)$ зависимы. Тем не менее, всегда найдётся линейное (и даже ортогональное) преобразование, которое превратит вектор $\boldsymbol \xi$ в гауссовский вектор с независимыми компонентами. Для этого достаточно найти ортогональную матрицу $\boldsymbol Q$ со свойством
$$ \boldsymbol Q \boldsymbol \Sigma \boldsymbol Q^T = \mathrm{diag}\big\{\sigma_1^2,\ldots,\sigma_n^2\big\}, $$
и далее воспользоваться формулой плотности линейного преобразования гауссовского вектора.
По тем же соображениям облако точек, сгенерированных из распределения $\mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma)$, будет напоминать эллипсоид с полуосями, пропорцинальными вектору $(\sigma_1^2,\ldots,\sigma_n^2)$. Линии уровня плотности $p(\boldsymbol x)$ задаются уравнениями вида $p(\boldsymbol x) = C$, а такое равенство эквивалентно квадратичной форме
$$(\boldsymbol x - \boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x - \boldsymbol\mu) = C_1,$$
где $C$ и $C_1$ – некоторые константы. С помощью описанной выше ортогональной замены эта квадратичная форма может быть приведена к главным осям:
$$ \boldsymbol z^T \boldsymbol\Lambda^{-1} \boldsymbol z = C_2, \quad \boldsymbol \Lambda = \mathrm{diag}\big\{\sigma_1^2,\ldots,\sigma_n^2\big\}; $$
в координатах это выглядит как
$$ \sum\limits_{l=1}^n \frac{z_k^2}{\sigma_k^2} = C_2. $$
Мы получили практически каноническое уравнение $n$-мерного эллипсоида. В $\mathbb R^2$ это будут эллипсы, сплюснутые тем сильнее, чем дальше от единицы отношение $\kappa = \frac{\sigma_1}{\sigma_2}$ собственных значений матрицы $\boldsymbol \Sigma$.
Нормальным будет и всякое маргинальное распределение многомерного гауссовского вектора.
Упражнение. Пусть случайный вектор $\boldsymbol \xi = (\boldsymbol\xi_1, \boldsymbol \xi_2)$ имеет гауссовское распределение с параметрами
$$ \boldsymbol \mu = \begin{pmatrix}\boldsymbol \mu_1 \ \boldsymbol \mu_2 \end{pmatrix}, \quad \boldsymbol \Sigma = \begin{pmatrix} \boldsymbol \Sigma_{11} & \boldsymbol\Sigma_{12} \ \boldsymbol\Sigma_{12}^T & \boldsymbol\Sigma_{22} \end{pmatrix}, $$
где $\boldsymbol \xi_1, \boldsymbol \mu_1 \in \mathbb R^k$, $\boldsymbol \xi_2, \boldsymbol \mu_2 \in \mathbb R^{n-k}$, $\boldsymbol \Sigma_{11} \in \mathrm{Mat}_{k\times k}$, $\boldsymbol \Sigma_{12} \in \mathrm{Mat}_{k\times (n-k)}$, $\boldsymbol \Sigma_{22} \in \mathrm{Mat}_{(n-k)\times (n-k)}$. Докажите, что случайный вектор $\boldsymbol\xi_1$, полученный маргинализацией по компонентам вектора $\boldsymbol\xi_2$, является гауссовским с параметрами $ \boldsymbol \mu_1 $ и $\boldsymbol \Sigma_{11}$.
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
$$ \boldsymbol\xi_1 = \boldsymbol A\boldsymbol\xi, \text{ где } \boldsymbol A = \begin{pmatrix}\boldsymbol I_{k} & \boldsymbol 0_{k\times(n-k)}\end{pmatrix} \in \mathrm{Mat}_{k\times n}, $$
и воспользуемся результатом предыдущего упражнения. Имеем $\boldsymbol A\boldsymbol\mu = \boldsymbol I_{k}\boldsymbol \mu_1 = \boldsymbol \mu_1$, $\boldsymbol A \boldsymbol \Sigma \boldsymbol A^T = \boldsymbol I_{k} \boldsymbol \Sigma_{11}\boldsymbol I_{k}^T = \boldsymbol \Sigma_{11}$, и поэтому $\boldsymbol\xi_1 \sim \mathcal N(\boldsymbol \mu_1, \boldsymbol \Sigma_{11})$.
Распределение Дирихле
Распределение Дирихле сосредоточено на $K$-мерном симплексе
Плотность распределения Дирихле $\mathrm{Dir}(\boldsymbol \alpha)$ равна
$$ p(x_1,\ldots,x_K) = \frac1{B(\boldsymbol \alpha)}\prod_{i=1}^Kx_i^{\alpha_i - 1}, $$
где $\boldsymbol\alpha = (\alpha_1,\ldots,\alpha_K)$ – вектор положительных параметров, а $B(\boldsymbol\alpha) = \frac{\prod_i\Gamma(\alpha_i)}{\Gamma(\sum_i\alpha_i)}$ – многомерная бета-функция. Если $\boldsymbol \xi \sim \mathrm{Dir}(\boldsymbol \alpha)$, то
$$ \mathbb E \boldsymbol \xi =\frac{\boldsymbol \alpha}{\alpha_0}, \quad \mathrm{cov} (\xi_i, \xi_j)=\frac{\alpha_0 \delta_{ij} - \alpha_i\alpha_j}{\alpha_0^2(\alpha_0 + 1)}, \quad \alpha_0 = \sum\limits_{k=1}^K \alpha_k. $$
Иллюстрация распределения Дирихле с помощью схемы Пойя
$$ \boldsymbol q^{(1)} = \frac{\boldsymbol\alpha}{\alpha_0} = \left(\frac{\alpha_1}{\alpha_0},\ldots,\frac{\alpha_K}{\alpha_0}\right), $$
где $\alpha_0 = \sum\limits_{i=1}^K\alpha_i$. Это корректное распределение вероятностей, так как его компоненты неотрицательны и в сумме дают $1$. Будем производить следующий процесс:
- В первый момент генерируем одну из категорий с помощью распределения $\boldsymbol q^{(1)}$; допустим, выпала $i_1$-я. Обновляем вероятностное распределение на категориях, прибавив единицу к $i_1$-й компоненте вектора $\boldsymbol\alpha$; получаем вектор $\boldsymbol\alpha^{(2)}$.
- На $n$-м шаге генерируем одну из категорий с помощью распределения $\boldsymbol q^{(n)} = \frac{\boldsymbol \alpha^{(n)}}{\sum\limits_i\alpha^{(n)}_i}$. Допустим, выпала $i_n$-я. Обновляем вероятностное распределение на категориях, прибавив единицу к $i_n$-й компоненте вектора $\boldsymbol\alpha^{(n)}$; получаем вектор $\boldsymbol\alpha^{(n+1)}$.
Можно доказать, что вектор $\lim\limits_{n\to\infty} \boldsymbol q^{(n)}$ подчиняется распределению Дирихле $\mathrm{Dir}(\boldsymbol \alpha)$.
Чтобы стало чуть понятнее, проследим, что будет при различных $\boldsymbol\alpha$.
- Если $\boldsymbol\alpha = (10,10,10)$, то прибавление единицы будет не так сильно смещать вероятности, и дальше мы будем продолжать генерировать категорию из распределения, близкого к равномерному. Скорее всего, в пределе мы будем получать что-то, близкое к $(\frac13, \frac13,\frac13)$.
- Если $\boldsymbol\alpha = (1,1,20)$, то почти наверняка мы будем генерить третью категорию, причём со всё большей вероятностью (ведь при этом мы будем увеличивать $\alpha^{(n)}_3$), то есть в пределе будет (почти $0$, почти $0$, почти $1$).
- Если $\boldsymbol\alpha = (0.1,0.1,0.1)$, то та категория, которую мы сгенерировали на первом шаге, сразу вырвется вперёд и скорее всего будет доминировать в дальнейшем. Таким образом, нам следует ожидать в пределе векторов, в которых одна из компонент почти $1$, а остальные почти $0$. Важным отличием от предыдущего варианта является то, что здесь почти $1$ может быть в любой компоненте.
- Если $\boldsymbol\alpha = (1,1,1)$, то соответствующее распределение Дирихле будет равномерным.
Также вам может оказаться полезна визуализация плотности этого распределения при разных $\boldsymbol\alpha$: