Различные типы распределений, описанные в предыдущих параграфах, применяются в качестве теоретических моделей в задачах, связанных со случайностью и неопределённостью. Однако на практике далеко не всегда ясно, какое именно распределение моделирует имеющиеся в наличии данные. А если из каких-либо соображений тип распределения всё же установлен, то следующая задача — оценить параметры этого распределения, например, среднее и/или дисперсию в случае гауссовского распределения .
Подобными обратными по отношению к теории вероятностей задачами занимается математическая статистика. Типичный пример статистической задачи: по числовой выборке оценить параметры распределения, из которого они были получены. Обычно предполагается, что выборка i.i.d. (independent and identically distributed), то есть представляет собой независимые реализации случайной величины с одним и тем же распределением. Параметр этого определения может быть числом или вектором; оценку этого параметра по выборке обычно обозначают или просто .
Предельные теоремы
Как правило, чем больше размер выборки, тем более информативны параметрические оценки вида . Теоретические свойства таких оценок при устанавливаются с помощью предельных теорем теории вероятностей.
Закон больших чисел
Внимательный читатель мог обратить внимание, что в ряде примеров из предыдущих параграфов параметры некоторых распределений почему-то молчаливо подменялись средними значениями. Так мы поступили в задаче о показе рекламы, взяв в качестве параметра пуассоновского распределение среднее количество кликов пользователей. Фактически мы оценили неизвестный параметра средним по выборке:
В общем-то это кажется логичным, поскольку , если . Однако у такой оценки есть также мощное теоретическое обоснование.
Теорема (Закон больших чисел, ЗБЧ). Пусть – последовательность попарно независимых одинаково распределенных случайных величин с конечным математическим ожиданием . Тогда для любого
Таким образом, чем больше размер выборки , тем менее вероятно отклонение выборочного среднего от истинного среднего на любое число .
Закон больших чисел особенно легко обосновать для случая конечных дисперсий: . Имеем
Отсюда видно, что , поэтому при больших распределение случайной величины всё больше похоже на распределение, сосредоточенное в одно лишь точке . Формально же утверждение ЗБЧ получается с помощью неравенства Чебышева:
Закон больших чисел допускает следующее усиление.
Теорема (Усиленный закон больших чисел, УЗБЧ). Пусть – последовательность попарно независимых одинаково распределенных случайных величин с конечным математическим ожиданием . Тогда выборочное среднее почти наверное сходится к , т.е.
.
Замечание о типах сходимостей случайных величин
Последовательность случайных величин , , сходится к случайной величине
- по распределению, , если ;
- по вероятности, , если для любого ;
- почти наверное, , если ;
- в среднем квадратичном, , если .
Известно, что
- из сходимости по вероятности вытекает сходимость по распределению, ;
- из сходимость почти наверное следует сходимость по вероятности, ;
- сходимость в среднем квадратичном влечёт сходимость по вероятности, .
А вот из сходимости по вероятности, вообще говоря, не следует сходимость почти наверное (контрпример можно посмотреть здесь).
Закон больших чисел утверждает, что выборочное среднее сходится по вероятности к истинному среднему. А согласно УЗБЧ имеет место более сильный тип сходимости — почти наверное.
Теорема Муавра-Лапласа
Доска Гальтона иллюстрирует биномиальное распределение. До поворота на ее дне лежит множество маленьких шариков. Сразу после переворота шарики проходят через 10 рядов гладких круглых препятствий. Преодоление каждого препятствия можно рассматривать как испытание Бернулли: с равными вероятностями шарик может пойти как налево, так и направо. Поэтому финальное положение шарика в одной из 10 корзин является приблизительной реализацией биномиального распределения .
Уже при биномиальное распределение напоминает нормальное. И действительно, чем больше , тем лучше дискретная случайная величина аппроксимируется непрерывной гауссианой .
Теорема Муавра-Лапласа. Пусть , , тогда
Из теоремы Муавра-Лапласа вытекает, что при больших вероятность попадания биномиальной случайной величины в заданный интервал можно оценить как
где — функция распределения стандартного нормального распределения.
Центральная предельная теорема
При выводе закона больших чисел мы видели, что выборочное среднее имеет среднее и дисперсию . Но как именно выглядит распределение случайной величины при увеличении ? Оказывается, что оно становится всё больше похоже на . Вот как, например, выглядят нормализованные гистограммы выборочных средних, построенных по i.i.d. выборкам для разных значений :
Эти гистограммы и впрямь очень напоминают гауссианы, и это прямое следствие следующей теоремы.
Центральная предельная теорема, ЦПТ. Пусть – последовательность попарно независимых одинаково распределенных случайных величин с конечным математическим ожиданием и дисперсией . Тогда
Точнее говоря, . Таким образом, случайная величина сходится по распределению к : .
Если применить центральную предельную теорему к бернуллиевским случайным величинам с вероятностью успеха , то вновь получим теорему Муавра-Лапласа.
Свойства параметрических оценок
Оценивать параметры можно по-разному, хочется делать это хорошо. Ценные свойства оценок, которые обычно желательны – это несмещенность и состоятельность.
Несмещённость
Каждый элемент i.i.d выборки можно рассматривать как значение случайной величины из некоторого распределения с неизвестным параметром .
А раз так, то всякую оценку этого параметра также можно считать случайной величиной, у которой можно пытаться вычислять математическое ожидание, например.
Оценка параметра называется несмещенной, если . Несмещённость оценки означает, что она в среднем будет равна истинному значению параметра.
Интуитивно можно представлять себе несмещённость следующим образом: если мы нагенерим большое количество выборок , , и для каждой посчитаем оценку , то в среднем получится более или менее истинное значение параметра : .
Простейший пример несмещённой оценки среднего значения даёт выборочное среднее $ \overline{X}n = \frac{1}{n}\sum\limits^n X_k$, поскольку
Медианой выборки называется средний член вариационного ряда, состоящего из отсортированных по возрастанию элементов выборки:
Если нечётно, , то есть ровно один элемент в середине вариационного ряда, именно он называется медианой: . При чётном в качестве медианы берут среднее двух центральных элементов вариационного ряда:
Упражнение. Дана i.i.d. выборка из равномерного распределения . Докажите, что выборочная медиана даёт несмещённую оценку медианы распределения .
Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)
Если , то . В секции про бета-распределение была найдена плотность -й порядковой статистики, посчитанной по выборке из равномерного распределения на :
Чтобы получить отсюда плотность -й порядковой статистики для нашей выборки из , сделаем линейную замену . Тогда
Рассмотрим два случая. Если , то выборочная медиана равна , и
Возвращаясь к переменной , находим
Если же , то нам потребуется найти . Используя ту же самую замену , получаем
Следовательно,
Итак, выборочная медиана — несмещённая оценка как медианы, так и среднего распределения .
В некоторых случаях оценка смещена, но с ростом это смещение нивелируется. Если , то оценка называется асимптотически несмещённой.
Упражнение. Пусть — i.i.d. выборка. Оценим параметр как максимальное значение выборки:
Является ли эта оценка несмещённой? Асимптотически несмещённой?
Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)
В силу свойства i.i.d. для имеем
Следовательно, плотность случайной величины равна , и поэтому
Отсюда видно, что оценка смещённая. Однако , так что оценка асимптотически несмещённая. Чтобы получить несмещённость в чистом виде, можно взять оценку .
Состоятельность
Оценка называется состоятельной, если она сходится по вероятности к , , то есть
Cостоятельность означает, что с ростом размера выборки всё менее вероятны хоть сколько нибудь значимые отклонения оценки от истинного значения параметра.
Если i.i.d. выборка получена из распределения с конечным математическим ожиданием , то в силу закона больших чисел выборочное среднее является состоятельной оценкой для .
Состоятельность оценки – независимое от несмещенности свойство: оценки могут быть состоятельными, но не несмещенными и наоборот. Например, оценка из предыдущего упражнения оказалась смещённой, однако, она состоятельна:
Упражнение. Приведите пример несмещённой оценки, не являющейся состоятельной.
Имея i.i.d. выборку из невырожденного распределения с конечным средним , оценим это среднее как . Эта оценка, очевидно, несмещённая: . Состоятельной, однако, она не является, ведь выражение
никоим образом не зависит от . Следовательно, состоятельность оценки означала бы, что для любого . Такое возможно только для вырожденного распределения, сосредоточенного в одной лишь точке : .
Bias-variance decomposition
Смещение (bias) оценки определяется как
Смещение показывает, насколько оценка в среднем отклоняется от истинного значения. Оценка
- несмещённая, если ;
- асимптотически несмещённая, если .
Среднеквадратичной ошибкой (mean squared error, MSE) оценки называется величина
Смещение, дисперсия и среднеквадратичная ошибка связаны между собой следующим соотношением (bias-variance decomposition):
Доказательство
Имеем
Среднее слагаемое здесь равно нулю, откуда и вытекает доказываемое равенство.
Упражнение. Докажите, что оценка состоятельная, если она асимптотически несмещённая и .
Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)
С помощью неравенства Маркова получаем, что
По условию оба слагаемых в формуле bias-variance decomposition стремятся к нулю,
и поэтому при любом фиксированном .
Таким образом, если , то оценка параметра асимптотически несмещённая и состоятельная.
Асимптотическая нормальность
Стандартным отклонением оценки параметра называется корень из дисперсии:
Оценка асимптотически нормальна, если , т.е.
Согласно центральной предельной теореме выборочное среднее i.i.d. выборки из распределения с конечными средним и дисперсией является асимптотически нормальной оценкой параметра .
Эффективность
Пусть и — несмещённые оценки параметра . Оценка эффективнее оценки , если . Такое определение эффективности вполне логично, ведь чем меньше дисперсия несмещённой оценки, тем меньше у неё шансов удалиться куда-то далеко от истинного значения параметра.
Пример. Пусть — i.i.d. выборка из распределения . Какая оценка параметра эффективнее: выборочное среднее или медиана?
Несмещённость оценок и уже была показана выше.
Найдём дисперсию наших оценок. Диспресия случайной величины равна , следовательно, .
Найти дисперсию медианы несколько сложнее. Ограничимся случаем . Тогда , и
С помощью замены отсюда находим, что
Следовательно, , что при больше, чем
, так что выборочное среднее эффективнее
медианы (примерно в раз при больших , если считать по отношению стандартных отклонений).
Несмотря на то что в плане эффективности среднее оказалось предпочтительнее в этом примере,
в статистике медиану любят за бОльшую устойчивость к выбросам.
Ниже приведён scatter-plot, по которому можно наглядно оценить меру разброса среднего и медианы выборки из равномерного распределения на отрезке для . Для построения этого графика были взяты i.i.d. выборок из размера , и для каждого посчитаны выборочное среднее и медиана. Эти статистики и задают координаты точки на графике. Разумеется, чем больше значение , тем кучнее локализованы точки вокруг среднего значения , совпадающего в данном случае с медианой. Как видно, облако точек сосредоточено вдоль прямой .
Выборочная дисперсия
Как мы уже убедились, выборочное среднее представляет собой несмещённую и состоятельную оценку для математического ожидания. Можно ли то же самое сказать про выборочную дисперсию
в предположении, что i.i.d. выборка состоит из реализаций случайной величины с конечными моментами и ?
Прежде всего раскроем скобки и перепишем в виде
где — выборочное среднее, построенное по выборке . Оно несмещённое, поэтому . Заметим также, что
откуда в силу независимости и при получаем
Итак,
Таким образом, оценка дисперсии смещённая (хотя и асимптотически несмещённая). По этой причине для оценки дисперсии часто используют аналогичную несмещённую оценку
которую также называют выборочной дисперсией.
Обоснуем теперь состоятельность оценки . Согласно закону больших чисел ,
. Здесь нам потребуется пара свойств сходимости по вероятности.
Упражнение. Пусть , . Докажите, что .
Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)
Зафиксируем некоторое . Поскольку , то
Далее, если , то выполняется хотя бы одно из неравенств и . Следовательно,
Но последние две вероятности стремятся к нулю, так как и . Следовательно, последовательность случайных величин сходится по вероятности к .
Упражнение. Пусть . Докажите, что .
Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)
Пусть и . Выберем число так, что . Если и , то
Следовательно,
Последнее неравенство выполняется для всех достаточно больших , при которых первое слагаемое меньше ; этого же всегда можно достичь за счёт увеличения , поскольку по условию . В силу произвольности отсюда заключаем, что
то есть последовательность сходится по вероятности к случайной величине .
Пользуясь результатами этих упражнений, заключаем, что
и
, и, стало быть, оценка состоятельна.
Методы оценки параметров
До этого мы обсуждали разные приятные свойства оценок, а теперь рассмотрим некоторые методы, позволяющие систематически получать по выборке оценки параметров с нужными свойствами.
Метод моментов
Пусть выборка получена сэмплированием из некоторого семейства распределений с параметрами . Метод моментов для оценки этих параметров заключается в приравнивании выборочных моментов
к теоретическим
Решая полученную систему уравнений , , находим оценки параметров .
Пример. Оценим параметры нормального распределения с помощью метода моментов.
Попробуйте сделать сами, прежде чем смотреть решение.
Теоретические моменты равны
Запишем систему:
Из неё очевидным образом находим ,
Как видно, оценки по методу моментов в данном случае совпадают с выборочными средним и дисперсией.
Упражнение. Оцените по методу моментов параметры и для выборки из .
Ответ
Решая систему уравнений , , находим
Таким образом, согласно методу моментов оценки для границ отрезка отстоят от выборочного среднего на выборочное стандартное отклонение, помноженное на .
При некоторых условиях на регулярность семейства распределений оценка по методу моментов получается состоятельной и асимптотически нормальной.
Метод максимального правдоподбия
Пусть, как обычно, выборка .
Правдоподобие (функция правдоподобия, likelihood) выборки — это просто её совместная pmf или pdf. Вне зависимости от типа распределения будем обозначать правдоподобие как
Если выборка i.i.d., то функция правдоподобия распадается в произведение одномерных функций:
Оценка максимального правдоподобия (maximum likelihood estimation, MLE) максимизирует правдоподобие:
Поскольку максимизировать сумму проще, чем произведение, обычно переходят к логарифму правдоподобия (log-likelihood). Это особенно удобно в случае i.i.d. выборки, тогда
Пример. В результате подбрасываний монеты выпало «орлов» и «решек».
Оценим вероятность выпадения «орла» методом максимального правдоподобия.
Пусть — вероятность выпадения «орла», тогда правдоподобие равно
Дифференцируя логарифм правдоподобия
и приравнивая к нулю производную, находим
Нетрудно убедиться, что это точка максимума. Итак, оценка максимального правдоподобия вероятности «успеха» в схеме Бернулли вполне ожидаемо оказалась равна доле «успехов» в серии из испытаний.
Упражнение. Пусть i.i.d. выборка взята из пуассоновского распределения с параметром . Найдите его оценку максимального правдоподобия.
Ответ
Методом максимального правдоподобия можно оценить сразу несколько параметров.
Пример. Найдём MLE-оценки параметров распределения по i.i.d. выборке .
Запишем правдоподобие:
Перейдём к log-likelihood:
Приравняем частные производные по и к нулю:
откуда – выборочное среднее, – выборочная дисперсия.
Упражнение. Пусть i.i.d. выборка . Найдите оценки максимального правдоподобия для параметров и .
Решение (не открывайте сразу, попробуйте сначала решить самостоятельно)
Оказывается, при поиске MLE не всегда надо дифференцировать. Правдоподобие здесь имеет вид
При фиксированных иксах и это выражение максимально при : ведь если взять чуть больше, то произведение индикаторов обнулится, если меньше — то правдоподобие уменьшится за счёт увеличения . По аналогичным соображениям .
Свойства оценки максимального правдоподобия
- состоятельность: ;
- инвариантность относительно параметризации: если — MLE-оценка для , то — MLE-оценка для ;
- асимптотическая нормальность: ;
- асимптотическая оптимальность: при достаточно больших оценка
имеет минимальную дисперсию.