В этой главе мы собрали цельную картину вероятностного подхода — от базовых определений до инструментов теории информации и визуализации.
Давайте коротко вспомним, что вы уже знаете и умеете.
- Вероятностные основы. Строить вероятностные пространства (, работать с условными вероятностями, законом полной вероятности и формулой Байеса. Корректно трактовать независимость событий и величин.
- Случайные величины и распределения. Работать с дискретными и непрерывными величинами, применять ключевые распределения (биномиальное, Пуассона, экспоненциальное, нормальное) по назначению.
- Характеристики распределений. Использовать матожидание, дисперсию, функции распределения. Понимать трансформации величин и смеси распределений.
- Связи между величинами. Анализировать совместные и условные распределения, измерять связь с помощью ковариации и корреляции (Пирсона и Спирмена), а также отличать независимость от нулевой корреляции и видеть роль монотонных (нелинейных) связей.
- Качество моделей. Интерпретировать метрики вроде
precisionиrecallс учётом дисбаланса классов и бизнес-контекста. - Теория информации в ML. Измерять неопределённость через энтропию и её интуитивную шкалу — перплексию — и сравнивать распределения с помощью KL-дивергенции. Понимать связь с кросс-энтропией и функциями потерь (дистилляция, VAE).
- Снижение размерности и визуализация. Видеть, как перплексия и KL-дивергенция используются в t-SNE, и знать UMAP как быструю альтернативу с поддержкой трансформации новых точек.
Этот набор инструментов позволит вам не просто применять готовые модели, но и глубоко понимать их внутреннюю работу, грамотно интерпретировать результаты и принимать обоснованные решения в условиях неопределённости.
Теперь, когда вы освоили язык теории вероятностей для описания случайности, мы готовы сделать следующий шаг и научиться принимать решения в условиях неопределённости с помощью математической статистики.
В следующей главе мы погрузимся в мир АБ-тестирования и проверки гипотез, разберём фундаментальные понятия: закон больших чисел (ЗБЧ) и центральную предельную теорему (ЦПТ).
Это даст нам чёткий пайплайн для работы с данными, чтобы вооружиться всей мощью статистических критериев.