Что такое тяжёлые хвосты распределений и почему это важно

Кажется, что наводнение, выигрыш в лотерею или падение метеорита именно с нами никогда не случится. Но это просто маловероятные, а не совсем невозможные ситуации. Оказывается, математики, статистики, социологи и другие специалисты, работающие с данными, знают о таких событиях немало: они находят их в тяжёлых хвостах распределений.

В реальной жизни одни и те же случайные события могут иметь разные последствия. Небольшая ошибка в коде может пройти незаметно, а может обрушить сложный и важный сервис. Чтобы учитывать не только вероятности событий, но и их последствия, в математике используют понятие распределения случайной величины. Например, такой величиной может быть ущерб от бага.

При грамотном подходе анализ данных с тяжёлым хвостом поможет найти точку основного роста бизнеса, продумать таргетированную рекламу, разумно оценить страховые риски.

Что такое тяжелохвостые распределения

Тяжёлые хвосты упоминаются даже в одной из вариаций закона Парето. Принцип звучит так: на значение случайной величины влияет очень маленькая доля величин с невероятно большим значением.

Artboard 1 copycover.webp

Например, всего лишь 20% пользователей интернет-магазина обеспечивают 80% дохода. А по данным Microsoft, лишь 5% багов вызывают 50% ошибок всей системы. Или так: чтобы достичь поставленной цели, нужно выполнить множество подзадач. Подавляющее большинство из них — простые, и основное время уходит на шлифовку уже выполненной работы. Здесь тяжёлый хвост — это время, которое уходит на случайную подзадачу.

Каждый бегун знает, что последние километры — самые тяжёлые. Хотя фактический их вклад в дистанцию такой же, как у первых.

Значит, если есть большой массив данных, надо посмотреть на то, за счёт чего он сформировался. Так мы сможем понять, применим ли закон Парето к анализируемым данным, — и выясним, есть ли у этого массива тяжёлый хвост распределения.

Также вариант распределения Парето отражается в «принципе катастроф», где сумма почти всех данных формируются за счёт только одного слагаемого.

В 2010 году произошло 238 землетрясений. Погибло более 226 тысяч человек. Но на самом деле большая часть жертв — 222 тысячи — пришлась лишь на одно землетрясение на Гаити.

Принципы формирования тяжёлых хвостов

Самые распространённые причинно-следственные обстоятельства — мультипликативный процесс и принцип «богатые становятся богаче».

Мультипликативный процесс. Есть ситуации, где значение случайной величины зависит от множества факторов. У мультипликативных процессов разброс случайных изменений текущего значения пропорционален этому значению.

Например, инвестор совершает сделку. При удачном раскладе его доход начинает расти. Постепенно сумма каждой следующей сделки возрастает, соответственно, увеличивается диапазон наименьшей и наибольшей возможной суммы: в начале он продавал за 100–200 ₽, а в конце — за несколько миллионов. За счёт этого образуется тяжёлый хвост: наибольшее значение со временем становится настолько большим, что оказывает влияние на статистику всех сделок в целом.

Этот принцип работает и в обратном порядке: прибыль на бирже может так же стремительно уменьшаться. Всегда важно помнить про риски и инвестировать разумно.

Принцип «богатые становятся богаче». Главные отличия от мультипликативного процесса в том, что нет зависимости от удачи и почти нет вероятности регресса.

Значение случайной величины здесь связано с рядом действий, которые нужно предпринять, например, для достижения желаемого числа подписчиков. По мере роста популярности аккаунта увеличивается интенсивность его развития. Это происходит потому, что с ростом аудитории блог начинает развиваться не только за счёт контента, но и при помощи алгоритмов поиска (SEO-эффект).

Таким образом, чем более успешным становится блог и чем больше подписчиков уже есть, тем проще расширять аудиторию и становиться ещё «богаче».

Зачем всё это может понадобиться

Data Science. Например, для анализа продаж в интернет-магазинах или контроля поисковой выдачи.

Не все пользователи интернет-магазинов готовы тратить большие суммы. Анализ покупательских корзин позволит составить интернет-портрет самых активных клиентов и подстроить товары и акции под эту небольшую группу людей. Такие покупатели как раз будут формировать «тяжёлый хвост» при анализе продаж. Их траты будут обеспечивать магазину большую часть прибыли. При правильном выводе магазин увеличит объём продаж и привлечёт новых клиентов за счёт прицельной модификации ограниченного количества товаров и акций.

Перформанс-анализ. Тяжёлые хвосты помогают анализировать скорость загрузки страниц. Бывают ситуации, когда она неравномерно распределяется среди посетителей сайта.

Например, для 90% посетителей страница загружается за одну секунду. Для остальных 10% — за две. Так сайт теряет 10% посетителей. Аналитик, заглянувший внутрь данных, увидит небольшой тяжёлый хвост распределения в скорости загрузки. Корректировка загрузки, увеличивающая скорость у 10% даже на 0,5 секунды, положительно повлияет на аналитику посещений.

Оценка рисков. Используется в страховании, бизнес-аналитике, трейдинге. При страховании покупатель должен понимать, стоит ли риск того, чтобы платить. То есть ему нужно рассчитать максимальную случайную величину (стоимость потерь при маловероятном негативном событии) и сумму страховки, которую он будет выплачивать, пока маловероятное событие не будет происходить. Это даст возможность оценить, оправданно ли будет решение о страховании.

Похожая ситуация и с самой страховой компанией: ей выгодно учитывать вероятность события из тяжёлого хвоста распределения, чтобы понимать, не разорится ли компания, если застрахует, например, огромный дата-центр в Исландии, где довольно часто случаются извержения вулканов.

Что в итоге

Знать про тяжёлые хвосты распределения полезно. Это поможет вовремя заметить неравномерную тенденцию в данных, правильно их проанализировать и найти оптимальный вариант корректировки ситуации.

Тяжёлые хвосты так или иначе присутствуют почти во всех сферах нашей жизни. Иногда знание того, что данные могут отразиться на графике тяжёлым хвостом, помогает предупредить геологические и экономические катастрофы. Получается, аналитик данных, знающий о тяжёлых хвостах распределения, — IT-супермен!

В Школе анализа данных расскажут об анализе данных и применении математической статистики в жизни и работе.

Краткий пересказ от Yandex GPT