В этой главе вы познакомились с ключевыми подходами в классическом машинном обучении — от линейных моделей до деревьев и их композиций. Также мы разобрали, пожалуй, самый главный метод классического машинного обучения, который прекрасно работает на табличных данных, — градиентный бустинг.

Надеемся, что теперь вы не только знаете конкретные методы, но и понимаете основные концепции машинного обучения.

И ещё один важный момент: линейные модели, которые так подробно изучались в этой главе, можно считать преддверием тематики нейронных сетей.

Области применения

Методы классического машинного обучения лучше всего подходят для табличных данных, где каждый объект описывается большим количеством разнородных признаков.

Таких задач колоссальное множество: рекомендательные системы, прогнозирование спроса на товары, оптимизация поставок, оценка кредитных рисков или борьба с мошенничеством. И такие «бизнесовые» задачи часто лучше решаются бустингом, чем нейросетями.

Также бустинг обычно дешевле или быстрее нейросети вычислительно. Поэтому в задачах рекомендаций нейросеть может раз в день предварительно рассчитывать векторные описания товаров, а бустинг или метрический алгоритм будет ранжировать объекты.

Особенности применения

Какие особенности применения изученных методов стоит учитывать на практике:

  1. Деревья (а следовательно, и леса, и бустинги над деревьями) не умеют экстраполировать. Это значит, что для входных значений не из той области, на которой учился бустинг, результат может быть некорректным.
  2. Линейная зависимость признаков в линейных моделях может «взорвать» коэффициенты, поэтому надо делать регуляризацию.
  3. На практике лучше не стремиться решить задачу идеально с первого раза — можно двигаться итерациями, начав с самого простого и быстрого, но чуть менее точного решения. Между итерациями — замерять, насколько усложнение модели повлияло на метрики. Может получиться, что классические алгоритмы уже реализовали львиную долю теоретически возможной пользы от ML-модели, и, возможно, нет смысла внедрять что-то более сложное.

Как вы могли заметить, видов моделей машинного обучения много линейные, метрические, логические (решающие деревья). И это не просто так: нет универсального метода машинного обучения, который подходит для любой задачи. Специалист по анализу данных должен иметь большой арсенал, пробовать разные подходы и выбирать те, которые работают лучше всего.

Не всегда самое важное — это качество модели. Бывают и другие требования, например интерпретируемость или скорость. Или ключевым может быть качество, но с точки зрения очень специфичной метрики. Всё это нужно учитывать при работе с данными, а не бездумно применять самую лёгкую в использовании модель.

Что дальше

Уже после этой главы у вас есть большая база. Чтобы научиться пользоваться этими методами и адаптировать их, нужна практика.

Мы призываем решать как можно больше задач, участвовать в соревнованиях по анализу данных, в опенсорс-движении (например, внести вклад в библиотеку CatBoost). Тренироваться применять разные методы, комбинировать их, читать решения других участников соревнований. Именно так можно приобрести очень большой опыт, который будет полезен в будущем.

Наконец, чтобы применять на практике изученные в этой главе модели, нужно уметь корректно оценивать качество их предсказаний, не допускать переобучения и понимать, на какие параметры моделей мы можем влиять. Это мы и рассмотрим в следующей главе.

Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E
Предыдущий параграф2.6. Градиентный бустинг

Как устроено самое мощное семейство не нейросетевых моделей: градиентный бустинг над решающими деревьями

Следующий параграф3.1. Введение