Метрики — важная тема в машинном обучении. После обучения модели нужно оценить ее эффективность с помощью метрик. Поэтому понимание метрик необходимо для всех задач в этой области.

В этой главе мы узнали, какие метрики используют для оценки и сравнения классификаторов и регрессоров. Большое количество метрик создано не просто так: разные задачи требуют разных критериев качества.

Выбрав метрику, мы разбиваем данные на обучающие и тестовые. Некорректное разделение способно привести к ошибочным выводам о модели. Чтобы это предотвратить, можно применить метод hold-out либо его обобщение — кросс-валидацию.

Теперь у нас есть подходящая метрика и надёжная схема оценки качества, и мы можем настроить гиперпараметры модели (глубину дерева, скорость обучения и другие) таким образом, чтобы приблизить качество работы модели к оптимальному.

Особенности применения

  1. Следует учитывать ограничения реального мира. Например, когда мы рекомендуем товары в онлайн-магазине, рекомендации зависят не только от выбора модели, но и от наличия товара. Когда мы считаем метрики перед внедрением модели в продакшен, ограничения из-за наличия может быть сложно учесть.
  2. У моделируемых процессов может быть сезонность: дневная, недельная, годовая. Выборка, на которой считаем метрики, должна это учитывать.
  3. Метрика должна моделировать применение модели «в жизни». Это не получается само собой, бывают ловушки: разные балансы классов в реальных условиях и в тестовой выборке или лик данных из будущего, которого не будет в настоящих данных.
  4. Сначала определите, какие ошибки и в каком масштабе важны: FP или FN, абсолютная или относительная ошибка, порядок или метки. Затем выберите соответствующую метрику и оцените её с помощью отложенной выборки или кросс-валидации, а в продакшене следите за реальными бизнес-метриками.
  5. Помните, что функция потерь — это технический инструмент для обучения, а метрика — это внешний критерий для принятия решений. Важно уметь объяснять, почему вы выбрали ту или иную метрику и на какие компромиссы из-за этого придётся пойти. Тогда модель будет действительно соответствовать требованиям задачи и приносить практическую пользу.

Что дальше

В траектории дальнейшего развития можно изучить A/B-тестирование. Это область, связанная с работой над качеством предиктивных алгоритмов — ML или «ручных».

Используя A/B-тестирование, можно ответить на вопросы:

  • Как бороться с линейной зависимостью объектов.
  • Как избежать влияния групп друг на друга.
  • Правда ли, что если метрики «прокрасились», то мы действительно что-то улучшили.

Представим, что мы улучшили какую-либо модель и посчитали метрики. Разница метрик для старой и новой модели должна быть статистически значима, обычно это проверяется онлайн-метриками, что также является отдельной темой для изучения.

В следующей главе рассмотрим уже знакомые вам модели машинного обучения с позиции статистики и вероятностей:

  • Покажем, как оценивать вероятности классов.
  • Сформулируем обобщение логистической регрессии.
  • Рассмотрим генеративный подход к классификации.
  • Применим байесовский подход оценки параметров.
Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E
Предыдущий параграф3.4. Подбор гиперпараметров

Как эффективно подбирать значения гиперпараметров модели и не переобучиться при этом

Следующий параграф4.1. Вероятностный подход в ML

Как описать привычные модели на языке статистики. Оптимизация функции потерь vs оценка максимального правоподобия