Комбинаторика в машинном обучении: от перебора гиперпараметров до проклятия размерности

Комбинаторные приёмы достаточно изящны. Иногда они позволяют найти неочевидное, но очень простое решение для математической задачи. Но гораздо чаще комбинаторика позволяет оценить сложность задачи и потенциального решения и выбрать более подходящий или эффективный вариант.

В этом параграфе мы поговорим о гиперпараметрах:

что это такое, чем они отличаются от параметров и почему их подбор дороже;
какие существуют методы подбора гиперпараметров;
что такое проклятие размерности и комбинаторный взрыв.

К концу параграфа вы сможете прикидывать стоимость перебора, осознанно выбирать стратегию поиска и понимать, когда нужно сужать пространство решений или добавлять структурные предположения.

Приступим!

Гиперпараметры: что это и чем они отличаются от параметров

В машинном обучении можно разделить модели на параметрические и непараметрические.

Примеры параметрических моделей — линейная регрессия, метод опорных векторов, решающее дерево, нейронная сеть. То есть все модели, где настраиваются некоторые параметры (веса, коэффициенты) для лучшего соответствия данным.

Примером непараметрической модели может служить метод ближайших соседей (kNN) — в нём не происходит автоматической настройки чего-либо на основе обучающей выборки.

Помимо параметров, у моделей также выделяют гиперпараметры. Гиперпараметры отвечают за более общие свойства моделей: метрика в kNN, вид регуляризации в линейной регрессии, максимальное число листьев в дереве — это всё гиперпараметры.

💡Основное отличие гиперпараметров от параметров заключается в том, что перед обучением модели (нахождением оптимальных значений параметров) необходимо зафиксировать гиперпараметры.

Гиперпараметры могут быть категориальными (например метрика в kNN), дискретными (число соседей в kNN) или непрерывными (коэффициент регуляризации). Как правило, гиперпараметры выбираются экспертом вручную или же с помощью неградиентных методов оптимизации.

Примечание

Внимательный читатель заметит, что в моделях машинного обучения есть целая иерархия настраиваемых величин.

Например, в ансамблях деревьев нужно выбрать размер ансамбля, а каждое дерево, в свою очередь, обладает собственными гиперпараметрами (например, глубина). Подобные гиперпараметры «более высокого порядка» иногда называют «метапараметрами», но данный термин не является общепринятым и, вообще говоря, не имеет смысла: количество уровней гиперпараметров формально не ограничено сверху (хотя на практике редко встречается больше трёх-четырех).

В некотором смысле даже сам класс используемых моделей можно считать гиперпараметром — например, перед настройкой параметров линейной регрессии нужно принять решение использовать именно линейные модели, а не деревья решений.

Здесь важно отметить, что если мы не выберем гиперпараметры, то, как правило, не сможем настроить параметры — то есть обучить модель. Поэтому проверка каждого набора гиперпараметров требует полного или частичного обучения модели — то есть она крайне затратна для сложных моделей.

Методы подбора гиперпараметров

Существует множество методов подбора гиперпараметров — в этой части мы разберём только основные. Как правило, в сложных задачах используются библиотеки (например, optuna, которую мы рассмотрим дальше) — они объединяют в себе сразу несколько подходов.

Далее мы будем преимущественно рассматривать численные гиперпараметры, т. к. если гиперпараметр категориальный, то его значения не упорядочены и никак не связаны друг с другом, а значит, других вариантов, кроме его прямого перебора, нет.

Поговорим о следующих методах:

Перебор по сетке (англ. Grid Search).
Случайный поиск (англ. Random Search).
Байесовская оптимизация.

А ещё посмотрим, что под капотом у библиотеки optuna.

Перебор по сетке

Пусть для модели доступно гиперпараметров, для -го гиперпараметра задан диапазон допустимых значений . В данном диапазоне выбирается различных значений гиперпараметра. Тогда общее число возможных комбинаций гиперпараметров равно:

Несложно заметить, что количество различных наборов гиперпараметров оценивается как число различных комбинаций элементов из множеств с мощностями .

Поиском по сетке такой подход называется потому, что рассматриваемые значения гиперпараметров образуют сеть: каждый узел этой сети соответствует строго одному набору значений гиперпараметров.

На левой иллюстрации мы видим два гиперпараметра, для каждого из которых перебирается по сетке три значения, что суммарно даёт девять различных вариантов, для каждого из которых оценивается качество модели.

На правой иллюстрации также перебирается девять различных комбинаций гиперпараметров, но их значения выбираются случайно в допустимых диапазонах — это случайный поиск.

Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E

Яндекс Образование — Личный кабинет

Содержание

Введение

Введение в теорию графов

Основы математического анализа

Линейная алгебра