4.7 Геометрия признакового пространства: нормы и расстояния

Признаковое пространство — это многомерный мир, где живут наши данные, представленные точками (векторами) с координатами-признаками. В этом параграфе мы исследуем фундаментальные измерительные инструменты этого пространства: нормы и расстояния.

С помощью этих знаний вы поймёте, как работают многие методы машинного обучения, включая k-ближайших соседей (KNN), линейную регрессию и даже нейронные сети. От измерения схожести объектов до регуляризации и визуализации: всё в итоге упирается в то, как мы измеряем длину вектора и расстояние между точками. Для этого нам и нужны нормы.

В предыдущем параграфе мы рассматривали, как линейные преобразования изменяют объём. Теперь сосредоточимся на том, как сам объём и векторы измеряются — с помощью норм. Норма начинается с векторов, но, естественно, переносится и на матрицы. Это важно, поскольку в будущем вы будете оценивать размеры матрицы весов в нейросетях и использовать матричные нормы — например, в QR-разложении.

Давайте сначала разберёмся:

  • Какими бывают нормы векторов и матриц.
  • Чем они отличаются от привычной евклидовой длины.
  • Как интерпретировать расстояния в разных метриках.
  • Как это связано с обучением и работой моделей машинного обучения.

Параллельно взглянем на то, как выбор метрик помогает контролировать сложность моделей и их устойчивость к переобучению.

Нормы и расстояния

В математике норма — это обобщённое понятие длины. Когда мы говорим о норме вектора или норме матрицы, мы имеем в виду способ измерить размер или величину объекта.

Поэтому в линейной алгебре нормой называют функцию, которая измеряет размер объекта (например, «размер» матрицы или длину вектора). От выбора нормы зависит, как мы интерпретируем расстояние и угол между объектами. Это критически важно, например, в метрических алгоритмах (KNN, кластеризация k-средних и метод визуализации tSNE).

Введём строгое определение нормы.

💡 Норма в векторном пространстве над полем вещественных или комплексных чисел — это функционал , обладающий следующими свойствами:

  1. Неотрицательность: .
  2. Обращение в нуль: .
  3. Неравенство треугольника: .
  4. Однородность: .

Простыми словами, норма — некий функционал над элементом пространства , который обозначается двумя вертикальными линиями справа и слева от объекта, норму которого мы берём. Этот функционал переводит все элементы пространства в вещественные числа. Перечисленные свойства нормы называются аксиомами нормы, и словами их можно сформулировать следующим образом:

  1. Если норма (например, вектор) равна нулю, то и сам объект должен быть нулём. Справедливо и обратное: если вектор нулевой, то его норма также равна нулю. В иных случаях норма больше нуля.
  2. Норма суммы объектов всегда меньше или равна сумме норм объектов. При этом каждый объект принадлежит пространству . Это свойство называют неравенством треугольников.
  3. Скалярный множитель выносится из-под знака нормы по модулю.

Обычно разные нормы используются для разных способов расчёта расстояний между объектами линейного пространства. Рассмотрим наиболее часто используемые нормы в пространстве . И разберёмся, как считать нормы на примерах и в чём заключается их геометрический смысл.

L₁-норма (манхэттенская норма)

Начнём с одной из самых наглядных норм: -нормы, которую также называют манхэттенской или нормой такси — в дальнейшем мы проясним смысл этих названий. Она измеряет длину вектора как сумму модулей его координат:

Теперь на примере поговорим о расчёте расстояний на основе норм. Возьмём для примера -норму для некоего вектора :

То есть норма равна четырём. Это можно интерпретировать как длину вектора , рассчитанную на основе нормы .

Нетрудно увидеть, что это не геометрическая длина вектора. Если мы применим теорему Пифагора, то без труда рассчитаем, что длина вектора будет равна . Важно понимать, что нормы могут отличаться от геометрических расстояний.

В случае нормы мы измеряем расстояние, выходя из начала координат к точке , а потом к точке — то есть к самому концу вектора . Так мы пройдём четыре клеточки, потому и расстояние по этой норме от начала координат (как и длина вектора по -норме) будет равно четырём.

Геометрическая интерпретация

Геометрическая интерпретация -нормы для вектора .

Зачем нам такое странное измерение расстояний? Разные способы измерения расстояний важны для разных задач.

Если приводить пример из повседневной жизни, то расстояние по норме схоже с тем, как мы бы посчитали путь, двигаясь по сетке параллельных и перпендикулярных улиц города. Например, Нью-Йорка. Взгляните на один из его районов — Манхэттен:

Карта Манхэттена Источник

По такой сетке нельзя двигаться по диагонали — только вдоль улиц и проспектов. Если бы вы сели в такси на Манхэттене, то пройденное расстояние было бы суммой отрезков по горизонтали и вертикали. Вот почему альтернативные названия этой нормы — манхэттенская норма (англ. Manhattan norm) и норма такси (англ. Taxicab norm).

Зная, как измерить расстояние по -норме между началом координат (то есть нулевым вектором) и некоторым вектором , мы можем логично прийти к формуле для расчёта расстояний между точками:

Например:

Норма L_1

Норма как расстояние между двумя векторами и .

В дальнейшем для визуализации норм мы будем приводить «единичные сферы» в двумерном пространстве. Это всё множество точек на единичном расстоянии от начала координат, рассчитанном по рассматриваемой норме вектора.

Данные графики хорошо отражают принцип измерения расстояния в случаях разных норм. Например, для -нормы единичная сфера представляет собой ромб.

Единичная сфера для нормы

Единичная сфера для нормы .

-норма широко используется в машинном обучении, особенно в задачах регуляризации — когда мы хотим не просто подобрать модель, хорошо объясняющую данные, но и избежать переобучения.

Такие задачи требуют, чтобы модель была не слишком сложной, с небольшими коэффициентами, и желательно использовала только важные признаки. Именно для этого к функции потерь добавляют штраф, связанный с нормой коэффициентов.

Одно из ключевых применений -нормы — Lasso-регрессия, где к функции потерь добавляется штраф, пропорциональный сумме модулей коэффициентов:

Здесь — гиперпараметр регуляризации, а -норма вектора параметров. Такой штраф поощряет разрежённость, то есть он наказывает большие коэффициенты и приводит к тому, что многие из них обнуляются.

Это помогает выделять наиболее значимые признаки, снижать переобучение и улучшать интерпретируемость модели. -регуляризация применяется не только в линейной регрессии, но и в логистической регрессии, и в методе опорных векторов (SVM, Support Vector Machine).

L₂-норма (Евклидова норма)

Наиболее интуитивно понятная, соответствует «обычному» расстоянию по Пифагору:

То есть она измеряет геометрическую длину вектора в евклидовом пространстве. Например:

В случае расчёта расстояния между двумя векторами:

Норма как раз совпадает с геометрической длиной. И потому единичная сфера для этой нормы в двумерном линейном пространстве представляет собой окружность.

Единичная сфера для нормы

Единичная сфера для нормы .

-норма обычно используется в -регуляризации, также известной как Ridge-регрессия. -регуляризация добавляет штрафной член к функции потерь модели, приводя её коэффициенты к более или менее равномерному распределению.

Такая регуляризация помогает предотвратить переобучение и улучшает способность модели к обобщению. Норма обеспечивает более сбалансированное решение, чем -норма, распределяя штраф по всем коэффициентам. В отличие от -регуляризации, она не зануляет веса признаков, а лишь сглаживает их, что делает модель более устойчивой и предотвращает вырождение матрицы признаков. -регуляризация широко используется в линейной регрессии, логистической регрессии, нейронных сетях и SVM.

L∞-норма (максимальная)

Эту норму также называют бесконечной нормой или нормой Чебышева. Она равна максимальному по модулю элементу вектора:

Пример этой нормы для вектора:

Расстояние по бесконечной норме между двумя векторами:

Бесконечная норма отражает наибольший (или максимальный) вклад среди всех координат. Для одного вектора она равна наибольшему по модулю компоненту. А расстояние между двумя векторами в этой норме определяется как максимум модулей разностей соответствующих координат.

Бесконечная норма показывает максимальное расхождение по координатам и отражает поведение в крайнем направлении. Это полезно, например, в задачах, где важна наибольшая ошибка по одной из координат. В задачах отбора признаков или регуляризации можно использовать ограничение по -норме весов:

Это приводит к clipping-эффекту — все веса ограничены по модулю. То есть ни один признак не может оказать чрезмерно сильного влияния.

В -норме сфера радиуса 1 в двумерном линейном пространстве — это квадрат, выровненный по осям.

Единичная сфера для нормы

Единичная сфера для бесконечной нормы

Норма Фробениуса

До этого момента мы рассматривали нормы векторов, которые измеряют размер или длину одного объекта — одномерного массива чисел. Однако во многих задачах машинного обучения и линейной алгебры основными объектами становятся матрицы: они могут представлять датасеты, линейные отображения, веса нейросетей или градиенты.

Естественный вопрос: как измерить такой размер или величину всей матрицы? Мы хотим обобщить понятие нормы с вектора на матрицу так, чтобы оно сохраняло полезные свойства — такие как интуитивность, согласованность с геометрией и возможность использовать в оптимизации.
Одним из самых распространённых и понятных обобщений нормы на матрицы является норма Фробениуса. Она тесно связана с евклидовой нормой векторов и позволяет измерять «размер» всей матрицы.

💡Норма Фробениуса — это аналог евклидовой нормы () для матриц. Она равна квадратному корню из суммы квадратов всех элементов матрицы.

Её можно интерпретировать как -норму вектора, если вытянуть все элементы матрицы в один длинный вектор:

Пример расчёта:

С геометрической точки зрения норма Фробениуса измеряет евклидову длину матрицы, рассматриваемой как вектор, полученный из всех её элементов.

Чтобы визуализировать геометрический смысл, можно представить каждый столбец матрицы как вектор в пространстве, затем взять их длины и отложить их вдоль координатных осей. Получившиеся векторы будут ортогональны — то есть будут находиться друг к другу под прямым углом, это понятие мы ещё рассмотрим далее. Тогда длина диагонали (вектора ), соединяющей начало координат с концом суммы этих ортогональных векторов, и будет равна норме Фробениуса:

Геометрическая интерпретация нормы Фробениуса

Геометрическая интерпретация нормы Фробениуса

Посчитаем длины векторов-столбцов:

Новые вектора, отложенные по осям координат. будут:

Теперь найдём сумму этих векторов и обозначим её как вектор , найдём его длину:

И эта длина равна норме Фробениуса матрицы .

Поэтому можно сказать, что норма Фробениуса геометрически характеризуется длиной вектора, представляющего собой сумму векторов базиса той же длины, что и каждый вектор, входящий в матрицу.

В регуляризации нейросетей (например, weight decay) часто штрафуют за большие веса. Именно норму Фробениуса от весов добавляют к функции потерь:

где:

  • — функция потерь от весов нейросети до регуляризации;
  • — первоначальная функция потерь от весов модели (например, MSE, CrossEntropy и др.);
  • — коэффициент регуляризации;
  • — квадрат нормы Фробениуса от весов модели.

Помимо этого, норма Фробениуса удобна для сравнения матриц и довольно легко считается.

Однако в некоторых задачах важно не просто измерить общую величину матрицы, а понять, насколько сильно она способна растягивать пространство, действуя как линейный оператор. Для этого вводится другая важная мера — операторная норма.

Операторная норма

В машинном обучении она важна при анализе устойчивости моделей, регуляризации, нормализации весов, а также для оценки чувствительности модели к входным данным.

💡Операторная норма — это максимальное растяжение, которое матрица может дать единичному вектору.

Пусть дана матрица . Её операторной нормой (по -норме) называется:

где — это вектор, на который действует матрица , sup — это сокращение от слова супремум (англ. supremum), или наименьшая верхняя грань.

Что такое супремум

Для конечного набора значений супремум — это просто максимум. В случае бесконечного набора — верхняя его граница вне зависимости от того, включена эта граница в сам набор или нет.

Например:

  • Множество . В этом множестве нет числа 1, но все числа в нём меньше 1. Супремум этого множества .
  • Множество: . Здесь супремум совпадает с максимумом: .

Можно думать о матрице линейного оператора как о линейном преобразовании, которое поворачивает, растягивает и сжимает пространство. Операторная норма — это наибольшая длина, в которую может быть превращён любой вектор единичной длины при этом преобразовании.

Пусть у нас есть матрица и единичный вектор :

Найдем её операторную норму в евклидовой норме (). Для этого вычислим произведение и -норму получаемого вектора.

Чтобы найти операторную норму, мы хотим максимизировать выражение При условии, что лежит на единичной окружности: . Это задача на максимум функции на окружности, и он достигается в точке :

Подставим этот максимум:

Таким образом, операторная норма матрицы равна 4. Это наибольшее растяжение, которое она может вызвать, действуя на векторы единичной длины.

Сведем воедино всё, что мы узнали о нормах. В таблице ниже собраны основные характеристики каждой из рассмотренных метрик: формулы, геометрическая форма единичной сферы и типичные применения в машинном обучении.

Норма

Обозначение

Формула

Геометрия

Применение в ML

-норма, Манхэттенская норма, норма такси (векторы)

Сумма расстояний по осям; расстояние по «сетке улиц»; сфера — ромб

-регуляризация (Lasso-регрессия, SVM), отбор признаков

-норма, Евклидова норма (векторы)

Обычная длина вектора; расстояние по Пифагору; сфера — окружность

-регуляризация (Ridge-регрессия, логистическая регрессия, SVM)

Бесконечная норма, норма Чебышева (векторы)

Максимальное отклонение вдоль осей; сфера — квадрат, выровненный по осям

Отбор признаков, регуляризация, ограничение весов

Норма Фробениуса (матрицы)

Евклидова длина вектора, составленного из всех элементов матрицы

Аналог для матриц: регуляризация весов, сравнение матриц, устойчивость, регуляризация нейросетей (weight decay)

Операторная норма (матрицы)

Максимальное растяжение единичного вектора при линейном преобразовании

Контроль растяжения, сжимающие отображения, оценка чувствительности


Вот и всё!

В этом параграфе мы познакомились с пятью ключевыми нормами и увидели, что каждая из них задает собственную картинку расстояний в признаковом пространстве.

Советуем вам пройти квиз и двигаться дальше. В следующем параграфе мы перейдём от понятия «насколько далеко» к вопросу «в каком направлении» — другими словами, повторим скалярное произведение, косинусную меру, а также разберёмся c проекциями и ортогональностью — теми инструментами, что позволяют моделям опираться не только на длины, но и на углы между векторами.



Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E
Предыдущий параграф4.6. Определитель
Следующий параграф4.8. Проекции, углы и ортогональность