3.7 Чему мы научились

В этой главе мы собрали базовый аппарат математического анализа как язык, на котором удобно описывать поведение функций, а значит, поведение моделей и их функций потерь в задачах анализа данных и машинного обучения.

  • Разобрались, что такое функция и какие бывают типичные формы зависимостей, с которыми мы сталкиваемся в прикладных задачах (зависимость результата от входных данных, зависимость качества модели от параметров).
  • Научились работать с пределами и непрерывностью: понимать локальное поведение функций на малых интервалах и почему малые изменения входа иногда дают большие изменения выхода.
  • Освоили дифференцирование как инструмент чтения графика в динамике: где функция растёт или убывает, где появляются экстремумы и как это связано с оптимизацией.
  • Перешли от одномерной интуиции к многомерной: частные производные, градиент как компас на ландшафте и правило цепочки, которое объясняет, как в сложных композициях «течёт» влияние параметров (и почему бэкпроп вообще работает).
  • Разобрали градиентные методы (GD/SGD/mini-batch), увидели роль скорости обучения и шума и поняли, почему обучение — это управляемое движение по очень сложной поверхности.
  • Заглянули на следующий уровень геометрии: вторые производные и гессиан, методы второго порядка (Ньютон, квази-Ньютон) и то, как ограничения приводят нас к Лагранжу, KKT и формулировкам регуляризации.
  • И, наконец, увидели силу выпуклости: когда ландшафт устроен как одна чаша, локальные аргументы превращаются в глобальные гарантии.

Если коротко, теперь у вас есть цельная картина: как функции ведут себя локально, как это поведение измерять производными и как на этом строятся алгоритмы обучения и оптимизации в ML.

Но дальше неизбежно всплывает другая потребность. Почти всё, что мы обсуждали: градиенты, якобианы, гессианы, шаг Ньютона, батчи, признаки, эмбеддинги, — живет в мире векторов и матриц.

Поэтому в следующей главе мы поговорим о линейной алгебре — она даст вам инструментарий для этих идей: язык пространств, норм, проекций и разложений, без которого современная оптимизация и анализ данных просто не складываются в работающие алгоритмы.

Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E
Предыдущий параграф3.6. Методы второго порядка и условная оптимизация
Следующий параграф4.1. О чём мы поговорим в этой главе