В этой главе мы собрали базовый аппарат математического анализа как язык, на котором удобно описывать поведение функций, а значит, поведение моделей и их функций потерь в задачах анализа данных и машинного обучения.
- Разобрались, что такое функция и какие бывают типичные формы зависимостей, с которыми мы сталкиваемся в прикладных задачах (зависимость результата от входных данных, зависимость качества модели от параметров).
- Научились работать с пределами и непрерывностью: понимать локальное поведение функций на малых интервалах и почему малые изменения входа иногда дают большие изменения выхода.
- Освоили дифференцирование как инструмент чтения графика в динамике: где функция растёт или убывает, где появляются экстремумы и как это связано с оптимизацией.
- Перешли от одномерной интуиции к многомерной: частные производные, градиент как компас на ландшафте и правило цепочки, которое объясняет, как в сложных композициях «течёт» влияние параметров (и почему бэкпроп вообще работает).
- Разобрали градиентные методы (GD/SGD/mini-batch), увидели роль скорости обучения и шума и поняли, почему обучение — это управляемое движение по очень сложной поверхности.
- Заглянули на следующий уровень геометрии: вторые производные и гессиан, методы второго порядка (Ньютон, квази-Ньютон) и то, как ограничения приводят нас к Лагранжу, KKT и формулировкам регуляризации.
- И, наконец, увидели силу выпуклости: когда ландшафт устроен как одна чаша, локальные аргументы превращаются в глобальные гарантии.
Если коротко, теперь у вас есть цельная картина: как функции ведут себя локально, как это поведение измерять производными и как на этом строятся алгоритмы обучения и оптимизации в ML.
Но дальше неизбежно всплывает другая потребность. Почти всё, что мы обсуждали: градиенты, якобианы, гессианы, шаг Ньютона, батчи, признаки, эмбеддинги, — живет в мире векторов и матриц.
Поэтому в следующей главе мы поговорим о линейной алгебре — она даст вам инструментарий для этих идей: язык пространств, норм, проекций и разложений, без которого современная оптимизация и анализ данных просто не складываются в работающие алгоритмы.