В этой главе мы собрали воедино линейно-алгебраические инструменты, которые чаще всего встречаются в анализе данных и машинном обучении, и показали их на практических задачах.
- Освежили базу: векторы и матрицы, операции (сложение, умножение, транспонирование), свойства следа и их роль в регуляризации и упрощении выражений.
- Научились решать системы линейных уравнений: метод Гаусса, LU-разложение (и узнали случаи, когда им пользоваться); обсудили смысл определителя.
- Разобрали ортогонализацию и QR-разложение (включая Грама — Шмидта) и увидели, как через ортогональные проекции формулируется и решается МНК-регрессия.
- Ввели нормы и расстояния, обсудили обусловленность и устойчивость вычислений и разобрали, почему масштаб признаков влияет на сходимость алгоритмов.
- Перешли к спектральным методам: разобрали собственные значения/векторы и диагонализацию; сингулярное разложение (SVD) как основу низкоранговых приближений, сжатия и поиска структуры.
- Показали, как из SVD получается метод главных компонент (PCA) для снижения размерности. На практике рассмотрели, как по спектру выбирать число компонент и что означает объяснённая дисперсия.
- Рассмотрели разложения для текстов и скрытых тем: LSA и NMF, их интерпретируемость и ограничения.
- Разобрали матричную факторизацию в рекомендательных системах: как разреженная матрица рейтингов сворачивается в общие латентные факторы пользователей и объектов
- Рассмотрели работу SVM, вывели двойственную задачу и обсудили ядровой трюк, позволяющий работать в высокоразмерных пространствах без явного преобразования признаков.
- Завершили предобработкой признаков: центрирование, стандартизация, робастное масштабирование и их влияние на устойчивость и качество моделей.
Теперь у вас есть целостное представление о том, как методы линейной алгебры применяются в современных алгоритмах анализа данных, и вы умеете использовать эти инструменты для повышения устойчивости, интерпретируемости и эффективности моделей в практических задачах.
Освоив геометрию признакового пространства, вы научились работать с данными в непрерывных пространствах, представляя их векторами и находя в них геометрические структуры. Однако многие задачи в машинном обучении — от подбора признаков до настройки моделей — сводятся к работе с конечными наборами и выбору из огромного числа вариантов. Чтобы научиться оценивать сложность таких задач и понимать, почему полный перебор часто невозможен, понадобится аппарат комбинаторики.
Так что в следующей главе мы погрузимся в мир множеств, перестановок и сочетаний, чтобы разобраться, как принципы подсчёта лежат в основе настройки моделей и помогают осознать то самое «проклятие размерности».