4.14 Чему вы научились

В этой главе мы собрали воедино линейно-алгебраические инструменты, которые чаще всего встречаются в анализе данных и машинном обучении, и показали их на практических задачах.

  • Освежили базу: векторы и матрицы, операции (сложение, умножение, транспонирование), свойства следа и их роль в регуляризации и упрощении выражений.
  • Научились решать системы линейных уравнений: метод Гаусса, LU-разложение (и узнали случаи, когда им пользоваться); обсудили смысл определителя.
  • Разобрали ортогонализацию и QR-разложение (включая Грама — Шмидта) и увидели, как через ортогональные проекции формулируется и решается МНК-регрессия.
  • Ввели нормы и расстояния, обсудили обусловленность и устойчивость вычислений и разобрали, почему масштаб признаков влияет на сходимость алгоритмов.
  • Перешли к спектральным методам: разобрали собственные значения/векторы и диагонализацию; сингулярное разложение (SVD) как основу низкоранговых приближений, сжатия и поиска структуры.
  • Показали, как из SVD получается метод главных компонент (PCA) для снижения размерности. На практике рассмотрели, как по спектру выбирать число компонент и что означает объяснённая дисперсия.
  • Рассмотрели разложения для текстов и скрытых тем: LSA и NMF, их интерпретируемость и ограничения.
  • Разобрали матричную факторизацию в рекомендательных системах: как разреженная матрица рейтингов сворачивается в общие латентные факторы пользователей и объектов
  • Рассмотрели работу SVM, вывели двойственную задачу и обсудили ядровой трюк, позволяющий работать в высокоразмерных пространствах без явного преобразования признаков.
  • Завершили предобработкой признаков: центрирование, стандартизация, робастное масштабирование и их влияние на устойчивость и качество моделей.

Теперь у вас есть целостное представление о том, как методы линейной алгебры применяются в современных алгоритмах анализа данных, и вы умеете использовать эти инструменты для повышения устойчивости, интерпретируемости и эффективности моделей в практических задачах.

Освоив геометрию признакового пространства, вы научились работать с данными в непрерывных пространствах, представляя их векторами и находя в них геометрические структуры. Однако многие задачи в машинном обучении — от подбора признаков до настройки моделей — сводятся к работе с конечными наборами и выбору из огромного числа вариантов. Чтобы научиться оценивать сложность таких задач и понимать, почему полный перебор часто невозможен, понадобится аппарат комбинаторики.

Так что в следующей главе мы погрузимся в мир множеств, перестановок и сочетаний, чтобы разобраться, как принципы подсчёта лежат в основе настройки моделей и помогают осознать то самое «проклятие размерности».

Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E
Предыдущий параграф4.13. Препроцессинг признаков
Следующий параграф5.1. О чём мы поговорим в этой главе