Курс лекций ШАД по глубинному обучению

Школа анализа данных открыла для всех желающих доступ к видеолекциям курса по глубинному обучению.

Курс знакомит слушателей с основами нейросетей для изображений, также на видеолекциях обсуждаются основные архитектуры, такие как свёрточные сети и трансформеры, и подсвечиваются последние тренды и способы применения этих архитектур в задачах зрения и графики.

Лектор курса — Виктор Лемпицкий, он работает в Медиасервисах Яндекса, а также руководит группой компьютерного зрения в Сколтехе.

Лекция 1.

В лекции дается неформальное определение глубокого обучения, очень кратко освещаются история глубокого обучения, обсуждается алгоритм обратного распространения ошибки, обсуждается концепция слоев сети. В конце лекции очень кратко обсуждаются биологические нейросети.

Лекция 2.

Рассматриваются основные алгоритмы для оптимизации функций потерь в глубинном обучении, а именно стохастический пакетный градиентный спуск и его модификации. Особое внимание уделяется градиентному спуску с моментом. Также обсуждается пакетная нормализация (batch normalization).

Лекция 3.

Лекция посвящена сверточным нейросетям. В ней дается определение сверточных слоев, расматриваются их вариации (паддинг, варианты с пропуском, depthwise-separable и 1-by-1 convolutions). Обсуждается обратное распространение через сверточные слои (а также через max pooling слой). Во второй половине лекции рассматриваются популярные архитектуры сверточных нейросетей для классификации изображений (LeNet, AlexNet, VGGNet, Inception, Resnet, ResNext, MobileNet, EfficientNet).

Лекция 4.

Лекция посвящена представлениям данных, выучиваемым сверточными нейросетями. Рассматриваются разные способы визуализации и анализа подобных представлений. Обсуждаются атаки на нейросети, а также генерация искусственных изображений-иллюзий для нейросетей. Обсуждается способность больших сверточных нейросетей к переобучению под произвольные выборки. Заключительная часть лекции посвящена трансферу знаний с применением сверточных нейросетей.

Лекция 5.

В лекции дается обзор применений сверточных нейросетей в компьютерном зрении. Рассматриваются задачи семантической и instance-сегментации, обнаружение объектов, распознавание лиц и людей. В каждом случае рассматриваются формулировка задачи, основные архитектурные паттерны для нейросетей, решающих данные задачи, популярные архитектуры. В конце обсуждаются последние работы по контрастивному предобучению нейросетей без учителя.

Лекция 6.

В лекции рассматриваются нейросети, обрабатывающие изображения (на примере повышения разрешения), и нейросети, синтезирующие изображения. Рассматриваются функции потери (включая перцептивные -- perceptual losses, текстурные функции потери). Рассматриваются задачи синтеза текстур и стилизации изображений. Обсуждается модуль адаптивной instance нормализации и его применение.

Лекция 7.

В лекции описываются латентные порождающие модели на основе нейросетей, обучающиеся без учителя. В начале рассматривается модель Generative Latent Optimization (GLO), далее рассматриваются автокодировщики и их применение, включая варационные автокодировщики. Во второй половине лекции рассматриваются нормализующие потоки, а также вводятся противоборствующие сети (generative adversarial networks).

Лекция 8.

Лекция посвящена современным вариациям противоборствующих нейросетей и обучению с дискриминаторными функциями потери. Рассматриваются как продвинутые варианты латентных моделей (StyleGAN1, StyleGAN2), так и применение дискриминаторных функций потерь в задачах трансляции изображений и им подобным. Рассматриваются основные паттерны, применяемые при построении генераторов. Рассматриваются основные применения этих технологий, такие как нейросинтезаторы реалистичных изображений и нейроаватары.

Лекция 9.

Последняя лекция курса посвящена применению нейросетей для задач 3D-реконструкции и представления 3D-сцен. Первая половина лекции посвящена задаче восстановления геометрии. Рассматриваются стереосопоставление, монокулярная оценка глубины, нейросети, восстанавливающие облака точек, а также объекты в неявном представлении. Во второй половине лекции рассматриваются системы, позволяющие синтезировать новые виды сцены. Рассматриваются системы, основанные на волюметрическом ренедеринге и неявных представлениях (NeRF и подобные), системы с нейротекстурированными триангулированными представлениями и точечным представлением геометрии. Дается краткий обзор пакетов для нейрорендеринга.

Краткий пересказ от Yandex GPT