Рассматриваются основные алгоритмы для оптимизации функций потерь в глубинном обучении, а именно стохастический пакетный градиентный спуск и его модификации. Особое внимание уделяется градиентному спуску с моментом. Обсуждается так же пакетная нормализация (batch normalization).