Zero-cost fault tolerance в распределённом глубоком обучении

Алексей Морозов, Руководитель группы модернизации нейронных сетей, Яндекс Рекламные технологии

Поделимся опытом, как можно полностью инкапсулировать от ML’щика и исследователя заботу о fault tolerance, распределённой транзакционной записи в storage, асинхронности и минимизации простоев GPU. Дать возможность пользователю автоматически масштабироваться и вообще не думать об инфраструктурных вопросах.