Обзор Reinforcement Learning с ICML | Дмитрий Бабаев, Яндекс

Дмитрий Бабаев, руководитель ML R&D в Яндекс Картах, рассказывает о самых интересных статьях с прошедшей конференции ICML, посвящённых обучению с подкреплением. В частности, он обсуждает работу Stop Regressing: Training Value Functions via Classification for Scalable Deep RL от DeepMind, в которой представлен нестандартный подход к регрессиям.