Михаил Хрущёв из Яндекса поделился информацией об ускорении претрейнов больших языковых моделей и сценариев Alignment/DPO. В докладе были рассмотрены узкие места в современных претрейнах, библиотека YaFSDP, оптимизация памяти, ценность 3d-4d-параллелизма и ускорение MoE.