Ускоряем обучение LLM на 45+%: оптимизация, коммуникации и здравый смысл

Михаил Хрущёв из Яндекса поделился информацией об ускорении претрейнов больших языковых моделей и сценариев Alignment/DPO. В докладе были рассмотрены узкие места в современных претрейнах, библиотека YaFSDP, оптимизация памяти, ценность 3d-4d-параллелизма и ускорение MoE.