Генеративные модели и методы обучения с подкреплением

Языковые модели учатся генерировать текст, похожий на человеческий, при этом такие аспекты, как полезность, безопасность и правдивость, за исключением фильтрации датасетов, никак не регулируются. Методы обучения с подкреплением позволяют обучить не просто модель, способную генерировать правдоподобный текст, а модель, чьи генерации будут высоко оценены человеком по вышеприведённым аспектам. В этом докладе мы рассмотрим один из таких алгоритмов: DPO и то, как мы применяли его в Яндексе для обучения YandexGPT.
Спикер: Федор Лебедь, Разработчик отдела NLP группы YandexGPT Alignment, Яндекс Поиск.