Text-to-Image диффузионные модели умеют генерировать изображения по текстовому описанию и создавать совершенно новые концепты. Как строится процесс их обучения от сбора датасетов до оценки генеративной модели? Какие возможности применения диффузионных моделей есть уже сейчас и что ждёт их в будущем?
Руководитель группы нейросетевых технологий компьютерного зрения в Яндекс Поиске, Сергей Овчаренко, рассказывает о процессе обучения YandexART — модели, которая работает в приложении «Шедеврум» и других продуктах Яндекса.