Куда движется генерация изображений?

В последние годы диффузионные модели были основным драйвером развития генеративного моделирования изображений, а область Image Understanding резко продвинулась вперёд за счёт Visual Language Models. Сейчас существует много работ, связанных с объединением дискриминативного и генеративного моделирования в одной архитектуре. Сергей Овчаренко, руководитель отдела мультимодальных анализа и генерации в Яндекс R&D, предложил обсудить, насколько это практически оправданно и станут ли такие модели новой парадигмой.