Куда движется генерация изображений?

22 октября 2025

В последние годы диффузионные модели были основным драйвером развития генеративного моделирования изображений, а область Image Understanding резко продвинулась вперёд за счёт Visual Language Models. Сейчас существует много работ, связанных с объединением дискриминативного и генеративного моделирования в одной архитектуре. Сергей Овчаренко, руководитель отдела мультимодальных анализа и генерации в Яндекс R&D, предложил обсудить, насколько это практически оправданно и станут ли такие модели новой парадигмой.

Авторы

Сергей Овчаренко

Яндекс Образование — Личный кабинет

Куда движется генерация изображений?

Ещё по теме

YaC/e 2025: большая конференция Яндекса о людях и технологиях в образовании

Кэш для товарного поиска Лавки на основе LLM

Как найти лучшую генеративную модель для своей задачи

Релиз: что может пойти не так?

Визуально-языковые модели (VLM) в Яндексе: подходы, данные, подводные камни

YaC/e 2025: Образовательный коворкинг

Как ИИ усиливает аналитика и меняет рынок

История опенсорс-проекта LUWRAIN: как эксперименты с LLM помогают создавать невизуальные интерфейсы для незрячих

Рекомендательные системы

AI&Code: синергия будущего

YaC/e 2025: большая конференция Яндекса о людях и технологиях в образовании

Кэш для товарного поиска Лавки на основе LLM

Как найти лучшую генеративную модель для своей задачи