Последний тренд в развитии нейросетей — это мультимодальность, то есть обучение моделей обработке разных видов данных. В результате появляются визуальные языковые модели (VLM), которые умеют работать с текстом, картинками и даже звуком одновременно — об этом Журналу рассказывал специалист по распознаванию рукописного текста Женя Карташев.
Этой технологией и оснащён физический движок в составе Genesis. С её помощью стало возможным создание реалистичных анимаций только на основе текстовых описаний. Более того, как заявляют разработчики, VLM-агент будет использовать API платформы для создания полноценных 4D-миров и сред.
Для чего используется сейчас
Изначальная цель нейросети — обучение и исследование роботов. В этой области часто используются графические платформы-симуляторы, с помощью которых для роботов создаются видеоинструкции с имитацией реальной среды. Но многие из таких платформ, по мнению создателей Genesis, чересчур сложны в освоении, в особенности для новичков.