Genesis — новая визуальная нейросеть, которая умеет генерировать реалистичные видео, исходя только из текстового описания. Например, если написать ей «резиновый мячик ударяется о стену», то на сгенерированном видео эти два объекта будут взаимодействовать так же, как в реальном мире.
В разработке нейросети принимали участие исследователи из Стэнфорда, Массачусетского технологического института (MIT), а также университетов Гонконга и Пекина. Сейчас Genesis доступна только для разработчиков, но в скором времени её смогут использовать все желающие.
Как устроена нейросеть
Genesis состоит из двух компонентов: физического движка и генеративного фреймворка. Движок моделирует действие физических законов в виртуальной реальности так, как они бы работали в настоящем мире.
Второй компонент, генеративный фреймворк, отвечает за преобразование промтов. Благодаря ему нейросеть переводит запросы пользователей, написанные на естественном языке, в данные разных модальностей: движение камеры, мимику и моторику персонажей или аудиодорожку с их речью.
Генеративный элемент пока находится в разработке. Сейчас доступ можно получить к документации и исходному коду физического движка — он написан на Python.
Почему это стало возможным
Последний тренд в развитии нейросетей — это мультимодальность, то есть обучение моделей обработке разных видов данных. В результате появляются визуальные языковые модели (VLM), которые умеют работать с текстом, картинками и даже звуком одновременно — об этом Журналу рассказывал специалист по распознаванию рукописного текста Женя Карташев.
Этой технологией и оснащён физический движок в составе Genesis. С её помощью стало возможным создание реалистичных анимаций только на основе текстовых описаний. Более того, как заявляют разработчики, VLM-агент будет использовать API платформы для создания полноценных 4D-миров и сред.
Для чего используется сейчас
Изначальная цель нейросети — обучение и исследование роботов. В этой области часто используются графические платформы-симуляторы, с помощью которых для роботов создаются видеоинструкции с имитацией реальной среды. Но многие из таких платформ, по мнению создателей Genesis, чересчур сложны в освоении, в особенности для новичков.
И, кажется, Genesis успешно справляется с этой задачей, запуская симуляции со скоростью до 43 млн кадров в секунду. Это в 430 тысяч раз быстрее, чем в реальном времени, что сокращает время обучения роботов с десятка лет до нескольких часов, — и в 10–80 раз быстрее других существующих симуляторов. Такие высокие показатели стали возможны благодаря параллельной обработке данных с использованием графического процессора.
Другие нейросети для работы с визуалом
-
Stable Diffusion.
Это одна из первых подобных нейросетей с открытым исходным кодом. Она основана на методе скрытой диффузии, когда модель учится очищать изображение от лишних шумов. Разные версии нейронки могут ретушировать загруженные картинки, генерировать на их основе новые, создавать 3D-модели изображённых на них объектов и превращать эти картинки в короткие видео с частотой до 30 кадров в секунду.
-
Mochi 1.
Нейросеть от Genmo была выпущена в конце 2024 года. Она умеет генерировать видео по текстовым описаниям — пока что их разрешение составляет всего 480p, но скоро, по словам разработчиков, Mochi 1 сможет конкурировать по производительности с Runway и другими крупными визуальными ИИ. Одна из особенностей этой модели — компрессионные алгоритмы, которые существенно уменьшают объём сгенерированных видео.
-
DeepMotion.
У этой нейронки есть две версии: SayMotion и Animate 3D. В первой можно выбрать персонажа или создать своего, а модель будет генерировать его передвижения на основе текстового промта. Вторая версия нейросети делает из 2D-видео объёмную анимацию — в одном исходном файле ИИ может отследить движения до восьми человек.
-
Сервис Яндекса, работающий на базе моделей YandexART и YandexGPT. В его основе — метод каскадной диффузии, благодаря которому детализация и качество изображения в процессе генерации постепенно повышаются. Кроме генерации картинок по текстовому описанию в Шедевруме можно обрабатывать изображения в конкретной стилистике. А сейчас пользователям также доступна бета-версия генерации видео — она позволяет выбирать первый кадр и анимационный эффект, с которым он будет «оживать».
Какие перспективы это открывает
Обучением роботов и созданием контента возможности визуальных ИИ не ограничиваются. Вот ещё несколько сфер, которые они могут изменить.
- Киноиндустрия. В 2023 году вышел первый трейлер фильма, созданный при помощи нейросетей. Для этого его автор, Николас Нойберт, использовал Midjourney и Runway, а бюджет составил всего 125 $.
Фильм (который, кстати, назывался Genesis) так и не вышел, но, возможно, с появлением новых визуальных ИИ эту задумку удастся воплотить в жизнь. Их способность быстро генерировать реалистичные и высококачественные видео может существенно упростить создание мультипликации и спецэффектов в кино. Это сэкономит время и силы аниматоров, а также избавит их от необходимости использовать дорогостоящие и сложные технологии.
-
Медицинские исследования.
Американская технологическая компания Nvidia, которая в том числе участвовала в разработке Genesis, в конце 2024 года увеличила свои инвестиции в ИИ-стартап по созданию лекарств. Они используют нейросети для 3D-моделирования молекулярной структуры препаратов.
-
Системы безопасности.
Нейросети, подобные Animate 3D, могут распознавать движения объектов на видео — за счёт чего они и генерируют анимацию.
В дальнейшем эту технологию можно использовать, например, для отслеживания передвижений с помощью видеокамер или для анализа видеозаписей. Это поможет службам безопасности быстрее реагировать на подозрительные действия, выявлять нарушения и предотвращать опасные ситуации. Также эта способность ИИ может пригодиться при изучении живых существ и их поведения.