В этом параграфе мы переосмыслим работу, проделанную ранее: попытаемся собрать вместе все опоры AI-революции, изученные в прошлых параграфах, поймём, как они применяются к Physical AI.
А также разберёмся, почему прогресс в Physical AI — это не просто «добавить свежевышедший детектор препятствий в классический пайплайн робота».
Physical AI как новая парадигма робототехники
Давайте вспомним определение Physical AI, которое мы дали в параграфе 2.1:
Physical AI — это применение и адаптация методов, которые позволили совершить прорыв в области обработки естественного языка, к управлению роботами и их взаимодействию с физическим миром. Эти методы затрагивают область ИИ в общем и большие языковые модели в частности.
Мы узнали, что революция AI опиралась на нейросети, но она произошла не тогда, когда нейросети появились, а тогда, когда была создана поддерживающая экосистема, дающая достаточно вычислительных ресурсов и данных.
Вдобавок к этому был открыт трансформер — архитектура, которая способна впитать в себя, как губка, все блага поддерживающей экосистемы: вычислительные ресурсы и данные.
Больше значит лучше. Парадоксально, но, на радость бизнеса, для трансформера работает такой простой рецепт масштабирования. И время делает его только сильнее.
Наконец, E2E-подход в сочетании с новыми архитектурами на масштабе стал просто фантастическим способом борьбы со сложностью, который ранее и не снился инженерам.
Physical AI — это не просто замена отдельных модулей внутри робота аналогичными с ИИ. Во всех роботах и так с середины 2010-х годов внедрили свёрточные сети для детектирования окружающих объектов.
Но это не привело к прорыву в робототехнике, так как масштабировать классическую робототехнику — бесперспективное занятие. Из параграфа 2.4 вы уже знаете, что в центре системы находится большой пайплайн. Внести в него любое существенное изменение дорого и сложно.
Вместо этого Physical AI строит робота на основе принципов проектирования современных сложных систем на базе end-to-end- и трансформерной архитектуры. И данная схема нежизнеспособна без достижения нужного уровня масштабирования по данным и вычислительным ресурсам. Если собрать всё вместе, то новое определение выглядит так:
Physical AI — это парадигма применения ключевых принципов AI-революции (нейросети, масштаб, E2E) к роботам. В результате применения этих принципов робот начинает обладать качественно новыми свойствами, которые не были доступны в пайплайновом подходе:
- концептуальная простота решения;
- эффективное использование главного закона масштаба;
- использование данных в качестве основы для нового поведения (data-driven).
Но чтобы получить эти желанные свойства, в первую очередь нужно изменить подход к разработке.
Новый подход к разработке
На место бесконечно сложных пайплайнов в новом решении приходит трансформерная архитектура в E2E-режиме. И теперь все достижения из смежных областей, где процветают трансформеры, можно применить к роботам.
Например, в работе Dreamer 4 исследователи сделали игрового агента для игры в Minecraft. Оказывается, если применить тот же подход напрямую к робототехнике, то у агента получаются осмысленные манипуляции. Конечно, это не полноценное решение, но в пайплайновом подходе было сложно даже позаимствовать идею.
Теоретически выбор правильной архитектуры в робототехнике позволяет рассчитывать на масштабирование при увеличении датасетов и вычислительных ресурсов, так как мы находимся в начале пути, по которому уже прошли LLM. И уже есть экспериментальные подтверждения, что подобное масштабирование применимо не только к языковым моделям, но и к физическому миру.
Классическая пайплайновая парадигма отличается от Physical AI даже по характеру разработки. Вначале разработка модулей для пайплайна идёт быстро: не нужно держать много контекста в голове, есть готовые части, которые подходят под общие не сильно высокие требования. Затем, когда компонентов становится много, а связи между ними — всё изощрённее, добавление новых функций идёт по одному из трёх сценариев:
- Каждое изменение, затрагивающее много компонентов, всегда занимает больше времени, чем планировалось, из-за подводных камней. Разработка превращается в ходьбу по минному полю.
- В момент успешного переписывания оказывается, что невозможно просто добавить новое свойство, не потеряв прошлые. Приходится делать чисто инженерный выбор, какие свойства оставить.
- Если изменение важное, а разработка зашла в тупик с текущей архитектурой, то команде ничего не остаётся, кроме как перепроектировать всю систему с нуля.
В data-driven-подходе много времени тратится на подготовку инструментов и практик по сбору данных, а также на настройку процесса обучения. Первые результаты появляются сильно позже, чем в пайплайновом подходе. Но после первого навыка всё начинает идти как по маслу: ещё одна пачка данных, ещё немного вычислительных ресурсов конвертируются в предсказуемый рост. Всё переворачивается вверх тормашками!
Решение проблемы с данными
Проблема долгого старта отпугивает многих на пути работы с большими моделями. Так хочется придумать какое-то решение, но современные модели жадные до данных, и, пока не соберёшь первую пачку из нескольких тысяч примеров, чуда не произойдёт. Разве можно придумать, как ускорить Physical AI на старте?
Да, исследователи в области LLM уже открыли рецепт — модели-генералисты, которые уже обучены на большом объёме данных, мы упомянули их в параграфе 2.1.
Начиная не с нуля, а с предобученной модели, разработчики как бы подключаются к общему котлу данных. Именно такие модели-генералисты позволяют облегчить вход в любую область. Дополнительным бонусом модели-генералисты облегчают масштабирование на последующих этапах, как это произошло с машинным переводом в конце 2010-х годов.
Помните рост Google Translate за 2019 год? Модели-генералисты способны создать похожий эффект для роботов.
Долгое время в роботах старались применить успехи AI-революции в лоб: взять только вышедший детектор объектов и вставить его в пайплайн. Но настоящее изменение возможно только через переизобретение пайплайна робота с нуля, если отталкиваться от базовых принципов AI-революции.
Этот процесс уже начался в робототехнике: стали появляться первые большие датасеты, в пайплайне роботов становится всё меньше и меньше кирпичиков, но мы ещё не прошли даже полпути до того текущего состояния LLM. Физический мир вносит свои сложности и ограничения. Вдобавок у роботов пока что нет своего «интернета», из которого можно набрать данных в достатке.
Взгляните ещё раз на то, что может ChatGPT, и на то, на что способна современная робототехника. Идей, как применить наработки в области AI, огромное множество. А ценность появления доступного робота-генералиста для всего человечества просто зашкаливает. База для появления нового поколения роботов уже заложена. Осталось только вдохнуть в этих роботов жизнь, собрав их из имеющихся кусочков.
Параграфы 2.1–2.5 помогли нам понять суть Physical AI через ключевые парадигмы AI-революции. Теперь вы знаете, на чём нужно сфокусироваться, чтобы привнести точно такую же революцию в область робототехники. Но это не единственный способ погрузиться в Physical AI. Отличительные признаки этой области можно увидеть, взглянув на ключевые исследования, проекты и команды, формирующие область. К этому мы и приступим в параграфе 2.6.