2.5 Определение Physical AI: второй подход

В этом параграфе мы переосмыслим работу, проделанную ранее: попытаемся собрать вместе все опоры AI-революции, изученные в прошлых параграфах, поймём, как они применяются к Physical AI.

А также разберёмся, почему прогресс в Physical AI — это не просто «добавить свежевышедший детектор препятствий в классический пайплайн робота».

Physical AI как новая парадигма робототехники

Давайте вспомним определение Physical AI, которое мы дали в параграфе 2.1:

Physical AI — это применение и адаптация методов, которые позволили совершить прорыв в области обработки естественного языка, к управлению роботами и их взаимодействию с физическим миром. Эти методы затрагивают область ИИ в общем и большие языковые модели в частности.

Мы узнали, что революция AI опиралась на нейросети, но она произошла не тогда, когда нейросети появились, а тогда, когда была создана поддерживающая экосистема, дающая достаточно вычислительных ресурсов и данных.

Вдобавок к этому был открыт трансформер — архитектура, которая способна впитать в себя, как губка, все блага поддерживающей экосистемы: вычислительные ресурсы и данные.

Больше значит лучше. Парадоксально, но, на радость бизнеса, для трансформера работает такой простой рецепт масштабирования. И время делает его только сильнее.

Наконец, E2E-подход в сочетании с новыми архитектурами на масштабе стал просто фантастическим способом борьбы со сложностью, который ранее и не снился инженерам.

Physical AI — это не просто замена отдельных модулей внутри робота аналогичными с ИИ. Во всех роботах и так с середины 2010-х годов внедрили свёрточные сети для детектирования окружающих объектов.

Но это не привело к прорыву в робототехнике, так как масштабировать классическую робототехнику — бесперспективное занятие. Из параграфа 2.4 вы уже знаете, что в центре системы находится большой пайплайн. Внести в него любое существенное изменение дорого и сложно.

Вместо этого Physical AI строит робота на основе принципов проектирования современных сложных систем на базе end-to-end- и трансформерной архитектуры. И данная схема нежизнеспособна без достижения нужного уровня масштабирования по данным и вычислительным ресурсам. Если собрать всё вместе, то новое определение выглядит так:

Physical AI — это парадигма применения ключевых принципов AI-революции (нейросети, масштаб, E2E) к роботам. В результате применения этих принципов робот начинает обладать качественно новыми свойствами, которые не были доступны в пайплайновом подходе:

  • концептуальная простота решения;
  • эффективное использование главного закона масштаба;
  • использование данных в качестве основы для нового поведения (data-driven).

Но чтобы получить эти желанные свойства, в первую очередь нужно изменить подход к разработке.

Новый подход к разработке

На место бесконечно сложных пайплайнов в новом решении приходит трансформерная архитектура в E2E-режиме. И теперь все достижения из смежных областей, где процветают трансформеры, можно применить к роботам.

Например, в работе Dreamer 4 исследователи сделали игрового агента для игры в Minecraft. Оказывается, если применить тот же подход напрямую к робототехнике, то у агента получаются осмысленные манипуляции. Конечно, это не полноценное решение, но в пайплайновом подходе было сложно даже позаимствовать идею.

Dreamer 4. Источник

Теоретически выбор правильной архитектуры в робототехнике позволяет рассчитывать на масштабирование при увеличении датасетов и вычислительных ресурсов, так как мы находимся в начале пути, по которому уже прошли LLM. И уже есть экспериментальные подтверждения, что подобное масштабирование применимо не только к языковым моделям, но и к физическому миру.

Масштабирование модели при объединении датасетов.
Масштабирование модели при объединении датасетов. Источник

Классическая пайплайновая парадигма отличается от Physical AI даже по характеру разработки. Вначале разработка модулей для пайплайна идёт быстро: не нужно держать много контекста в голове, есть готовые части, которые подходят под общие не сильно высокие требования. Затем, когда компонентов становится много, а связи между ними — всё изощрённее, добавление новых функций идёт по одному из трёх сценариев:

  • Каждое изменение, затрагивающее много компонентов, всегда занимает больше времени, чем планировалось, из-за подводных камней. Разработка превращается в ходьбу по минному полю.
  • В момент успешного переписывания оказывается, что невозможно просто добавить новое свойство, не потеряв прошлые. Приходится делать чисто инженерный выбор, какие свойства оставить.
  • Если изменение важное, а разработка зашла в тупик с текущей архитектурой, то команде ничего не остаётся, кроме как перепроектировать всю систему с нуля.

В data-driven-подходе много времени тратится на подготовку инструментов и практик по сбору данных, а также на настройку процесса обучения. Первые результаты появляются сильно позже, чем в пайплайновом подходе. Но после первого навыка всё начинает идти как по маслу: ещё одна пачка данных, ещё немного вычислительных ресурсов конвертируются в предсказуемый рост. Всё переворачивается вверх тормашками!

Решение проблемы с данными

Проблема долгого старта отпугивает многих на пути работы с большими моделями. Так хочется придумать какое-то решение, но современные модели жадные до данных, и, пока не соберёшь первую пачку из нескольких тысяч примеров, чуда не произойдёт. Разве можно придумать, как ускорить Physical AI на старте?

Да, исследователи в области LLM уже открыли рецепт — модели-генералисты, которые уже обучены на большом объёме данных, мы упомянули их в параграфе 2.1.

Начиная не с нуля, а с предобученной модели, разработчики как бы подключаются к общему котлу данных. Именно такие модели-генералисты позволяют облегчить вход в любую область. Дополнительным бонусом модели-генералисты облегчают масштабирование на последующих этапах, как это произошло с машинным переводом в конце 2010-х годов.

Помните рост Google Translate за 2019 год? Модели-генералисты способны создать похожий эффект для роботов.

Улучшение котла с данными для единой модели Google Translate.
Улучшение котла с данными для единой модели Google Translate. Источник

Долгое время в роботах старались применить успехи AI-революции в лоб: взять только вышедший детектор объектов и вставить его в пайплайн. Но настоящее изменение возможно только через переизобретение пайплайна робота с нуля, если отталкиваться от базовых принципов AI-революции.

Этот процесс уже начался в робототехнике: стали появляться первые большие датасеты, в пайплайне роботов становится всё меньше и меньше кирпичиков, но мы ещё не прошли даже полпути до того текущего состояния LLM. Физический мир вносит свои сложности и ограничения. Вдобавок у роботов пока что нет своего «интернета», из которого можно набрать данных в достатке.

Взгляните ещё раз на то, что может ChatGPT, и на то, на что способна современная робототехника. Идей, как применить наработки в области AI, огромное множество. А ценность появления доступного робота-генералиста для всего человечества просто зашкаливает. База для появления нового поколения роботов уже заложена. Осталось только вдохнуть в этих роботов жизнь, собрав их из имеющихся кусочков.

Параграфы 2.1–2.5 помогли нам понять суть Physical AI через ключевые парадигмы AI-революции. Теперь вы знаете, на чём нужно сфокусироваться, чтобы привнести точно такую же революцию в область робототехники. Но это не единственный способ погрузиться в Physical AI. Отличительные признаки этой области можно увидеть, взглянув на ключевые исследования, проекты и команды, формирующие область. К этому мы и приступим в параграфе 2.6.

Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E
Предыдущий параграф2.4. Три опоры AI-революции: end-to-end-подход
Следующий параграф2.6. Знаковые работы и центры развития Physical AI