Определение Physical AI: первый подход

Дать определение Physical AI можно в виде одного короткого предложения. Но такое определение точно собьёт с толку и вызовет больше вопросов, чем даст ответов.

Так что в этом параграфе мы дадим вам необходимый контекст. Вначале обсудим мнимые и реальные проблемы современных роботов, а затем взглянем на способы их решения. После этого вы без труда сможете понять логику определения Physical AI.

Недостающая запчасть

Роботы помогают на производстве со сборкой автомобилей, сваркой и покраской деталей, контролем дефектов. На складах мобильные роботы ускоряют сборку заказов, делают хранение более эффективным: не зря Amazon внедрил у себя более 1 млн роботов.

Есть проблемы, где непонятно, как найти решение без роботов. Например, что делать со стареющим населением развитых стран? На всех не хватит сиделок, чтобы обеспечить достойное качество жизни в старости. Робот-сиделка — хорошее решение.

Но робота-сиделку пока что в магазине не купишь. Самый близкий аналог — робот-пылесос. Но он едва ли удовлетворит потребности, кроме уборки. Несмотря на все успехи в производстве и на складах, внедрение роботизации до сих пор связано с большими капитальными инвестициями. Amazon может себе их позволить, а вот владелец шиномонтажа — нет.

Встраивание десятка роботов в существующий процесс может растянуться на месяцы. Не говоря уже о «святом Граале» бизнеса: брать в аренду дополнительных роботов только на период высоких нагрузок — так же, как это происходит с людьми. Робототехника в 2026 году всё ещё беспомощная и дорогая. Почему же так получилось?

Ещё несколько лет назад в среде робототехники верили, что причина всех бед роботов — недостатки железа. Двигатели большие и постоянно ломаются, поэтому из них не соберёшь сложные механизмы. Ни одна из камер не сравнится с человеческим глазом. А что уж говорить о человеческой коже! Это идеальный тактильный сенсор. Да уж, программистам приходится несладко. Управлять современным роботом — словно идти на ходулях с завязанными глазами по скользкому полу. Ну как с таким железом добраться хотя бы до соседней комнаты?

Источник: YouTube-канал Sequoia Capital

Но были и те, кто верил, что дело не в железе и копать нужно в другом месте. В 2024 году вышла знаковая работа Mobile ALOHA. В ней исследователи доказали теорему существования: можно собрать доступного робота за 30 000 $ и научить его жарить креветки, убирать со стола и перемещаться внутри здания. Даже такого робота, с ненадёжными актуаторами и без кожи, оказалось достаточно для решения сложных задач манипуляции.

При этом мобильная платформа у Mobile ALOHA не была чем-то новым — такие базы существуют уже много лет. Это ещё раз показывает: прорыв связан не с железом, а с тем, как разные части соединяются в целостную систему, и с новыми подходами к обучению.

Авторы Mobile ALOHA были не единственными, кто искал успеха за пределами железа. Похожая история случилась с робособаками. Прообраз всех современных робособак — это Spot. Его выпустила компания Boston Dynamics ещё в 2016 году.

Но народную славу и горячую любовь исследователей со всего мира робособаки получили после создания Mini Cheetah в MIT. Видео, где эта собака делает сальто назад, стало вирусным в 2019 году. Сразу же после создания робота научили бегать со скоростью 2,5 м/с с помощью лучших алгоритмов математической оптимизации.

Кажется, что это очень быстро, но в 2022 году в работе «Быстрое передвижение благодаря обучению с подкреплением» (англ. Rapid Locomotion via Reinforcement Learning) исследователи применили новый алгоритм к задаче хождения и заставили Mini Cheetah мчаться со скоростью 3,9 м/с и выполнять чудеса акробатики. Оказывается, так можно было!

Mini Cheetah (2019). Источник: YouTube‑канал Massachusetts Institute of Technology (MIT)
Прорыв Mini Cheetah. Источник: YouTube-канал MIT CSAIL

Mobile ALOHA и робособаки — отличные примеры общей закономерности: как только робототехника сталкивается с реальными задачами и неподготовленным окружением, сразу начинает ощущаться нехватка «мозгов».

Даже Mobile ALOHA при всех её исключительных способностях не универсальный домашний помощник, о котором мы так мечтаем. Ни интерактивности, ни самостоятельного понимания ситуации, ни предугадывания потребностей у неё нет.

То есть запрос на более умных и адаптивных роботов сформировался, но полноценного решения пока нет.

Поход в магазин запчастей

Но есть другая сторона науки, в которой за последние пять лет произошёл большой прорыв в области «мозгостроения». Большие языковые модели (англ. large language models, LLM) и их расширения со зрением (англ. vision language models, VLM) совершили качественный скачок — от простого дописывания текста к выполнению осмысленных задач.

Самое убедительное проявление интеллекта у LLM — самостоятельность и проактивность. Уже сейчас интеллектуальные агенты на базе ChatGPT или Gemini учатся предугадывать спрос и вести простой бизнес, справляясь с кучей проблем в неструктурированном окружении. Пользователей не устраивает ассортимент? Исправим. Проблема с поставщиками? Уладим.

Сравнивать сегодняшнюю робототехнику и мир LLM — это как сравнивать задачу классификации тона сообщений на базе LLM пятилетней давности и создание интеллектуальной среды разработки, способной генерировать приложения с нуля. Несопоставимые по сложности задачи!

Прогресс в LLM настолько велик, что людям нужно придумывать новые критерии, как отличить человека от ИИ, вводить новое понятие интеллекта и даже готовить правовую основу для появления сопоставимого по сложности носителя знаний.

Если сравнить современных роботов и текстовых интеллектуальных агентов по общим критериям, то разница будет ещё более заметна:

Критерий

LLM/VLM

Классические роботы

Постановка задачи

Естественный язык (промптинг). «Приготовь план ужина»

Код и конфигурационные файлы

Стоимость и адаптации

Низкая/мгновенная адаптация. Достаточно изменить текстовый промпт или дополнить контекст

Высокая/долгая адаптация. Требуется переписывать контроллеры, пересобирать механику, калибровать датчики

Универсальность

Модель-генералист. Пишет код, стихи, переводит, решает задачи из разных доменов

Узкая специализация. Сварочный робот бесполезен на покраске

Здравый смысл

Полагается на семантику. Знает, что у кружки есть ручка и за неё нужно держать

Геометрическая задача. Видит набор точек из лидара. Не понимает назначения предмета без явного программирования захвата

Работа с незнакомым

Феноменально. Может описать объект или явление, которого никогда не видела, по аналогии. Может решать задачи из новых классов

Беспомощно. Если детектор предметов учился на зелёных кубиках, красный кубик может сломать логику

Планирование в неопределённости

Адаптивное. Легко строит цепочки рассуждений на 10 шагов вперёд, даже при новых вводных

Привязанное к заложенной в модели задачи. Теряется при малейшем отклонении реальной физики от модели. Ошибки накапливаются с каждым шагом

Ресурс масштабирования

Законы масштабирования. Увеличение числа параметров сети и размера датасета конвертируется в увеличение качества решения задачи

Человеко-часы. Улучшение поведения ограничено временем работы инженеров, пишущих код

То, что область LLM продвинулась гораздо дальше, не вызывает никаких сомнений. Так почему бы не позаимствовать часть методов и не применить для решения наболевших проблем с роботами?

Итак, мы наконец-то добрались до главной темы этого параграфа — определения Physical AI.

Physical AI — это применение и адаптация методов, которые позволили совершить прорыв в области обработки естественного языка, к управлению роботами и их взаимодействию с физическим миром. Эти методы затрагивают область ИИ в общем и большие языковые модели в частности.

Одна модель, чтобы править всеми

В Physical AI, как и в LLM, основные улучшения происходят вокруг модели, которая управляет роботом.

Долгое время в машинном обучении был принят подход «одна задача — одна модель». Если нужно было обучить модель детекции людей, то собиралась разметка, а затем с нуля тренировалась модель-специалист. Если требовалось получить сегментацию разметки на полу в том же приложении, то создавалась другая модель, и процесс повторялся сначала. Для новых моделей, в зависимости от области, доступности данных, готовности инфраструктуры, этот процесс занимает дни, недели или даже месяцы.

Но в последние годы появилось большое количество моделей-генералистов (англ. foundation model), которые учатся сразу на множестве задач, радикально сокращая время решения новых.

При этом «общий котел» с разнонаправленными данными позволил получать неплохое качество даже в сложных задачах без досбора данных. Добавление дополнительных задач для LLM повлияло на применимость моделей и сходимость экономики во многих бизнес-применениях, где раньше нужно было собирать и размечать датасеты.

Phisical AI

В Physical AI модель обязательно должна быть генералистом. Потому что данные от реального робота на вес золота: их сбор происходит в физическом мире, да ещё и на устройстве стоимостью несколько десятков тысяч долларов. А если вспомнить, что в сборе участвуют люди, которые прошли длительное обучение, то стоимость начинает просто зашкаливать. О других причинах, почему модель должна быть генералистом, мы ещё поговорим позднее — в других параграфах хендбука. Так же как и о многих других важных концепциях, вызовах, неотвеченных вопросах и выстраданных решениях.

На каком этапе сейчас Physical AI

Общий AI на базе языковых моделей — это сложная область, которая активно развивается: каждый год в ней происходят значимые события, меняются концепции и подходы.

Например, в области промптинга ещё пару лет назад LLM достигали лучших результатов, когда им показывали несколько примеров решения (few-shot), а теперь LLM гораздо лучше работают с общими инструкциями, а примеры не дают такого результата. Вполне возможно, что ещё через пару лет промптинг исчезнет как таковой.

Так как Physical AI начал активно формироваться только в последние годы, то прогресс и изменения здесь происходят ещё быстрее. Мы точно знаем, что через пару лет появится что-то новое в парадигмах, железе или подходах.

Поэтому к этому хендбуку и всем знаниям в этой сфере стоит относиться как к карте, которую нарисовали, чтобы не заблудиться в моменте.

Теперь, когда мы знаем, что Physical AI базируется на применении парадигм, которые возникли и укрепились во время появления LLM, пришло время познакомиться с самыми важными и ключевыми из них. Этим мы и займёмся в следующем параграфе.

Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E