Дать определение Physical AI можно в виде одного короткого предложения. Но такое определение точно собьёт с толку и вызовет больше вопросов, чем даст ответов.
Так что в этом параграфе мы дадим вам необходимый контекст. Вначале обсудим мнимые и реальные проблемы современных роботов, а затем взглянем на способы их решения. После этого вы без труда сможете понять логику определения Physical AI.
Недостающая запчасть
Роботы помогают на производстве со сборкой автомобилей, сваркой и покраской деталей, контролем дефектов. На складах мобильные роботы ускоряют сборку заказов, делают хранение более эффективным: не зря Amazon внедрил у себя более 1 млн роботов.
Есть проблемы, где непонятно, как найти решение без роботов. Например, что делать со стареющим населением развитых стран? На всех не хватит сиделок, чтобы обеспечить достойное качество жизни в старости. Робот-сиделка — хорошее решение.
Но робота-сиделку пока что в магазине не купишь. Самый близкий аналог — робот-пылесос. Но он едва ли удовлетворит потребности, кроме уборки. Несмотря на все успехи в производстве и на складах, внедрение роботизации до сих пор связано с большими капитальными инвестициями. Amazon может себе их позволить, а вот владелец шиномонтажа — нет.
Встраивание десятка роботов в существующий процесс может растянуться на месяцы. Не говоря уже о «святом Граале» бизнеса: брать в аренду дополнительных роботов только на период высоких нагрузок — так же, как это происходит с людьми. Робототехника в 2026 году всё ещё беспомощная и дорогая. Почему же так получилось?
Ещё несколько лет назад в среде робототехники верили, что причина всех бед роботов — недостатки железа. Двигатели большие и постоянно ломаются, поэтому из них не соберёшь сложные механизмы. Ни одна из камер не сравнится с человеческим глазом. А что уж говорить о человеческой коже! Это идеальный тактильный сенсор. Да уж, программистам приходится несладко. Управлять современным роботом — словно идти на ходулях с завязанными глазами по скользкому полу. Ну как с таким железом добраться хотя бы до соседней комнаты?
Но были и те, кто верил, что дело не в железе и копать нужно в другом месте. В 2024 году вышла знаковая работа Mobile ALOHA. В ней исследователи доказали теорему существования: можно собрать доступного робота за 30 000 $ и научить его жарить креветки, убирать со стола и перемещаться внутри здания. Даже такого робота, с ненадёжными актуаторами и без кожи, оказалось достаточно для решения сложных задач манипуляции.
При этом мобильная платформа у Mobile ALOHA не была чем-то новым — такие базы существуют уже много лет. Это ещё раз показывает: прорыв связан не с железом, а с тем, как разные части соединяются в целостную систему, и с новыми подходами к обучению.
Авторы Mobile ALOHA были не единственными, кто искал успеха за пределами железа. Похожая история случилась с робособаками. Прообраз всех современных робособак — это Spot. Его выпустила компания Boston Dynamics ещё в 2016 году.
Но народную славу и горячую любовь исследователей со всего мира робособаки получили после создания Mini Cheetah в MIT. Видео, где эта собака делает сальто назад, стало вирусным в 2019 году. Сразу же после создания робота научили бегать со скоростью 2,5 м/с с помощью лучших алгоритмов математической оптимизации.
Кажется, что это очень быстро, но в 2022 году в работе «Быстрое передвижение благодаря обучению с подкреплением» (англ. Rapid Locomotion via Reinforcement Learning) исследователи применили новый алгоритм к задаче хождения и заставили Mini Cheetah мчаться со скоростью 3,9 м/с и выполнять чудеса акробатики. Оказывается, так можно было!
Mobile ALOHA и робособаки — отличные примеры общей закономерности: как только робототехника сталкивается с реальными задачами и неподготовленным окружением, сразу начинает ощущаться нехватка «мозгов».
Даже Mobile ALOHA при всех её исключительных способностях не универсальный домашний помощник, о котором мы так мечтаем. Ни интерактивности, ни самостоятельного понимания ситуации, ни предугадывания потребностей у неё нет.
То есть запрос на более умных и адаптивных роботов сформировался, но полноценного решения пока нет.
Поход в магазин запчастей
Но есть другая сторона науки, в которой за последние пять лет произошёл большой прорыв в области «мозгостроения». Большие языковые модели (англ. large language models, LLM) и их расширения со зрением (англ. vision language models, VLM) совершили качественный скачок — от простого дописывания текста к выполнению осмысленных задач.
Самое убедительное проявление интеллекта у LLM — самостоятельность и проактивность. Уже сейчас интеллектуальные агенты на базе ChatGPT или Gemini учатся предугадывать спрос и вести простой бизнес, справляясь с кучей проблем в неструктурированном окружении. Пользователей не устраивает ассортимент? Исправим. Проблема с поставщиками? Уладим.
Сравнивать сегодняшнюю робототехнику и мир LLM — это как сравнивать задачу классификации тона сообщений на базе LLM пятилетней давности и создание интеллектуальной среды разработки, способной генерировать приложения с нуля. Несопоставимые по сложности задачи!
Прогресс в LLM настолько велик, что людям нужно придумывать новые критерии, как отличить человека от ИИ, вводить новое понятие интеллекта и даже готовить правовую основу для появления сопоставимого по сложности носителя знаний.
Если сравнить современных роботов и текстовых интеллектуальных агентов по общим критериям, то разница будет ещё более заметна:
|
Критерий |
LLM/VLM |
Классические роботы |
|
Постановка задачи |
Естественный язык (промптинг). «Приготовь план ужина» |
Код и конфигурационные файлы |
|
Стоимость и адаптации |
Низкая/мгновенная адаптация. Достаточно изменить текстовый промпт или дополнить контекст |
Высокая/долгая адаптация. Требуется переписывать контроллеры, пересобирать механику, калибровать датчики |
|
Универсальность |
Модель-генералист. Пишет код, стихи, переводит, решает задачи из разных доменов |
Узкая специализация. Сварочный робот бесполезен на покраске |
|
Здравый смысл |
Полагается на семантику. Знает, что у кружки есть ручка и за неё нужно держать |
Геометрическая задача. Видит набор точек из лидара. Не понимает назначения предмета без явного программирования захвата |
|
Работа с незнакомым |
Феноменально. Может описать объект или явление, которого никогда не видела, по аналогии. Может решать задачи из новых классов |
Беспомощно. Если детектор предметов учился на зелёных кубиках, красный кубик может сломать логику |
|
Планирование в неопределённости |
Адаптивное. Легко строит цепочки рассуждений на 10 шагов вперёд, даже при новых вводных |
Привязанное к заложенной в модели задачи. Теряется при малейшем отклонении реальной физики от модели. Ошибки накапливаются с каждым шагом |
|
Ресурс масштабирования |
Законы масштабирования. Увеличение числа параметров сети и размера датасета конвертируется в увеличение качества решения задачи |
Человеко-часы. Улучшение поведения ограничено временем работы инженеров, пишущих код |
То, что область LLM продвинулась гораздо дальше, не вызывает никаких сомнений. Так почему бы не позаимствовать часть методов и не применить для решения наболевших проблем с роботами?
Итак, мы наконец-то добрались до главной темы этого параграфа — определения Physical AI.
Physical AI — это применение и адаптация методов, которые позволили совершить прорыв в области обработки естественного языка, к управлению роботами и их взаимодействию с физическим миром. Эти методы затрагивают область ИИ в общем и большие языковые модели в частности.
Одна модель, чтобы править всеми
В Physical AI, как и в LLM, основные улучшения происходят вокруг модели, которая управляет роботом.
Долгое время в машинном обучении был принят подход «одна задача — одна модель». Если нужно было обучить модель детекции людей, то собиралась разметка, а затем с нуля тренировалась модель-специалист. Если требовалось получить сегментацию разметки на полу в том же приложении, то создавалась другая модель, и процесс повторялся сначала. Для новых моделей, в зависимости от области, доступности данных, готовности инфраструктуры, этот процесс занимает дни, недели или даже месяцы.
Но в последние годы появилось большое количество моделей-генералистов (англ. foundation model), которые учатся сразу на множестве задач, радикально сокращая время решения новых.
При этом «общий котел» с разнонаправленными данными позволил получать неплохое качество даже в сложных задачах без досбора данных. Добавление дополнительных задач для LLM повлияло на применимость моделей и сходимость экономики во многих бизнес-применениях, где раньше нужно было собирать и размечать датасеты.

В Physical AI модель обязательно должна быть генералистом. Потому что данные от реального робота на вес золота: их сбор происходит в физическом мире, да ещё и на устройстве стоимостью несколько десятков тысяч долларов. А если вспомнить, что в сборе участвуют люди, которые прошли длительное обучение, то стоимость начинает просто зашкаливать. О других причинах, почему модель должна быть генералистом, мы ещё поговорим позднее — в других параграфах хендбука. Так же как и о многих других важных концепциях, вызовах, неотвеченных вопросах и выстраданных решениях.
На каком этапе сейчас Physical AI
Общий AI на базе языковых моделей — это сложная область, которая активно развивается: каждый год в ней происходят значимые события, меняются концепции и подходы.
Например, в области промптинга ещё пару лет назад LLM достигали лучших результатов, когда им показывали несколько примеров решения (few-shot), а теперь LLM гораздо лучше работают с общими инструкциями, а примеры не дают такого результата. Вполне возможно, что ещё через пару лет промптинг исчезнет как таковой.
Так как Physical AI начал активно формироваться только в последние годы, то прогресс и изменения здесь происходят ещё быстрее. Мы точно знаем, что через пару лет появится что-то новое в парадигмах, железе или подходах.
Поэтому к этому хендбуку и всем знаниям в этой сфере стоит относиться как к карте, которую нарисовали, чтобы не заблудиться в моменте.
Теперь, когда мы знаем, что Physical AI базируется на применении парадигм, которые возникли и укрепились во время появления LLM, пришло время познакомиться с самыми важными и ключевыми из них. Этим мы и займёмся в следующем параграфе.