Как вы уже поняли, Physical AI — молодая и быстро развивающаяся область.
Понять её можно двумя способами: через принципы, которые её сформировали, и через знаковые работы, которые задали направление развития. Первый подход мы отразили в параграфах 2.1–2.5.
Здесь переходим ко второму — смотрим на ключевые исследования, проекты и команды, чтобы увидеть область с другой стороны и понять, что в ней действительно важно.
Как будет устроен наш рассказ
Может показаться, что инновация движется линейно, как поезд по рельсам. В лаборатории рождается идея. Если идея успешная, то при удачном стечении обстоятельств какая-то компания эту идею заметит, подхватит и запакует в продукт. Либо учёный, поверивший в свою идею, «наденет шапку» бизнесмена, откроет компанию и займётся её коммерциализацией.
Вспомнить хотя бы пример Ларри Пейджа и Сергея Брина, которые хотели продать свои наработки по алгоритму PageRank компании Yahoo и продолжить дальше заниматься исследовательской работой. Но Yahoo отклонила их предложение, и тогда они открыли собственную компанию — Google.
Но это лишь взгляд на происходящее со стороны конкретного продукта (автомобиля, микроволновой печи и т. д.). С точки зрения развития области в целом, можно увидеть совершенно другие процессы.
Поэтому наш обзор состоит из трёх разделов:
- В первом мы рассмотрим ключевые работы, которые повлияли на Physical AI.
- Во втором — усилители экосистемы: проекты, которые оказывают огромное влияние на всю экосистему области.
- В третьем — лидеров индустрии, которые превращают теорию в функциональные продукты.
Такая структура поможет нам проиллюстрировать их взаимоотношения. Потому что часто бывает так, что одни и те же коллективы постоянно генерируют свежие идеи в области, но подхватывают и воплощают их в виде продуктов или новых функций другие компании.
Про это важно знать, потому что если мы ищем новые идеи и их эволюцию, то нужно следить за устоявшимися научными коллективами (они — драйверы инноваций). А если нас интересуют практические применения, то искать их нужно среди стартапов и передовых компаний.
Не менее важны и участники-усилители. Пусть они имеют не такое большое значение для выбранного продукта конкретной компании, но при этом оказывают огромное влияние на всю экосистему области.
Например, благодаря компании Velodyne, первому производителю дальнобойных лидаров, стал возможен беспилотный транспорт. А уже сейчас лидары класса Velodyne радикально упрощают задачу навигации для целого класса роботов. И являются стандартом де-факто во всех областях робототехники.
Поэтому на знаковые работы и реальные применения мы будем смотреть именно в такой системе координат.

Избранные работы от драйверов инноваций
Традиционно передовой край науки принадлежал научным институтам, так как существовало много неопределённостей и риска для устоявшихся компаний. Но требование масштаба, одной из опор ИИ-революции, вывело целые научные направления из стен институтов.
Эксперименты с нейронными сетями по несколько миллиардов параметров и сбор больших датасетов невозможны без крупных финансовых вложений. Теперь все современные LLM-модели и масштабные эксперименты делаются в стенах R&D-подразделений крупных технологических компаний.
Так как Physical AI идёт по следам ИИ-эволюции, то масштаб здесь также имеет принципиальное значение. Часть экспериментов Physical AI просто неподъёмны для научных институтов из-за отсутствия больших кластеров с GPU.
А работы, исследующие свойства масштаба, так же как и в LLM-революции, смогут появиться только в крупных технологических компаниях. Либо при колоссальных усилиях по координации ресурсов нескольких научных институтов.
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
В то время как задачи сложной манипуляции пытались решить алгоритмами на основе обучения с подкреплением, авторы этой работы показали, что imitation learning и обучение на основе телеоп-данных имеют критические преимущества.
Что такое «обучение с подкреплением»
Обучение с подкреплением (англ. reinforcement learning, RL) — это разновидность обучения, когда модель учится не просто повторять последовательность, как в imitation learning, а старается заработать максимальную награду.
Конструирование развивающей награды для любого состояния среды — отдельная сложная задача.
Оказалось, что качество физических данных не просто влияет на итоговую модель, а определяет, будет ли решена задача в принципе. В работе также были подсвечены ключевые изменения в архитектуре, которые раньше казались неважными.
Что такое imitation learning и телеоп-данные
Imitation learning — это метод обучения с учителем, когда AI-тренер решает с помощью телеопа задачу, которую должен решать робот. Во время этого записываются данные всех сенсоров (наблюдения) и команды управления для робота. Далее модель Physical AI учится выдавать правильные команды управления в ответ на данные с сенсоров.
Телеоп-данные — наборы наблюдений и команд управления, собранные AI-тренером для целевой задачи.
Фактически это была одна из первых работ про масштабное тестирование телеоп-данных для решения сложных задач манипуляции. Она дала понять, что даже сложные задачи можно решить на основе данных с камер, если собрать большой датасет.
Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
До этой работы большинству людей казалось, что только несовершенство существующего железа отделяет нас от умных домашних помощников и роботов, которые справляются со сложными задачами. Если манипулятор был бы таким же гибким, как рука человека, или если только у роботов была кожа, то сразу бы случился неминуемый прогресс.
Но оказалось, что мобильного робота для части домашних дел можно построить, потратив лишь $30 тыс. Немыслимо! Он сможет выполнять сложные задачи с высокой повторяемостью, причём для обучения будет достаточно 50–200 демонстраций.

Вдобавок авторы продемонстрировали переносимость навыков между разными воплощениями: данные со статических роборук подходят для претрейна мобильного манипулятора.
RT–1: Robotics Transformer for Real-World Control at Scale
В этой работе Google сделал первый шаг в сторону создания робота-генералиста на базе трансформера. Это был один из первых примеров модели, которая справляется с разнообразными бытовыми задачами. Для выбора задачи пользователю достаточно «запромптить» робота.
Заявка на робота-генералиста оказалась достаточно успешной и убедительной, спровоцировав целую лавину работ и стартапов в этом направлении.
Авторы показали прирост метрик от применения симуляционных данных при создании датасета: это улучшает работу с объектами, которых не видел реальный робот. Также есть польза от обучения на данных с других роботов. Модель научится выполнять задачи, на которых не была обучена для выбранного робота.
И напоследок авторы сделали важный вывод про данные: разнообразие по задачам даёт больший вклад в обобщаемость модели, чем увеличение датасета для уже имеющихся навыков.
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
Авторы RT–1 уже показали, насколько хорошим может быть наше будущее, если просто собрать достаточно данных на реальном роботе и не допустить ошибок в реализации. В Open X-Embodiment же исследуется польза от данных с совершенно разных роботов.

Они коллективно собрали датасет из более чем 1 млн эпизодов, в котором есть 22 робота и более 160 тыс. разнообразных задач. И да, эти данные позволяют улучшать обобщающую способность ещё сильнее, почти во всех случаях превосходя моделей-специалистов, особенно при маленьком размере исходного датасета.
Это как раз пример той самой работы-«единорога», редко появляющейся в научных сообществах: например, когда датасет был собран в складчину усилиями множества разных коллективов.
Смешанное чувство вызывает открытие, что наличие VLM, обученной на интернет-данных, сильно помогает роботам. С одной стороны, сложился ещё один маленький пазл успешной архитектуры Physical AI, но при этом, похоже, нам потребуется гораздо больше вычислительных ресурсов, чем мы хотели потратить.
У самой лучшей модели-генералиста в статье было 55 млрд параметров. И она оказалась в два раза успешней, чем модель с 5 млрд параметров.
EMMA: End-to-End Multimodal Model for Autonomous Driving
Работа от Waymo и DeepMind в очередной раз демонстрирует, как end-to-end и масштаб побеждают продуманный дизайн. В качестве базы для работы была взята VLM Gemini и дообучена на большом датасете Waymo.

Результаты превзошли все ожидания: модель оказалась лучше внутренних решений Waymo для всех задач, встречающихся в беспилотном вождении. При этом сеть использовала только камеры — данные с лидаров и радаров, применяющиеся во внутренних решениях, были ей недоступны.
В работе также показали, что если обучить модель-генералиста на нескольких задачах, то она даёт более хороший результат на выбранном датасете, чем модель-специалист, обученная лишь на целевом датасете.
Ну и напоследок ещё немного про масштаб: даже на таком большом датасете (200 тыс. часов вождения), даже с огромным претрейном Gemini оказалось, что качество модели можно улучшить, добавив ещё больше данных. Теперь только осталось их где-то раздобыть!
Sim-to-Real: Learning Agile Locomotion For Quadruped Robots
В 2010-х локомоушен был непокорённой вершиной и считался самой сложной задачей робототехники.
Научить робота ходить было так же сложно, как написать симфонию, не меньше. Но оказалось, что рецепт достаточно простой: нужно учить робота в симуляторе, добавив два важных ингредиента.
- Во-первых, увеличить точность модели робота, закрыв часть real-to-sim-расхождений.
- Во-вторых, добавить в симуляцию самые важные факторы, ведь реальный мир непредсказуем.
Расхождение реальности и симуляции (real-to-sim gap, sim-to-real gap)
Мечта любого робототехника — разработать модель в симуляции, протестировать её хорошенько, а затем просто запустить на реальном роботе. К сожалению, симулятор не способен передать всю разницу физики окружающего мира, так же как и мы не можем измерить все свойства объектов реального мира и перенести их в симуляционную сцену. Всегда остаётся зазор в точности выполнения моделей. Этот зазор обычно называют расхождение sim-to-real или real-to-sim. Первый термин чаще всего используют при чистом обучении в симуляции и оценке в реальности. Второй же при неточности переноса объектов окружения из реальности в симуляцию.
И случился прорыв: впервые робособака (если этого робота так можно назвать) научилась ходить в симуляции, а результаты перенеслись в реальность без дообучения. Причём политика оказалась на 30% более энергоэффективной, чем сложная модель, созданная инженерами.
Опыт, полученный в этой работе, до сих пор используется во многих RL-политиках локомоушена.
Humanoid Locomotion as Next Token Prediction
Одна из первых работ, которая перенесла ключевые выводы LLM-эволюции на задачи перемещения гуманоидных роботов (локомоушена).

Оказывается, если взять хорошую архитектуру, собрать достаточно данных и учить эту сеть по методологии LLM, то получится хорошо ходящий робот.
Авторы этой статьи построили политику на базе трансформера. Обучили модель на 27 часах хождения, снятых с человека в мокап-костюме. И робот с этой моделью смог нормально ходить в окружении, откуда у него не было обучающих данных.
UMI on Legs: Making Manipulation Policies Mobile with Manipulation-Centric Whole-body Controllers
Эта работа показала, что пока у нас нет данных для сборки полной задачи сложной манипуляции, RL может быть отличным «клеем».

Можно взять политику, обученную для статического окружения, поставить на мобильную платформу и научить в симуляции через RL подстраиваться под прошлую политику.
Усилители экосистемы
Эти работы сами по себе не содержат научных откровений. Здесь нет какой-то одной идеи, которая всё изменила, но за счёт своей глубокой инженерной направленности они открыли возможность большему числу людей экспериментировать с Physical AI.
Теперь в том же Сколтехе студентам не нужно выстраиваться в очередь для тестов своего дипломного проекта на робособаках. Роботы стали доступнее, роботов хватит всем.
OpenVLA: An Open-Source Vision-Language-Action Model
Вслед за серией работ RT–1 и RT–2 это была одна из первых работ, в которой взяли хорошую VLM и адаптировали её под роботов (превратили в VLA).
Что такое VLA
VLA (Vision Language Action) — разновидность модели, которая принимает на вход кадры с камеры, текст и выдаёт управляющие команды, которые нужно выполнить на роботе.

Авторы провели много экспериментов для выбора правильного дизайна модели, а также обучающего датасета. Сверху этого сделали доступные оптимизации, интегрировались с известными исследовательскими платформами и выложили весь имеющийся код в опенсорс.
Теперь любой научный коллектив может взять OpenVLA и на 50–200 примерах получить разумное поведение.
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
Если OpenVLA больше направлена на академиков, которым важна полная воспроизводимость результатов, то GR00T N1 (и его продолжение N1.5) ориентирована на практиков, которые готовы уже что-то пощупать.
NVIDIA представила свою версию модели-генералиста, в которой объединила последние достижения. Модель подготовлена для доучивания и использования на новых роботах. Благо в исследовании её специально тестировали в режиме ограниченных данных и вычислительных ресурсов — основном режиме эксплуатации.
В дополнение к этому NVIDIA транслирует видение пирамиды данных будущего. Никто не питает иллюзий, что мы сможем получить генералиста, собрав небольшой датасет. Данных потребуется много, но часть из них будет получена из симуляции, а часть — из доступных демонстраций с людьми.

SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data
После выхода Mobile ALOHA многие всерьёз задумались над вопросом: насколько дешёвым должно быть железо, чтобы оно всё ещё было базово полезным? И оказалось, что более-менее полезное железо стоит ещё на один порядок дешевле, чем Mobile ALOHA. Причём какая-то часть корпусов и механизмов вполне может печататься на 3D-принтере.

Появление доступных роборук класса «собери сам» создало спрос на VLA-модели, которые можно запускать на обычных домашних компьютерах.
И авторы SmolVLA своей работой закрыли эту нишу: полученная модель может как-то работать даже на CPU. Эта работа похожа на Open X-Embodiment, где датасет собрали в складчину — не одной командой, а усилиями множества участников.
SmolVLA ещё больше расширяет эту идею, прибегая к помощи сообщества энтузиастов. С миру по нитке — и получилась достаточно неплохая VLA-модель, работающая на потребительских GPU и дешёвых роборуках. На каких-то задачах она даже смогла обогнать OpenVLA и другие передовые модели, например лучше решила ультрасложные задачи из бенчмарка Meta-World.
Orbit: A Unified Simulation Framework for Interactive Robot Learning Environments
В мире много лабораторий, которые хотели бы прикоснуться к Physical AI, но не могут из-за высокого порога входа: нужно купить робота и постараться не разбить его в первую неделю. Симуляция — это хорошая альтернатива для части реальных задач, а также незаменимый инструмент для проведения базовых экспериментов и обучения RL.
В этой работе авторы предложили свой фреймворк для симуляции Orbit. Но поистине экосистемной эту работу делают две вещи:
- Разнообразие роботов, задач и окружений.
- Интеграция со многими известными проектами по симуляции (RSL-RL, robomimic, rl-games, Stable-Baselines3).

Сейчас Orbit более известен как IsaacLab и входит в симулятор NVIDIA Isaac.
Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning
Эта работа открывает доступные эксперименты с робособаками. Авторы поделились рецептом, благодаря которому каждый исследователь и практик может обучить ходить робособаку по плоскости за 4 минуты, а по неровностям и ступенькам за 12 минут.

Основного ускорения удалось достичь за счёт параллелизма всех недостающих частей: теперь почти все тормозящие куски считаются на GPU, обучая RL на тысячах параллельных окружений в одном симуляторе.
Это ещё один пример победы масштаба. Библиотека RSL-RL от авторов работы стала одной из базовых для обучения сложных контроллеров.
Unitree Robotics
Без Unitree мы бы не увидели такое большое количество работ и стартапов на робособаках и гуманоидных роботах. Эта китайская компания создала два дебютных продукта, которые стали по-настоящему массовыми:
- Робособака Unitree Go1 (2021) со стартовой ценой $2,7 тыс. Этот проект опустил цену в 10 раз по сравнению с аналогами. За 2024 год компания продала порядка 24 тыс. робособак.
- Гуманоидные роботы Unitree H1 и G1. Стоимость базовой версии Unitree G1 составляет $16 тыс., и это сделало платформу настоящим сокровищем для исследователей во всех странах мира.
Помимо этого, компания активно вкладывается в развитие экосистемы для своих роботов: SDK для управления, платформы для сбора данных, интеграции и т. д.
Agibot
Ещё одна китайская компания, которая фокусируется на гуманоидных и полугуманоидных роботах. Появилась в 2023 году. Помимо создания роботов под разные назначения (фабрики, склады, производства, сфера развлечений), компания закрывает важную часть Physical AI — данные, причём в большом масштабе.
В 2025 они выложили в открытый доступ датасет более чем с 200 навыками, состоящий из примерно 1 млн демонстраций.
Лидеры
Как мы уже упоминали ранее, чаще всего одни и те же институты или компании двигают область вперёд с разных сторон.
Например, Unitree начал с уменьшения стоимости производства робособак в 10 раз, а сейчас наравне с остальными лидерами «железной» разработки масштабирует производство роботов-гуманоидов.
Поэтому полезно понимать, какие компании и институты сейчас определяют будущее Physical AI, чтобы вдохновляться новыми идеями и направлениями.
Stanford
Стэнфорд — главная мировая «кузница» доступной ловкости и телеоперации. Исследователи здесь, в частности группа Челси Финн, фокусируются на том, как быстро обучать роботов сложным манипуляциям, используя дешёвое железо и умные алгоритмы подражания.
Именно отсюда вышли хиты вроде Mobile ALOHA и HumanPlus, показавшие, что робота можно научить жарить креветки или складывать бельё, записав всего 50 демонстраций. Их суперсила в демократизации робототехники: они доказывают, что для достижения результатов мирового уровня значимости не нужны лаборатории за миллионы долларов.
Carnegie Mellon University
Университет Карнеги — Меллона (CMU) — это оплот неубиваемого локомоушена и полевой робототехники. Пока другие тренируются в симуляторах, роботы CMU карабкаются по мокрым камням, лестницам и лесным завалам, полагаясь на два механизма: обучение с подкреплением и проприоцепцию.
Что такое проприоцепция
Проприоцепция — это информация с энкодеров, которые находятся на каждом суставе робота.
Энкодер — это устройство, которое определяет, на сколько градусов повёрнут сустав относительно фиксированного положения. Вместе эта информация помогает примерно понять перемещение робота в пространстве.
Их визитная карточка — работа Extreme Parkour, где четвероногие роботы преодолевают препятствия выше своего роста, и алгоритм RMA (англ. Rapid Motor Adaptation), позволяющий адаптироваться к изменению веса или покрытия за доли секунды. Это место, где софт встречается с самой суровой реальностью.
Посмотреть демонстрации Extreme Parkour можно на этой странице.
Berkley
Если вам нужно узнать, как применять большие данные в робототехнике, вам в Беркли. Под руководством Сергея Левина лаборатория продвигает концепцию Generalist Robot Policies — создание единой модели для управления любыми роботами.
Они инициировали монументальный проект Open X-Embodiment, собравший датасеты из десятков лабораторий мира, чтобы обучить «робо-GPT». Их суперсила в масштабном RL и автономном сборе данных: роботы учатся круглосуточно, обмениваясь опытом в облаке.
Massachusetts Institute of Technology
Массачусетский технологический институт (MIT) славится своими динамическими системами и инновациями в осязании. Группа исследователей под руководством Сангбэ Ким (англ. Sangbae Kim) создала легендарного Mini Cheetah, который первым научился делать сальто.
Также MIT лидирует в тактильной манипуляции благодаря сенсорам GelSight, позволяющим роботам на ощупь манипулировать мелкими объектами, будь то нанизывание гайки или перекатывание ручки в пальцах.
DeepMind
Исследовательское подразделение Google — это главные архитекторы «мозгов» для роботов. Они первыми успешно применили архитектуру трансформер для управления физическими телами, введя понятие VLA (Vision-Language-Action).
Их модели RT–1 и RT–2 продемонстрировали способность роботов понимать естественный язык, рассуждать о задачах и переносить знания между разными типами манипуляторов.
Суперсила DeepMind в невероятных вычислительных мощностях и умении создавать фундаментальные мультимодальные модели, что они и продемонстрировали на примере Gemini. Адаптация Gemini для решения задач робототехники — это большой прорыв и реализация синергии для всей компании.
Physical Intelligence
Амбициозный стартап-«единорог», собравший звёздную команду исследователей с целью создать модель-генералиста, работающую с любым роботом.
В отличие от производителей железа, они строят «универсальный драйвер реальности». Их недавний релиз модели π0.5 (pi-zero) показал впечатляющую способность выполнять ловкие задачи без длительного дообучения под конкретного робота — например, убирать посуду со стола или складывать коробки.
BostonDynamics
Легенды инженерного искусства, которые долгое время задавали планку механического совершенства и классической теории управления.
Это люди, которые действительно знают, что такое MPC, и могут творить настоящую магию на основе классической теории управления.
Однако с переходом от гидравлического Atlas к полностью электрическому New Atlas и внедрением RL в Spot, компания развернулась в сторону AI. Теперь их роботы не просто танцуют по скриптам, а используют нейросети для компьютерного зрения и адаптации к среде в реальном времени.
Их суперсила остаётся прежней — непревзойдённая надёжность и качество железа, которое теперь становится умнее благодаря партнёрству с исследовательскими институтами, такими как Toyota Research Institute.
Toyota Research Institute
TRI совершил революцию в манипуляции, популяризировав диффузионные политики (англ. &diffusion policies) в робототехнике. Их исследователи под руководством Расса Тедрейка доказали, что методы, используемые для генерации картинок, идеально подходят для генерации плавных, сложных и мультимодальных движений роботов.
Их последние работы демонстрируют роботов, которые уверенно разбивают яйца, взбивают тесто и чистят овощи на обычной кухне.
Yandex Robotics
Команда Yandex Robotics разрабатывает собственную VLA-модель, которая может выполнять разные навыки, в том числе решать задачи отбора товаров с высокой степенью вариативности.
Команда владеет полным стеком Physical AI, начиная от сбора масштабных датасетов за короткое время и заканчивая доучиванием моделей с помощью RL для конкретных роботов в конкретном бизнес-применении.
Sber
Лаборатория робототехники «Сбера» играет на стыке логистики и сервисной робототехники. Они разрабатывают полный стек: от собственных приводов и контроллеров до высокоуровневых алгоритмов навигации для автономных грузовиков и складских шаттлов.
В последнее время «Сбер» активно включился в гонку антропоморфных роботов и робособак, создавая собственные платформы для отработки взаимодействия ИИ с физическим миром. Их сила в тесной интеграции продуктов в свою внутреннюю экосистему.
Взгляд на знаковые работы и людей, двигающих область Physical AI, показал, что область формируется нелинейно и часто одну и ту же проблему исследователи пытаются решить с разных сторон.
Прорывы возникают на пересечении масштабных данных и новых архитектур. А доступное железо и готовые программные фреймворки ускоряют прогресс области кратно.
При этом одни команды двигают фундаментальные идеи, другие превращают их в законченные продукты в конкретной бизнес-нише, третьи создают условия, в которых эти идеи могут быть проверены и развиты. В результате Physical AI сегодня — это не набор разрозненных экспериментов, а слаженная система, в которой самые значимые исследования трансформируются в коммерческие применения.
Впрочем, не каждому исследованию суждено стать рыночным продуктом: какие-то воплотить сложно или дорого, какие-то не приносят ценности пользователям.
А какие вообще технологии робототехники работают и уже приносят прибыль создателям? Расскажем в следующем параграфе.