В предыдущем параграфе мы узнали, что Physical AI — это применение парадигм AI-революции к робототехнике.
Далее мы постараемся рассказать о ключевых парадигмах, ставших опорой этой революции. В этом параграфе рассмотрим первую и самую важную парадигму — нейросети. Без них AI-революция просто не состоялась бы.
Сперва мы поговорим о предпосылках внедрения нейросетей и определим барьеры, которые наоборот тормозили их повсеместное использование. Затем рассмотрим каждый из барьеров в отдельности и увидим, как его удалось преодолеть.
Это важно: парадигмы следующих параграфов будут наслаиваться на нейросети и усиливать их.
Предпосылки революции
То, что произошло за последние 10–20 лет в развитии искусственного интеллекта и машинного обучения, можно охарактеризовать только словом «революция» — настолько мощный рывок совершила индустрия, где казалось, что всё еле движется.
Уже в конце 1950-х годов придумали персептрон — вычислительную единицу, которая входит в любую современную нейросеть. Почему мы так мало слышали о нейросетях до 2010-х? Может быть, учёные просто их скрывали?
Дело в том, что в начале 1970-х область AI пострадала от сильного удара, нанесённого сокрушительной статьёй американского учёного Марвина Минского. В ней он показал, что искусственный нейрон не может заменить даже некоторые элементарные логические операторы и что нейронные сети 1960-х годов слабы и беспомощны. Это развеяло все иллюзии и хайп, которые были у научного и бизнес-сообщества: общество отвернулось от AI на несколько десятилетий.
Лишь в начале 1990-х случилось потепление. Новые научные достижения вывели нейронные сети из категории изгоев. В 1986 году открыли метод градиентного спуска. Это базовый метод для обучения современных нейросетей. Примерно тогда же зародился behaviour cloning — один из основных алгоритмов, используемых в Physical AI.
Подробнее о behaviour cloning
Это метод обучения, где желаемое поведение задаёт человек, выполняющий действие.
Нейронная сеть учится предсказывать действие человека на основе входных сигналов, например изображений с камер, либо истории поведения. Например, если мы хотим научить роборуку хватать кубик, то человек с помощью джойстика подводит руку к кубику, нажимает кнопку «Схватить» и поднимает джойстиком роборуку вверх.
После этого во время обучения нейросеть учится сама «нажимать» те же кнопки джойстика, что нажимал человек. В качестве входа в модель передаются изображения с камеры.
Вот так, через робкое точечное применение нейросетей в отдельных задачах, мы пришли к тому, что с середины 2010-х они стали одним из самых распространённых методов машинного обучения и самой горячей темой на научных конференциях.
Это стало одним из любимых «молотков» исследователей по всему миру: просто берёшь область, где долго не было прогресса, затем прикладываешь нейронную сеть и получаешь передовые результаты.
Казалось, что на этом технический прогресс замедлится, но были открыты новые подходы и создана подходящая поддерживающая экосистема из данных и вычислительных возможностей, которая позволила нейронным сетям процветать. Взглянем подробнее на зарождение этих двух важных частей и обретение ими силы.
Топливо AI-революции: GPU и данные
Для достижения успеха в машинном обучении и разработке AI одних алгоритмов недостаточно. Помимо алгоритмов, большую роль играют вычислительные ресурсы и данные, используемые в обучении. При малом объёме вычислений нейросети — это просто ещё один алгоритм машинного обучения, причём дающий не самые высокие результаты.
Драйвером развития нейросетей стало использование видеокарт (GPU) для матричных операций. Благодаря развитию игр и ненасытным потребностям геймеров в начале 2000-х в видеокарты добавили поддержку шейдеров — специализированных микропрограмм с минимумом поддерживаемых операций, но работающих на GPU.
Изначально шейдеры добавили для создания продвинутых эффектов. При этом ничто не ускользнёт от пытливого взгляда учёного! Почти сразу после добавления поддержки шейдеров начали появляться работы на конференциях, особым образом преобразующие произвольные данные в цвета текстур и запускающие на них цифровые фильтры или даже решающие матричные уравнения.
Неожиданно из геймерской среды вышел новый класс устройств — GPGPU (англ. General-purpose GPU): видеокарта не для развлечений, а для разного рода вычислений в качестве эффективного инструмента.
Посмотрев на происходящее, компания Nvidia в 2006 году выпустила фреймворк CUDA, который очень облегчил вычисления на видеокартах. Примерно в это же время то там, то здесь люди пробовали перевести на GPGPU различные алгоритмы машинного обучения, в том числе нейросети.
Венцом этих усилий становится победа свёрточной нейронной сети AlexNet в соревновании ImageNet по классификации изображений. AlexNet лидирует с большим отрывом по сравнению с классическими методами. Этот успех вдохновил многих попробовать свёрточные сети для своих задач. Спрос на GPU вырос ещё больше.
Nvidia пошла навстречу своим пользователям, выпустив в 2014 году cuDNN — оптимизированный набор примитивов для обучения нейронных сетей. Он позволил сделать GPU ещё более эффективным инструментом для вычислений. А затем в 2017 году Nvidia, достав все низковисящие ускорения из софта, переключилась на уровень железа.
В видеокартах нового поколения появились дополнительные модули, специальные тензорные ядра. Теперь развитие видеокарт определяет не только скорость отрисовки и качество текстур в играх, но и скорость матричных вычислений.
По мере роста масштаба датасетов, Nvidia ввела формат BF16 для сокращения расхода памяти при обучении и NVLink для объединения нескольких видеокарт в эффективный кластер, так как сложные сети уже не влезали в память одной видеокарты.
Цепочка этих изменений, занявшая полтора десятка лет, сделала GPU стандартом де-факто для исследователей в области AI.

Пример датасета ImageNet, содержащего более миллиона изображений, показал, что данные в новом мире больших нейросетей — это один из важных источников успеха. Поэтому научные коллективы организовали совместный сбор больших датасетов в различных областях.
Cityscapes — пример такого совместного датасета для решения задачи семантической сегментации, выпущенный в 2016 году при участии Daimler AG R&D, Института Макса Планка и Дармштадтского технического университета. Датасет содержит 20 000 изображений для 50 различных городов. Каждому пикселю любого из изображений датасета приписан соответствующий класс объекта.
Спрос постепенно создал целую индустрию по производству и разметке этих данных. Отдельно следует отметить проект Amazon Mechanical Turk, создавший площадку, которая помогала заказчикам найти людей для разметки датасетов. Подробнее об эффекте масштаба мы расскажем в следующем параграфе.
Таким образом, в 2010-х годах сложилась подходящая инфраструктура для процветания нейросетей:
- Новый тип мощных вычислителей позволил обучать мощные модели.
- Большие датасеты и инструменты по их созданию сделали масштаб возможным.
Благодаря именно этим изменениям нейросети смогли реализовать внутренний потенциал, вытеснив большинство существующих методов машинного обучения, например доминировавший в то время метод опорных векторов (SVM). Но итоговые улучшения воспринимались бы не так революционно без небольших, но важных изменений в используемых методах.
Улучшения нейросетей из 1980-х
В начале параграфа мы уже говорили, что основная теоретическая база нейронных сетей уже появилась в конце 1980-х годов. Именно она обеспечила основу для AI-революции.
Но всё же стоит упомянуть о нескольких ключевых изменениях, которые помогали добиваться более хороших результатов и укрепляли веру в правильность выбранного пути.
Функция активации ReLU
ReLU (англ. Rectified Linear Unit, линейный выпрямитель) относится к особому виду слоёв внутри нейронной сети, которые позволяют модели создавать сложное поведение. Слой стал популярным после выхода нейросети AlexNet в 2012 году.
В отличие от прошлых аналогов, ReLU решает проблему затухающих градиентов, помогая добираться обучающим сигналам до самых первых слоёв нейронной сети. ReLU — один из важных ингредиентов, который позволил обучать сети глубже двух-трёх слоёв.
Что за проблема затухающих градиентов
Функции активации используются для добавления нелинейности нейронной сети. С математической точки зрения если в многослойной нейронной сети не использовать нелинейные функции активации, то для неё можно подобрать эквивалентную однослойную нейронную сеть, которая не справится ни с одной сложной задачей.
До ReLU исследователи использовали сигмоидальную функцию активации, которая страдала от затухания градиентов: начальные слои практически не обучались и увеличение глубины не улучшало, а чаще всего даже ухудшало целевые метрики.
У ReLU в рабочей зоне производная равна 1, и градиенты свободно протекают, не мешая обучению.
Adam и оптимизация с учётом момента
Традиционно нейронные сети обучали методом обратного распространения ошибки (англ. backpropagation, бэкпроп): вычисляли градиенты для функции потерь от весов, а затем все веса немного двигались в направлении, обратном градиенту (антиградиенту), максимально уменьшая функцию потерь.
Антиградиент — это направление, в котором нужно изменить веса сети, чтобы результат стал немного лучше. Так работает классический градиентный спуск.
Если представить поверхность целевой функции, где высота — это её значение, то метод градиентного спуска сведётся к поиску направления наискорейшего спуска.
Шарик, скатывающийся с горки, как раз будет следовать в этом направлении. За один шаг градиентного спуска мы будем немного продвигаться вниз по склону фиксированными шагами. Шарик хоть и следует в направлении антиградиента, но его шаги не фиксированы, он постепенно ускоряется, если ему ничего не мешает.
Именно эта идея легла в основу метода Adam и других подобных алгоритмов. Во время оптимизации на каждом шаге копится «момент». Если направление не сильно меняется, то мы начинаем быстрее спускаться в направлении убывания функции потерь. Эта стратегия тем лучше работает, чем реже целевая функция меняет своё направление.
На практике оказалось, что современные нейронные сети обладают подходящей структурой и для них хорошо работают подобные оптимизационные методы.
Свёртки
Многие открытия учёных вдохновлены природой. Введение свёрточных слоёв в нейронные сети — как раз один из таких примеров.
Свёртки призваны выполнять простую функцию — выявлять повторяющиеся паттерны во входных данных. Свёртки могут реагировать либо на определённую комбинацию в последовательности, либо на заданную частоту. В зрительно коре мозга человека учёные нашли похожие структуры, выделяющие паттерны.
На этапе становления больших нейронных сетей оказалось, что добавление свёрток экономит вычислительный бюджет сети, позволяя достигать более высокой точности на одинаковых датасетах.
Со временем вычислительный бюджет вырос настолько, что свёрточные слои заменили более универсальными блоками для запоминания образов — слоями внимания в трансформерной архитектуре.
Трансформеры
Новая архитектура, сформировавшаяся в 2017 году, в итоге стала доминировать во многих областях, где удалось собрать достаточно данных.
Трансформер — это универсальный запоминатель паттернов, который одинаково хорошо работает как для изображений, так и для звука и любых других последовательностей. Если вы не знаете, какую выбрать архитектуру в новой прикладной области, то стандартный трансформер будет хорошей отправной точкой.
Диффузия
Это один из новых подходов для генерации данных со сложной структурой.
Ключевая идея метода заключается в итеративном улучшении результата: начинаем с грубого представления, постепенно добавляя более мелкие детали. В случае диффузии детализация определяется уровнем зашумлённости данных. Во время обучения диффузионная часть учится определять конкретный шум, которым были зашумлены данные.
В отличие от классической диффузии, которая обеспечивает консистентность результата в пространстве, в робототехнике диффузия помогает генерировать согласованные во времени действия. Бонусом открывается возможность за один проход сети выдавать сразу последовательность действий на несколько сотен миллисекунд вперёд, значительно снижая нагрузку на вычислительные ресурсы.
Подробнее о диффузии можно почитать в хендбуке по ML.

Трансформеры как универсальная архитектура, вспомогательные элементы для решения прикладных задач — свёртки и диффузия — открыли доступ туда, где раньше торжествовали классические подходы. Значимых улучшений архитектуры было не так много, и они были размазаны во времени. Но параллельный рост вычислительных ресурсов и доступность данных усилили эти изменения и помогли создать настоящую технологическую революцию.
Почему нейросети долго не воспринимали всерьёз
В истории развития больших нейросетей силе новых вычислительных возможностей противостояли две другие, не менее мощные — сила привычки и сила недоверчивости.
Практики хотели продолжать пользоваться старыми методами, закрывая глаза на позитивные результаты и придумывая отговорки, чтобы не внедрять нейросети.
Давайте посмотрим на самые распространённые, которые вставили больше всего палок в колёса прогресса.
1. «Градиентный спуск — это ненадёжный метод. В нашей задаче мы получим неоптимальное плохое решение»
Градиентный спуск — это путешествие по целевой функции в оптимизаторе. Помните метафору с шариком и горой? Мы пытаемся скатиться по самому крутому склону.
А если на пути окажется лунка, то шарик не докатится до самого низа, а просто зависнет в этой лунке. Этот маленький пример иллюстрирует реальную теоретическую проблему.
Безусловно, методы оптимизации с использованием момента, такие как Adam, помогают «проскакивать» мелкие лунки, но от больших лунок никто не застрахован. Поэтому многие учёные смотрели на всё это либо даже пробовали, разочаровывались и говорили, что с такими алгоритмами каши не сваришь, пойдём поищем что-то более надёжное.
Но прошли годы, количество параметров росло, а нейронные сети продолжали покорять не локальные минимумы, а занимать первые места в различных областях. За это время не появилось единого объяснения, почему нейронные сети так хорошо справляются с разными задачами, несмотря на большое количество параметров. Но зато сложилось несколько концепций, проливающих свет на эти механизмы.
Концепция № 1
Есть большое количество практических подтверждений, что даже если нейронная сеть во время оптимизации нашла не глобальный, а локальный минимум, то полученное решение всё равно бьёт все остальные подходы.
В распознавании изображений, аудиосигналов, образов, генеративном моделировании, рекомендательных сетях и многих других областях все первые места занимают методы на основе нейросетей. Какие-то области вроде распознавания изображений покорились более десятка лет назад.
А какие-то области — вроде моделирования 3D-структуры белков либо использования нейросетей для математических доказательств — стали раскрываться только в последние пять лет. Сильные практические результаты вселяют надежду и заставляют делать всё новые и новые подходы к внедрениям, даже если с первого раза «не завелось».
Концепция № 2
Появилось несколько важных открытий устройства нейронных сетей. Выводы из них можно свести в один тезис: высокая размерность нейронных сетей — это не тупик, от которого нас предостерегало классическое машинное обучение, а новый вид свободы!
Оказывается, что с ростом размерности количество локальных минимумов, где может застрять оптимизатор, становится ничтожно мало и, скорее, растёт количество седловых точек, которые делают оптимизацию сложной, но тем не менее решаемой задачей.
Седловые точки — это особые точки, где, двигаясь по одной оси, мы оказываемся в минимуме, а по другой — в максимуме.
Для функции двух переменных поверхность функции вокруг седловой точки выглядит как настоящее седло. Вдобавок к этому в современных нейронных сетях высокой размерности нет одного глобального минимума. Все минимумы достаточно хороши и связаны друг с другом «системой тоннелей».
Концепция № 3
Только в сетях высокой размерности возникает эффект «второго спуска», который в рамках классической теории машинного обучения не существовал в принципе. Точно так же никто не замечал эффектов искажения пространства из-за гравитационных полей, пока Эйнштейн не открыл специальную теорию относительности.
В классической теории существовало три режима работы модели:
- Недообучение — когда ёмкости (англ. capacity) модели недостаточно для того, чтобы решить задачу. Обычно это случается со сложными задачами при решении простыми моделями. Точность решений будет низкой.
- Стабильный режим — когда ёмкость модели сравнима со сложностью задачи. Где-то в районе определённого capacity мы имеем оптимальную точность модели.
- Переобучение — когда ёмкости модели слишком много для решения задачи. Модель придумывает решение, которое плохо стыкуется с реальностью. Именно об этом явлении говорил Джон фон Нейман своей известной фразой «С четырьмя параметрами я могу описать слона, а с пятым — заставить его махать хоботом».
Оказывается, для больших нейронных сетей существует четвёртый режим работы — интерполирующий, когда мы увеличиваем количество параметров ещё сильнее, чем в режиме переобучения.
Разреженность пространства облегчает поиск решения, чаще давая результаты лучше, чем в стабильном режиме классического машинного обучения. При этом, как оказалось, сам метод градиентного спуска уже имеет встроенные механизмы, которые предотвращают придумывание решений произвольной сложности.
Таким образом, сейчас достаточно как теоретических предпосылок, так и практических доказательств, что большие нейронные сети учатся хорошо, не застревая в локальных минимумах.
2. «У нас нет данных для обучения больших моделей»
Другая частая отговорка звучит так: «Мы всё равно не соберём достаточно данных, поэтому нейронные сети или большие нейронные сети нам не помогут».
В момент появления AlexNet, о которой мы уже говорили, во многих областях с данными и правда была проблема. Но постепенно стали появляться большие датасеты для различных задач, а учёные и компании стали лучше «дружить» и организовывать совместные инициативы.
Одним из примеров похожей инициативы стало создание датасета Open X-Embodiment, в сборе которого поучаствовала 21 организация, благодаря чему удалось собрать порядка двух миллионов эпизодов с реальных роботов.
Что такое «эпизод»
Эпизод — это временная последовательность данных, содержащих различные модальности: изображения с разных камер, действия робота, текстовые токены и т. д.
Следующим большим шагом для преодоления этой отговорки стало появление моделей-генералистов, которые уже были предобучены на больших датасетах и разнообразных задачах.
Подготовка модели под конкретную задачу производится с помощью недорогого обучения на 50-300 примерах или с помощью промптинга. Во время промптинга поведение сети определяется инструкцией. Даже такого количества данных достаточно для решения некоторых задач на хорошем уровне благодаря структурам, заложенным во время обучения модели-генералиста.
Произошла смена парадигмы обучения и использования данных — от эффективного сбора, выстраивания высокопроизводительной «машины» по сбору данных внутри каждой компании к использованию общего пласта данных, зашитого в модель-генералиста.
3. «Мы — эксперты и лучше всех знаем, как должно выглядеть решение»
Эта отговорка чаще всего присуща областям, где решение вроде лежит на поверхности, но на самом деле нет.
Например, у нас есть типичная задача: привозят прицеп со спиленными стволами деревьев и нужно посчитать средний возраст деревьев в прицепе по снимку со срезами стволов.

Ну что может быть проще? Просто распознаём на изображении границы ствола, считаем кольца каждого и усредняем возраст. Все же знают о годовых кольцах у деревьев? И концептуальная простота задачи как бы сама подсказывает, что можно просто взять детектор окружностей, детектор границ, добавить немного связующего кода — и вуаля: решение готово!
Но на практике оказывается, что не все стволы, которые привозят с лесоповала, хорошо описываются окружностями или даже эллипсами, качество фотографий оставляет желать лучшего, есть перекрытия стволов, да ещё вагон и маленькая тележка разных «обстоятельств».
А полученный код тем временем обрастает большим количеством условий, становится ломким и слабо адаптируется под новые случаи. На большом объёме и при долгом сроке эксплуатации качество решения деградирует, и оно выглядит не так впечатляюще, как на десятке примеров.
Похожая проблема не специфична для распознавания изображений. Вдобавок в 2010-х её усугубляло отсутствие подходящей инфраструктуры, мешающей получить качественное решение на глубоких нейронных сетях за разумное время.
Редкие попытки перейти на новый подход разбивались об отсутствие инструментов либо опыта применения. Из-за этого люди сами попадали в локальные минимумы качества: с одной стороны, уже есть какое-то не очень плохое решение, в лучшем случае слепленное из классических алгоритмов машинного обучения, случайной математики, интеграционного кода и предположений, с другой — попробовать более тяжёлые модели сложно и дорого.
Ниже мы собрали сводную таблицу различных классических методов, которые доминировали в разных областях, но в итоге были вытеснены нейросетями.
|
Область |
Классическое решение |
Нейросетевое решение |
|
Машинный перевод |
Применение правил лингвистики и статистики совместного появления слов |
LLM на базе трансформера, обученная end-to-end на парах текстов |
|
Ответы на вопросы |
Поиск на основе ключевых слов (TF-IDF) |
LLM-агент в диалоговом режиме на базе трансформера + RAG |
|
Контроль качества на производстве |
Фильтрация и детекция на основе цифровой обработки сигналов |
Свёрточная сеть или визуальный трансформер для end-to-end-детекции объектов и их свойств, например YOLO |
|
Рекомендательные системы |
Матричная факторизация |
Персонализированные прогнозы с учётом контента и множества других факторов на базе трансформера |
|
Игра против человека в шахматы, го, StarCraft и другие интерактивные игры |
Minimax, alpha-beta pruning и множество эвристик |
Глубокая нейронная сеть вместе с MCTS reinforcement learning |
|
Предсказание 3D-структуры белка |
Физическое моделирование и математические расчёты |
Трансформенная сеть с диффузией AlphaFold |
|
Синтез речи |
Поиск и склеивание звуковых отрывков |
Трансформерная сеть, генерирующая всю последовательность end-to-end |
|
Масштабирование изображений |
Бикубическая интерполяция |
Трансформерная сеть с диффузией |
|
Хождение человекоподобных роботов и робособак |
Model predictive control |
Нейронная сеть, которая учится в симуляторе с помощью reinforcement learning и запускается без доучивания на реальном роботе |
Часть проблем, например галлюцинации либо неинтерпретируемость нейросетей, тоже служившие препятствиями, так и не удалось решить окончательно.
Они до сих пор остаются открытыми проблемами, мешающими масштабированию в определённых областях. Об этих и других проблемах мы расскажем в главе 6 нашего хендбука.
Заключение
В этом параграфе мы рассмотрели, как развивались нейросети — первая опора AI-революции. Поддерживающая экосистема из данных и вычислительных возможностей, эволюция в моделях — всё вместе ускорило повсеместное принятие нейросетей.
Вместе с этим в научных и инженерных сообществах росло понимание, как применять эти методы в различных областях, а практических успехов становилось всё больше.
Разнообразие сфер, до которых дотянулись нейросети, заставило исследователей в области Physical AI пробовать применять их снова и снова в задачах физического мира. В случае ошибок общее отношение поменялось с «у нас уникальная область с уникальными подходами» на «скорее всего, я допустил где-то ошибку, пойду разбираться».
Наличие общего базового инструмента и общей инфраструктуры позволило быстро собрать первую рабочую версию «мозгов» для робота, а не растягивать эксперименты на десятилетие.
Масштабируемость — это уникальное свойство современных нейросетевых архитектур, позволяющее им, как губке, впитывать колоссальные объёмы данных. О масштабируемости и правилах игры в новом мире мы и поговорим в следующем параграфе.