2.3 Три опоры AI-революции: масштаб

В этом параграфе мы продолжим наш разговор об опорах AI-революции.

Поговорим о том, как исследователям удалось найти архитектуру, которая позволила масштабировать эффект нейросетей: замеры в разных областях показывают, что при увеличении вычислительных ресурсов они добиваются лучших результатов.

В результате внедрение нейросетей стало бизнесовой задачей, для которой можно спрогнозировать затраты и результат.

Мы узнаем подробнее, что это за архитектура и как она появилась, благодаря какому закону работает масштабирование и как масштаб меняет правила игры в AI-индустрии.

От научного поиска методов к инженерному масштабированию

После успеха нейросети AlexNet в 2012 на датасете ImageNet достижения не остановились, а превратились в гонку по созданию всё более и более изощрённых архитектур, но главное — по наращиваю слоёв.

Количество слоёв определяет глубину модели. И чтобы ещё сильнее выделить значимость количества слоёв по сравнению с другими архитектурными улучшениями, новое направление начинают называть глубинным обучением (англ. deep learning).

К удивлению многих скептиков, количество слоёв с небольшими изменениями архитектур правда растили точность практически в любой задаче. Тренд на рост количества слоёв легко проследить по изменению метрики Top-5 Accuracy (подробнее о ней ниже) в соревновании ImageNet с 2012 по 2015 годы:

Год

Модель

Глубина (обучаемые слои)

Top-5 Accuracy

2010

NEC-UIUC

– (классический метод)

71.8%

2011

XRCE (Ensemble)

– (классический метод)

74.2%

2012

AlexNet

8

84.7%

2013

ZFNet

8

88.3%

2014

VGG-19

19

92.7%

2014

GoogLeNet (Inception v1)

22

93.3%

2015

ResNet-152

152

96.4%

В этом соревновании модели разрешается не просто назвать, к какому классу принадлежит изображение, а отсортировать всевозможные ответы по степени уверенности. Top-5 Accuracy — это основная метрика соревнования, которая определяет точность классификации изображения. Она засчитывает ответ за успешный, если класс из разметки входит в топ-5 ответов, в которых сеть наиболее уверена.

Из таблицы видно, что схема «просто добавь ещё один слой» успешно работает. Причём этот эффект проявился как в соревновании ImageNet, так и на реальных задачах. Нейросети хорошо масштабировались по количеству параметров.

Что такое параметры

Параметры — это внутренние переменные модели, которые настраиваются во время обучения на основе данных и фиксируются в дальнейшем.

А ещё ImageNet продемонстрировал важность больших датасетов. До этого исследователи уже экспериментировали с большим числом слоёв, но не достигли успеха. Проблемы была в размере датасетов. После успеха AlexNet многие люди из индустрии также попробовали повторить рецепт и ещё раз самостоятельно на своём опыте подтвердили такие же выводы: глубокие нейросети на маленьких датасетах работают хуже классических подходов.

В середине 2010-х годов родилось большое количество разных архитектур нейросетей и концепций. За этим разнообразием сложно было разглядеть какие-то значительные сходства, кроме глубины и добавления промежуточных путей для распространения обучающих сигналов в сети.

Постепенно этот питательный бульон родил архитектуру, которая была принята многими исследователями, — трансформер.

В чём суть трансформера

Трансформер состоит из универсальных обучаемых блоков, умеющих фокусироваться на разных участках данных.

Эта модель не зависит от фиксированной структуры данных, как это было со свёрточными сетями, и в ней нет бутылочных горлышек в производительности, как это было с другими архитектурами для обработки последовательностей — RNN и LSTM.

Открытие новой архитектуры сделало уравнения масштабирования более простыми:

Чем больше мы добавляем вычислительных ресурсов в модель, тем более высоких результаты достигаем.

Причём вместе с потраченными вычислительными ресурсами нужно увеличивать размер модели и используемых датасетов.

image.2.3

Зависимость ошибки на тестовой выборке от различных параметров масштаба: вычислительных ресурсов, размера датасета и количества параметров сети. Источник

Почувствуйте, как масштабирование трансформеров выглядит на пальцах: если мы хотим увеличить размер сети в 8 раз, то, чтобы убрать ограничения, мы должны увеличить размер обучающего датасета всего лишь в 5 раз.

Теперь не нужно перебирать десятки разных архитектур, терзаться вопросами про размер датасета. Для трансформеров уже понятно, как подбирать параметры и как выглядят кривые масштабирования.

Самое главное, что дал трансформер — на время утолил жажду поиска идеальной архитектуры.

Это был сигнал для индустрии: точка приложения инженерных усилий найдена — сделай побольше трансформер в любой задаче, загрузи большой датасет — и задача будет решена.

Как ещё можно улучшить качество моделей Physical AI

Если говорить про масштабирование данных, то его можно делать не просто добавлением новых примеров в датасет, но и в систематической работе над качеством этого датасета.

Например, уменьшение количества ошибочно размеченных обучающих примеров всего лишь на несколько процентов может увеличить точность в разы!

Влияние шума в датасете на точность.
Влияние шума в датасете на точность. Источник

Но создать большой качественный датасет сложно: в одном месте должны оказаться рабочий робот, необходимое окружение и хорошо обученный AI-тренер.

Причём это окружение нужно повторить на масштабе без деградации важных компонентов. Деградация хоть одного из компонентов как раз создаёт некачественные данные, которые для модели подобны шуму. Точечные исправления здесь не дадут такого большого эффекта.

Это открытое направление для будущих исследований: возможно, в ближайшем будущем мы увидим здесь прорывы.

Масштабирование на практике

Пока что всё звучало как-то слишком теоретически. Давайте обсудим, можно ли пользоваться законами масштабирования в практических задачах.

Взглянем на пример, максимально близкий Physical AI, — VLA EMMA. Это модель от компании Waymo (подразделение Google), которая позволяет решать задачи беспилотного вождения. Подробнее про VLA мы ещё поговорим в параграфе 2.6 и главе 3.

Масштабирование в случае EMMA выглядит следующим образом:

Источник

По оси X — количество затраченных вычислительных ресурсов на получение результата, а по оси Y — уровень ошибок, полученный на внутреннем бенчмарке Waymo.

Из этого графика следует, что простое увеличение размера модели напрямую конвертируется в улучшение метрики вождения. При этом даже не нужно менять ни архитектуру, ни данные. И правда, выглядит как типичная задача для бизнеса и инженеров: предсказуемые вложения приводят к предсказуемому качеству.

Самый главный закон масштаба

Хорошо, первую проблему бизнеса мы решили, дав ему в руки рабочий инструмент и рецепт для выбивания золота в любых задачах. Но на пути остаётся ещё один вопрос без ответа: откуда нам взять вычислительные ресурсы, а главное, деньги на построение достаточного масштаба? Может быть, учёные на самом деле нашли не ответ, а очередную утопию, дверь без ручки?

На самом деле надежда есть. Давайте взглянем на график развития вычислительных ресурсов на длинном горизонте времени. Он отображает одну из самых долгоживующих закономерностей: каждые пять лет мы получаем в 10 раз больше вычислительных ресурсов за ту же стоимость.

Источник

Назовём его главным законом масштаба (не путайте с законом Мура).

А в чём разница?

Вообще, закон Мура — это не физический закон, а просто закономерность, выведенная из наблюдений: каждые 18 месяцев количество вычислительных компонентов в микросхеме увеличивалось вдвое. Его действие охватывало период 1970–2000 годов.

Главный закон масштаба тоже является наблюдаемой закономерностью, но, в отличие от закона Мура, эта закономерность сохраняется уже 100 лет.

Благодаря закону масштаба у нас наконец-то разрешились вопросы с моделью: есть проверенный инструмент (трансформеры) и надежда на ресурсы (главный закон масштаба). Это, конечно, не полный рецепт успеха, но всё же его весомая часть. Во многих областях, в том числе в Physical AI, остаются вопросы про то, где достать данные в нужном объёме.

Если не задумываться, то кажется, что больший объём ресурсов даёт преимущество любому обучающему алгоритму. Но если взглянуть на детали, то окажется, что разные алгоритмы на практике обладают разными свойствами: некоторые точны при небольшом количестве данных и вычислений, другие же раскрывают себя только на больших масштабах, третьи обладают другими уникальными свойствами.

Открытый закон масштаба ставит перед нами особую метазадачу: сам по себе он не говорит, где конкретно закопано золото, но гарантирует, что в будущем вычислительных ресурсов будет больше.

Озолотятся те, кто найдут обучающие алгоритмы, которые будут эффективно использовать весь объём вычислений, доступный на данный момент.

Если свести модель и инфраструктуру для обучения к чёрному ящику, для которого мы можем менять количество используемых вычислительных ресурсов, а на выходе измерять точность, то подходящий алгоритм можно заметить на графиках: при добавлении вычислительных ресурсов такому алгоритму происходит значимый рост точности. Чем более значимый рост, тем более эффективно алгоритм использует предоставленные мощности.

2.3

Давайте рассмотрим на примерах, насколько эффективно алгоритмы используют эти мощности. То есть насколько хорошо или плохо они масштабируются.

Первый пример (плохой) — SVM

Ещё в начале 2010-х годов, до того, как глубокие нейронные сети пришли и изменили порядок, одним из самых перспективных методов в машинном обучении был метод опорных векторов (англ. Support Vector Machine, SVM): он давал наибольшую выгоду.

Сейчас про этот метод мы вспоминаем разве что в историческом контексте. Его суть в следующем: нам нужно построить разделяющую поверхность в пространстве признаков.

Легко представить пример SVM в двумерном варианте: нам надо провести прямую так, чтобы разделить точки на плоскости.

Источник

Основной подход к поиску решения SVM — через квадратичное программирование. То есть это решение квадратных уравнений, всем нам так знакомых по школе, только с обобщением на пространство признаков большей размерности.

И сложность решения задачи квадратичного программирования, или же количество затраченных ресурсов, растёт как квадрат от количества примеров. То есть, чтобы добавить больше полезных данных, в случае SVM надо было сильно нарастить количество вычислительных ресурсов.

На масштабах ImageNet это неподъёмная задача. Сейчас мы уже знаем, что при фиксированном бюджете обучения с этой задачей лучше справляются глубокие нейронные сети, обучаемые методом градиентного спуска: вычислительные затраты на них растут линейно.

Второй пример (плохой) — MLP

Многослойный персептрон (англ. Multi Layer Perceptron, MLP) используется с 1980-х годов. И до начала 2010-х годов этот слой применялся при построении нейронных сетей чаще всего. Все остальные слои, за исключением добавления рекуррентности, считались экзотикой.

Но после ImageNet 2012 года MLP в чистом виде был вытеснен свёрточными нейронными сетями, а затем и трансформерными аналогами. В последние годы в ML-исследованиях появилась свежая струя: есть небольшое количество улучшений в архитектуре, оптимизаторах и т. д., которые правда важны, остальные изменения — дело вкуса. И скорее неважно, какое из изменений выбрать, главное, добавить достаточно вычислительных ресурсов.

Очередь дошла до проверки важности перехода от MLP к трансформеру. И оказалось, что MLP в современной реализации со всеми наворотами и при текущем масштабе хуже потребляет имеющиеся вычислительные ресурсы, чем трансформер. Вдобавок оказалось, что классическая MLP-архитектура более жадная до количества параметров.

Третий пример (хороший) — трансформер

Трансформер стал новой универсальной архитектурой, применимой ко многим задачам.

Во-первых, он позволил лучше разменять вычислительные ресурсы в сравнении со свёрточными нейронными сетями на многих задачах.

Во-вторых, «сила» трансформера регулируется одним основным параметром — количеством обучаемых параметров. Ни ширина сети, ни другие гиперпараметры не оказывают такого влияния на качество. Причём размер датасетов, накопленных во многих задачах, оказался достаточным для того, чтобы трансформер занял все строчки современных соревнований.

Помимо универсальности, в трансформерах был найден ещё один важный эффект — интерполирующий режим, про который мы уже говорили в параграфе 2.2. Что он значит на практике?

Начиная с определённого размера, больше параметров значит лучше, причём лучше даже вопреки классической теории машинного обучения, которая ожидала ухудшения метрик при росте числа параметров. И во многих случаях оказалось, что увеличение размера сети в два-три раза без увеличения размера датасета за счёт интерполирующего режима просто давало более хорошие результаты.

Ошибка в целевой задаче в зависимости от размера нейросети.
Ошибка в целевой задаче в зависимости от размера нейросети. Источник

Четвёртый пример (нейтральный) — LLM-as-judge

LLM-as-judge — это один из новых подходов в улучшении качества разметки, который появился с активным распространением LLM и VLM.

В тех местах, где раньше человек смотрел на картинку и говорил, к какому классу она относится, теперь может справиться обученная VLM. Причём если просить LLM дать не прямую разметку, а брать информацию из различных источников и проверять консистентность, то результат может получиться ещё лучше.

Усилия людей слабо масштабируются, но если отправить тысячи LLM-агентов, вооружённых интеллектуальными правилами, переоценивать разметку датасетов, да ещё в свете закона масштабирования вычислительных ресурсов, то получится, что какие-то грани качества можно системно починить в датасетах, содержащих миллионы или миллиарды обучающих примеров.

Загвоздка возникает в момент, когда LLM нашла ошибки, затем ошибки исправили, а затем на этом датасете переобучили ту же самую LLM. Видите, как возникает петля обратной связи? Если проделать ту же самую процедуру ещё пару раз, то эффективность падает, при этом в датасете всё ещё остаются ошибки.

При всей своей мощи, умении писать код с нуля, решать задачи на математических олимпиадах, придумывать стихотворения, LLM всё ещё допускает ошибки, которые очевидны для школьника первого класса. Значит, этот метод пока что ограниченно использует силу масштабирования: десять итераций улучшения датасета вместо двух не улучшат точность разметки в пять раз. Возможно, в ближайшем будущем мы увидим прогресс в этом направлении.

Надеемся, эти примеры дали почувствовать, как выглядят алгоритмы, использующие главный закон масштаба на полную катушку.

Как масштаб меняет правила игры в AI

С конца 2010-х годов эффект масштаба в современных трансформерных архитектурах стал не просто очередным теоретическим открытием. Он превратился в новое направление развития.

Все инфраструктурные улучшения, про которые мы говорили в параграфе 2.2, стали приобретать ещё более серьёзные очертания. Бизнес наконец-то нашёл точку приложения своей силы: нужно инвестировать и строить большие кластеры. Возникла даже такая метафора, что дата-центры — это фабрики будущего, которые производят токены.

Дата-центры.
Дата-центры.

Раньше достижения науки получались благодаря экспериментам и знаниям. Основная задача институтов заключалась в том, чтобы собирать знания. Возможность добавить больше ресурсов и получить более хорошие результаты, новые свойства, которых не было у прошлых архитектур, сместила центры генерации передовых знаний из институтов в компании, где главные продукты строятся на AI.

Чтобы обновлять рекорды и получать высокие достижения в разных областях, теперь не обязательно быть самыми умными, но точно нужно инвестировать огромное количество денег в современные кластеры с сотнями тысяч GPU.

Закон масштаба также открывает неприятную правду для инженеров. Можно не проектировать сложные системы и новые архитектуры. Во многих случаях можно немного подождать, когда уже имеющиеся подходы начнут работать с более мощными вычислительными ресурсами.

Похожая ситуация произошла с одним из самых известных AI-агентов для исследований Open Deep Research. В начале 2024 года LLM-модели не умели работать с внешними инструментами надёжно, поэтому автор агента добавил специальную структуру для независимого написания отдельных частей с жёстко запрограммированными шагами.

Но уже под конец 2024 года, когда LLM-модели сильно улучшили работу с инструментами, его решение стало отставать от аналогов. Структура сдерживала возможности сети. В итоге автор переосмыслил архитектуру и убрал практически все ограничения, сдерживающие LLM, давая больше контроля над генерацией текста и выбором подхода к исследованию.

Теперь очевидная стратегия инженера в новом мире выглядит так:

  • не делать сложных наворотов в моделях и архитектурах;
  • упрощать предположения о данных, в моделях и алгоритмах;
  • периодически оценивать возникающие возможности из-за роста вычислительных возможностей;
  • быть готовым избавиться от многих вещей, которые были написаны ранее.

Смотря на всё, что было сказано, создаётся впечатление, что правила игры для всех участников только усложняются: хочешь достигать более высоких результатов — покупай свой дата-центр, собирай и размечай многомиллионный датасет.

Но новый мир родил концепцию модели-генералиста, о которой мы рассказывали в первом параграфе этой главы. Коммерческие модели-генералисты сильно упрощают задачи типового потребителя.

Только представьте: там, где в 2010-х нужно было собирать многотысячные датасеты, теперь вполне достаточно 50–300 примеров либо даже подобранного промпта нейросети. Коммерческие модели с согласия пользователя собирают данные и используют их для улучшения модели. Таким образом большая часть сложностей масштаба становится невидимой для пользователя.

Вычислительные ресурсы продолжат расти, на графиках мы даже не видим замедления темпов роста. AI-революция нашла успешный рецепт использования этих ресурсов через увеличение размера трансформерных моделей и наращивание датасетов.

Причём в случае с LLM эти датасеты состоят не из решения промежуточных задач вроде разметки частей речи. 90% датасетов для современных LLM-моделей содержат диалоги в различных контекстах, то есть построены на end-to-end-подходе. Об этом мы поговорим в следующем параграфе: что это за подход, в чём он заключается и чем полезен.

Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E
Предыдущий параграф2.2. Три опоры AI-революции: нейросети
Следующий параграф2.4. Три опоры AI-революции: end-to-end-подход