Как так получилось, что Нобелевскую премию вручили за нейросети?
Нобелевская премия — одна из самых престижных наград в мире, учреждённая в 1901 году по завещанию Альфреда Нобеля. Премия вручается ежегодно в нескольких категориях: физика, химия, физиология или медицина, литература, экономические науки, а также содействие установлению мира во всём мире.
В 2020 году премию по физике вручили за исследования в области чёрных дыр и космологии, в 2021 — квантовой информации, в 2022 — астрофизики, в 2023 — квантовой механики. Не было ни намёка на то, что премию могут дать за исследования в области компьютерных наук.
Но в 2024 году премию присудили Джону Хопфилду и Джеффри Хинтону «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей». Эти самые «основополагающие открытия» были сделаны на базе законов физики.
Если в двух словах, то было так
Работая независимо друг от друга, учёные рассчитали взаимодействие элементов нейросетей на уровне атомов. Это привело к пониманию, что некоторые элементы способны «запоминать» информацию, и, соответственно, к возможности их обучить.
Джон Хопфилд в 1982 году разработал нейросеть, которую потом так и стали называть — «сеть Хопфилда». Эта сеть может хранить и воссоздавать изображения.
Джеффри Хинтон с коллегами на основе сети Хопфилда в исследованиях с 1983 по 1985 год разработали стохастическую рекуррентную нейронную сеть. Своей нейросети Хинтон и коллеги дали имя «машина Больцмана». Главная её особенность в том, что она умеет определять свойства данных, а не просто запоминать их. Кстати, как раз запоминать данные она умеет не очень хорошо. Но способность определять свойства стала одним из важных шагов в эволюции возможностей и обучения нейросетей.
Дальше — немного подробностей.
Сеть Хопфилда
Джон Хопфилд получил премию за исследование, опубликованное в апреле 1982 года, — о создании искусственной нейронной сети. Одним из основных прорывных моментов было то, что он соединил законы физики и принципы работы человеческого мозга в идеи создания работающей структуры. Сеть умела сохранять, узнавать и воссоздавать паттерны изображений.
Хопфилд построил нейросеть по схеме уже существовавшего тогда перцептрона нейрофизиолога Фрэнка Розенблатта.
Если вкратце, перцептрон — первая нейросетевая модель, разработанная в 1957 году. Это простая нейронная сеть, которая при помощи искусственных нейронов может принимать входные данные и выдавать результат. По сравнению с современными нейросетями она имеет элементарное строение. Подробнее можно посмотреть в книжке «Принципы нейродинамики: перцептроны и теория механизмов мозга». Хотя перцептрон по сути является нейросетью, сам Розенблатт разработал его как модель восприятия информации человеческим мозгом и не имел цели создать искусственный интеллект.
Хопфилд расширил функциональность искусственных нейронов сети Розенблатта, задав им функцию перекрёстного взаимодействия.
Для математических расчётов при построении такой функции лауреат использовал два уравнения из области физики твёрдого тела, одно из которых описывает, как выравниваются магнитные моменты атомов в твёрдом теле, а второе часто используется для оценки энергии магнитной конфигурации, например ферромагнетика.
Ферромагнетик — материал, который сам по себе становится магнитным при температуре ниже определённого уровня, температуры Кюри. Эта температура зависит от материала ферромагнетика.
В сети, построенной Хопфилдом, есть нейроны. Каждый нейрон может хранить индивидуальное значение — либо 0, либо 1, как пиксели на чёрно-белом изображении. Нейроны соединены друг с другом. Эти соединения имеют разную силу. Взаимодействие нейронов в сети Хопфилда аналогично взаимодействию магнитных моментов атомов — спинов — в ферромагнетиках. Архитектура новаторской нейросети позволяет ей запоминать подаваемое на вход изображение так же, как ферромагнетик запоминает состояние магнитного поля, в котором он находится. А движение информации по сети происходит аналогично изменению спинов в ферромагнетике.
Когда в сеть поступает вводный паттерн, запускается алгоритм, который заставляет систему просматривать нейроны один за одним и проверять, не снижается ли энергопотребление сети при изменении значения этого нейрона. Если энергопотребление снижается, а нейрон окрашен чёрным, то он меняет цвет. Эта процедура продолжается до тех пор, пока не становится невозможно найти какие-либо дальнейшие улучшения. Когда этот момент достигнут, сеть воспроизводит исходное изображение, которое было загружено в рамках обучения.
Хопфилд сравнил поиск сохранённого изображения в нейросети с катящимся по ландшафту мячом. Есть условие, что при движении скорость мяча снижается за счёт трения, а ландшафт состоит из вершин и долин. Если мяч уронить в определённом месте, он скатится в ближайшую долину и там остановится. Соответственно, если сети задан паттерн (брошенный мяч), близкий к одному из сохранённых изображений, он будет двигаться, пока не окажется на дне долины энергетического ландшафта. Эта долина и будет означать, что наиболее близкое к заданному паттерну изображение найдено.
Машина Больцмана
Джеффри Хинтон — учёный в области компьютерных и когнитивных наук. Он с командой разработал стохастическое расширение нейронной сети Хопфилда, названное машиной Больцмана. Сеть получила такое название в честь австрийского физика Людвига Больцмана, одного из основателей статистической физики.
Статистическая физика описывает системы, состоящие из множества схожих элементов — например, молекул в газе. С помощью статистической физики можно проанализировать состояния, в которых отдельные элементы одной системы могут совместно существовать, и рассчитать вероятность возникновения этих состояний. Некоторые более вероятны, чем другие. Это зависит от количества доступной энергии, а оно рассчитывается при помощи уравнения, выведенного Больцманом. Принцип работы машины Больцмана основан именно на уравнении Больцмана.
Хинтон модернизировал сеть Хопфилда и разработал архитектуру, подобную рекуррентным нейронным сетям (RNN). Если у Хопфилда каждый нейрон связан с каждым другим (кроме себя самого), то в RNN Хинтона каждый слой нейронов связан только с соседними слоями. В свою очередь, RNN — это прародитель архитектур, используемых в LLM. Они даже подобно LLM способны решать некоторые простые задачи языкового моделирования — такие как генерация текста, похожего на стихи Пушкина.
Машина Больцмана используется с двумя различными типами нейронов. Информация передаётся в группу видимых нейронов, а остальные нейроны образуют скрытый слой. Значения и связи скрытых нейронов влияют на уровень энергии сети в целом.
Машина начинает работу с применения алгоритма обновления значений нейронов по одному за раз. В итоге она перейдёт в состояние, когда структура нейронов может измениться, но свойства сети в целом остаются изначальными. Тогда каждый возможный паттерн будет иметь определённую вероятность, которая определяется энергией сети в соответствии с уравнением Больцмана. Когда машина заканчивает работу, она создаёт новый паттерн. Это и делает её ранним примером генеративной модели.
Машина Больцмана может учиться — не на основе инструкций, а на примерах. Она обучается путём обновления значений в сетевых соединениях таким образом, чтобы примеры паттернов, которые были переданы на видимые нейроны при обучении, имели максимально возможную вероятность появления при запуске машины. Если один и тот же паттерн повторяется несколько раз в течение обучения, вероятность появления этого паттерна становится всё выше. Обучение также влияет на вероятность вывода новых шаблонов, напоминающих примеры, на которых машина была обучена.
Машину Больцмана можно применять для распознавания изображений, нахождения определённых объектов на них или создания новых примеров на основе того, чему она научилась. Этот метод стал основой глубокого обучения, которое играет большую роль в современных многослойных нейронных сетях. Благодаря ему искусственные нейронные сети достигли значительных успехов за последнее десятилетие, и Хинтона иногда называют отцом глубокого обучения.
А вы это к чему?
Вручение Нобелевской премии за разработки в сфере искусственного интеллекта — мощный сигнал, что комитет премии осознаёт значение и влияние этой технологии на наш мир. Это отмечает важный этап в истории науки, когда искусственный интеллект становится не просто инструментом, а полноправным участником научного процесса.
Создание нейронных сетей — это настоящая междисциплинарная революция, дающая простор для открытий и инноваций. В современном мире, где наука стремительно развивается, особенно важно быть открытыми к новым знаниям и не бояться пересекать границы различных научных сфер. Истинные прорывы происходят именно тогда, когда идеи и подходы из разных областей начинают взаимодействовать, заимствуя друг у друга лучшие практики и результаты.