Что такое Балабоба и как он работает

Языковые модели уже работают в Алисе, Поиске и других продуктах Яндекса. Но есть ещё и Балабоба — этот проект показывает возможности нейросетей компании. Обсудили с Алексеем Петровым, руководителем YaLM, как AI-технологии применяются в Яндексе, как обучают языковую модель и какие задачи ещё не решены.

YaLM (Yet another Language Model) — семейство больших нейросетевых языковых моделей, разработанных в Яндексе. Их задача в обучении — сгенерировать следующее слово, чтобы оно грамматически и стилистически подходило к предыдущему. Благодаря тому, что модель видела террабайты текстов, она решает эту задачу настолько хорошо, что умеет общаться на разных сценариях. Сервис «Балабоба» — это лишь демонстрация технологии, которая точно и понятно объясняет идею языковых моделей.

YaLM не хранит данные — только подражает тем текстам, что видел в интернете. Модель, обучаясь генерировать слово за словом, запоминает, как устроен язык, и реальные факты о внешнем мире. Для обучения требуется много разнообразных данных. Балабоба учился на страницах Википедии, социальных сетях, форумах, новостных ресурсах и статьях. Например, там он запомнил, что после слов «Работать не покладая» чаще пишут «рук», а не «телефон».

Одна из суперспособностей YaLM — обучение на маленьких датасетах. Десять лет назад внедрять AI-фичу в продукт было дорого: требовалось много данных для обучения. Тогда из каждого утюга звучало словосочетание Big Data. Это ограничивало: про текстовые модели слышали только в задачах поиска по документам или машинном переводе.

Сейчас прототип можно создать за дни и недели, а не месяцы. Поэтому мы можем позволить себе делать развлекательные демки, например Балабобу.
Алексей Петров, руководитель YaLM

Запоминать правила языка Балабобе помогают параметры — маленькие переключатели, которые указывают, верно или нет предсказано следующее слово. В Балабобе их 3 миллиарда, а в других моделях семейства YaLM может быть до 100 миллиардов. Летом 2022 года Яндекс выложил YaLM 100B в открытый доступ, чтобы её использовали айтишники со всей планеты.

Чем обширнее нейросеть, чем больше разнообразных и качественных данных она видела в предобучении. Это даёт возможность проще и быстрее дообучать её в дальнейшем. Например, если в датасеты для обучения добавить тексты на нескольких языках, нейросеть станет мультиязыковой. Среди моделей семейства YaLM есть даже те, которые понимают арабский и иврит.

В мире уже есть инструменты на основе языковых моделей. Их применяют для решения проблемы чистого листа либо переформулировки и изменения стиля. Развитие технологий чаще не заменяет профессии, а упрощает рутину и позволяет человеку заниматься более интересными и высокоуровневыми вещами. Большой осмысленный рассказ или книгу нейросети сейчас сгенерировать не способны.
Алексей Петров, руководитель YaLM

Балабоба запоминает не только правила языка, но и стиль. Если показать ему 10–20 текстов с Forbes, он напишет статью в их стиле. Так Балабоба может дописать текст как синопсис фильма, статью Википедии, в форме рецепта или как народную мудрость. Например, если запросить продолжение фразы «Я работаю в Яндексе и поэтому...» в разных стилях, вот что получится:

— Без стиля:

image4

— Как страница Википедии:

image3

— Народная мудрость:

image2

— Синопсис фильма:

image1

Отдельно подчеркну важность этических вопросов. Сейчас индустрия учится универсально и точно детектировать сгенерированные тексты. Уже понятно, что такие технологии можно успешно применять со злым умыслом, формировать необходимое общественное мнение, вводить людей в заблуждение. Задача детекции таких текстов никогда не решится на 100%, поскольку напоминает гонку собаки за своим же хвостом. Над решением этой проблемы мы тоже работаем.
Алексей Петров, руководитель YaLM

Языковые модели используют в Алисе, Поиске, Рекламных технологиях и ещё более чем в 40 проектах Яндекса. Например, благодаря модели Алиса связно и красиво отвечает пользователям, а Поиск генерирует быстрые ответы и точнее ранжирует страницы в выдаче.

Способность к генерации текста — новая функция языковых моделей. Чаще они помогают выяснить релевантность ответа на вопрос, найти агрессивные комментарии, определить тематику текста. Этими функциями пользуются голосовые ассистенты и чат-боты, любые системы, где пользователи оставляют комментарии, пишут письма, взаимодействуют.

На Услугах YaLM переписывает непонятные описания в объявлениях, чтобы на них откликалось больше исполнителей. Ещё нейросети помогают службе поддержки отвечать на запросы пользователей: YaLM осуществляет поиск по базе знаний о продуктах, классифицирует входящие запросы и генерирует ответ. Сотрудник поддержки может отредактировать его или отправить как есть.

Сейчас мы работаем над мультимодальными моделями, которые обучаются работать с текстами, картинками, видео, звуком, действиями и другими типами информации. Такие модели сложнее обучать. Ждём, когда в индустрии сделают унифицированный фреймворк, где будут инструменты для перевода любой модальности в скрытое пространство и наоборот.

Ещё мы учимся эффективнее использовать внешнюю информацию: добавляем к модели дополнительный поисковый индекс, вместо того чтобы заставить её запомнить все факты об окружающем мире.
Алексей Петров, руководитель YaLM

Краткий пересказ от YandexGPT