2.3. Коротко о больших языковых моделях

И как они связаны с обучением нейросети.

2.3.webp

В предыдущем параграфе мы узнали, что такое нейросети. Если коротко:

  • Это структура, которая получает на входе какие-то данные, преобразует их и выдаёт результат.
  • Она может учиться, то есть с каждой попыткой результат становится всё лучше.

В этом параграфе мы расскажем, что собой представляет обучение нейросети и что такое большие языковые модели.

Начнём с обучения. Основной принцип обучения состоит в том, что мы даём нейросети задачу, для которой у нас есть решение (или хотя бы понимание, какое решение будет хорошим) — и смотрим, как она её решит.

Если результат нейросети отличается от правильного ответа, то мы фиксируем разницу и просим скорректировать настройки параметров нейронов так, чтобы получался правильный ответ.

Вот пример: предположим, нам нужна нейросеть, которая будет заканчивать за нас предложения в реальном времени. Мы начинаем печатать текст «Я тебя...», а она выдаёт: «кирпич». Так дело не пойдёт. Мы стираем неверный вариант (то есть даём понять, что допущена ошибка) и пишем «люблю».

Нейросеть «понимает», что вероятность встретить слово «люблю» в такой фразе выше, чем слово «кирпич». И через пару тысяч диалогов учится правильно заканчивать предложения. Поздравляем, теперь вы знаете, как работают умные клавиатуры в смартфонах!

Но можно пойти другим путём. Что, если взять миллионы и сотни миллионов текстов — книг, сайтов и статей — и «скормить» нейросети? Тогда она сможет изучить их, найти неочевидные связи между словами и генерировать связный и логичный текст в ответ на запрос.

Подобная большая система, состоящая, с одной стороны, из миллионов связок между словами, понятиями, а с другой — особым образом настроенной и обученной нейросети, часто называется «большая языковая модель».

В последние несколько лет появилось большое количество различных языковых моделей. На их базе создаются самые разные решения. Среди наиболее известных ChatGPT, LlaMA, Gemini, Perplexity. И конечно российские — YandexGPT и GigaChat.

yandeks

Все они работают схожим образом: получают запрос, «понимают» его — и в ответ создают текст. Но чтобы модель поняла нас правильно, нужно уделить особое внимание составлению запроса. Об этом мы поговорим в следующей главе. А пока — разберёмся, с какими задачами нам могут помочь языковые модели.

Отмечайте параграфы как прочитанные чтобы видеть свой прогресс обучения

Предыдущий параграф2.2. Что такое нейросети

Расскажем на простом и понятном примере.

Следующий параграф2.4. Возможности GPT

Четыре базовых — генеративность, суммаризация, стилизация и подбор