То, что пользователь видит как ответ чат-бота или краткое резюме документа, для инженера — цепочка из нескольких шагов.
Сбор и очистка данных. Прежде чем модель начнёт что-то понимать, ей нужны хорошие примеры — на них она будет учиться. Специалист по NLP собирает отзывы, диалоги, статьи, сообщения пользователей — всё, что помогает описать задачу. Так формируется датасет.
Потом инженер настраивает автоматическую предобработку текстовых данных. Это нужно, чтобы убрать системные подписи, дубли, обрывки фраз, эмодзи. При необходимости специалист может сам разметить небольшую выборку: разбить фразы на слова, пометить, где имя, действие, предмет.
Обучение и тюнинг моделей. Когда данные готовы, специалист выбирает модель и запускает процесс её обучения: сколько данных показывать системе и как быстро она должна учиться. Затем он проверяет, как модель справляется с задачей, например правильно ли она определяет тему текста или находит нужные фрагменты.
Тюнинг. Дальше наступает этап улучшений. Инженер меняет настройки, сравнивает результаты, анализирует ошибки. Не всегда модель отвечает так, как от неё ожидают, — важно понять почему. Это нормальная часть процесса, она делает работу сложной и одновременно увлекательной.
Чаще всего инженер берёт одну из существующих больших LLM и обучает её нужным тонкостям. Например, так в 2022 году появилась платформа для юристов Harvey AI. Она создана на базе GPT-4, которую дообучили на тысячах юридических документов. Harvey умеет находить риски в договорах, подсвечивать неподходящие формулировки и писать юридические заключения.