Уже скоро Алисе исполнится семь лет. К семи годам у людей уже формируется эмпатия: мы начинаем понимать чувства окружающих и осознаем, что эти чувства отражают внутреннее состояние собеседника.
У Алисы уже давно есть узнаваемые характер и чувство юмора. Но мы хотим, чтобы наш голосовой помощник стал ещё человечнее. Поэтому мы сделали Алису более чуткой: теперь она сопереживает пользователю в трудную минуту, радуется вместе с ним в его счастливые моменты, увлеченно слушает его рассказы и не только. При выборе эмоции она учитывает ситуацию общения, реплику пользователя и текст ответа, который генерирует для нее нейросеть YandexGPT.
В этой статье мы расскажем, как создавали синтез эмоциональной речи. Для этого воспользовались старой доброй модернизацией архитектуры нейронной сети и дизайном функции потерь. Так что, если вы устали от решений в духе «Мы просто увеличили объём данных и архитектуру в десять раз», добро пожаловать под кат!