Как адаптировать технологию под много NLP‑задач разом. Дважды

Дмитрий Меркушов, Руководитель Машинного Обучения Почты и Антиспама, Mail.ru
Дмитрий Калашников, Программист-исследователь команды ML-Продукта в Почте, Mail.ru

Важным свойством ML-решений является универсальность, которая заключается в возможности переиспользовать эти решения в разных задачах. В рамках доклада мы расскажем, как, делая упор на универсальность, мы в Почте Mail.ru пришли к двум важным NLP-механикам: качественным текстовым представлениям и быстрым контентным кластерам.

Доклад будет состоять из двух частей. В первой мы поделимся историей создания текстовых эмбедингов и расскажем, какими свойствами должна обладать модель, чтобы качественно решать сразу все задачи. Во второй будет показано, как универсальные представления помогли нам решить задачу онлайн-кластеризации в парадигме semantic hashing, и как это повлияло на жизнь Антиспама.