В этой статье рассказывается о том, как из общедоступных текстов интернета в 100 ПБ найти терабайты суперчистых данных с переводами между любыми языками. Вы узнаете, почему эта задача требует обучения больше десятка различных вспомогательных ML‑моделей. А ещё — какое место в этом процессе занимает YandexGPT и что это за зверь такой — YandexGPT‑MT.