Байки про обучение VLM

В своём выступлении Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндексе, делится опытом и результатами экспериментов в области развития картиночной мультимодальности. Он рассказывает о проведённых исследованиях, уроках, которые были извлечены из экспериментов, и неожиданных открытиях.