Мультимодальные генеративные модели для обработки документов

Даниил Водолазский, Руководитель направления по исследованию данных, SberDevices

DocVQA (Document Visual Question Answering) — это подход, который позволяет разработать универсальную модель для извлечения информации из любых документов — от договоров до чеков и презентаций. Традиционные решения ограничены текстовыми данными и экстрактивными архитектурами. Они не могут ответить, например, в каком углу страницы расположена подпись. В то же время генеративные языковые модели, способные воспринимать текст, геометрию и изображение, справляются с такими задачами. В докладе я поделюсь опытом создания модели ruUDOP: как готовили данные, проводили эксперименты, строили вопросно-ответную систему для сервиса SberIDP Query и какие преимущества получили от мультимодальности.