Это доклад с ML Party в Белграде. Его прочитал Антон Клочков, руководитель подгруппы распознавания текста в VLM.
Антон рассказал, как в визуальных языковых моделях развивают навыки распознавания символов на картинке. И показал кейсы, где это используется (кроме расшифровки мемов).
Больше интересных материалов по ML ищите тут: https://t.me/yandexforml