VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

Перейти

В этой статье рассказывается, что такое визуально‑текстовые мультимодальные модели (Visual Language Models, VLM), как в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.