Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Перейти

В статье Роман Исаченко из команды компьютерного зрения Яндекса рассказывает об эволюции мультимодальной нейросети (VLM), которая применяется в приложении «Алиса» для распознавания объектов через камеру смартфона. Описывается архитектура модели, этапы её обучения и адаптации для работы в двух режимах: в чате и в Live-режиме. Приводятся результаты замеров качества и сравнения с другими моделями.

Краткий пересказ от YandexGPT