Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

29 апреля 2025

В статье Роман Исаченко из команды компьютерного зрения Яндекса рассказывает об эволюции мультимодальной нейросети (VLM), которая применяется в приложении «Алиса» для распознавания объектов через камеру смартфона. Описывается архитектура модели, этапы её обучения и адаптации для работы в двух режимах: в чате и в Live-режиме. Приводятся результаты замеров качества и сравнения с другими моделями.

29 апреля 2025

Роман Исаченко

Искусственный интеллект

Краткий пересказ от YandexGPT