VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

3 октября 2024

Краткий пересказ от YandexGPT

В этой статье рассказывается, что такое визуально‑текстовые мультимодальные модели (Visual Language Models, VLM), как в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.

Перейти

Авторы

Роман Исаченко

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

Краткий пересказ от YandexGPT

Ещё по теме

ICLR-2025: новое в мультимодальном ранжировании

Как LLM повышают эффективность сотрудников и экономят миллионы

Как не отстать от рынка: личная стратегия развития для менеджеров в IT — ШМЯ 2025

ARGUS: масштабирование рекомендательных трансформеров

Управление IT-продуктами: новые тенденции и специализации

Прогнозирование гроз на карте осадков в Яндекс Погоде

Онлайн-магистратура «Специалист по работе с данными и применению ИИ»

Будущее машинного обучения: как технологии изменят мир

Тренды 2025 года: работа с данными и искусственным интеллектом

Создание ИИ-переводчика для межславянского языка

ICLR-2025: новое в мультимодальном ранжировании

Как LLM повышают эффективность сотрудников и экономят миллионы

Как не отстать от рынка: личная стратегия развития для менеджеров в IT — ШМЯ 2025