LLM Inside: выжимаем максимум из decoder attention на GPU

19 октября 2025

В виде доклада Андрея Шукшова, старшего разработчика в команде оптимизаций инференса Яндекс R&D, где он рассказывает, как выжать максимум из decoder attention на GPU. Разбирается архитектура современных графических процессоров и объясняется, как добиться максимальной производительности при реализации ключевого примитива LLM: механизма внимания в декодере. Доклад будет особенно полезен разработчикам, которые уже работали с CUDA и хотят глубже понять устройство GPU и внутренние процессы больших языковых моделей.

Авторы

Андрей Шукшов

LLM Inside: выжимаем максимум из decoder attention на GPU

Ещё по теме

Программирование на Go: чему можно научиться за 2 часа и как понять, стоит ли идти дальше

Архитектура бэкенда для ML-моделей

Чтение с реплик в распределённых системах: опыт YDB

Инструменты удалённой помощи автономному транспорту

Как мы вынесли рекламу в офлайн и что из этого вышло

AI-агенты: как мы сделали Deep Research по интранету и кодовой базе

Tool calling в диалоговой системе Алисы

Эволюция технологий реалтайм-индексации

Кост-модель LLM: иллюзия простоты

От локальных задач к общим технологиям

Программирование на Go: чему можно научиться за 2 часа и как понять, стоит ли идти дальше

Архитектура бэкенда для ML-моделей

Чтение с реплик в распределённых системах: опыт YDB