LLM Inside: выжимаем максимум из decoder attention на GPU

В виде доклада Андрея Шукшова, старшего разработчика в команде оптимизаций инференса Яндекс R&D, где он рассказывает, как выжать максимум из decoder attention на GPU. Разбирается архитектура современных графических процессоров и объясняется, как добиться максимальной производительности при реализации ключевого примитива LLM: механизма внимания в декодере. Доклад будет особенно полезен разработчикам, которые уже работали с CUDA и хотят глубже понять устройство GPU и внутренние процессы больших языковых моделей.