Ускорение LLM: универсальные методы для популярных архитектур

5 февраля 2025

В статье обсуждается важная задача — ускорение инференса (процесса работы на конечном устройстве) моделей. Скорость зависит от разных условий, главным образом от архитектуры и железа, но есть множество интересных способов повлиять на неё.

5 февраля 2025

Искусственный интеллект

Краткий пересказ от YandexGPT