В этой статье рассказывается о проекте AQLM.rs. Автор написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU, с помощью алгоритма сжатия, разработанного лабораторией Яндекса.
Попробовать можно на сайте проекта.