Запускаем 8B LLM в браузере: AQLM.rs

Перейти

В этой статье рассказывается о проекте AQLM.rs. Автор написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU, с помощью алгоритма сжатия, разработанного лабораторией Яндекса.

Попробовать можно на сайте проекта.

Краткий пересказ от YandexGPT