LCLM

LCLM (Latent Context Language Model) е иновативна архитектура за компресиране на контекст при големи езикови модели (LLM). Предложена от изследователи от NYU, Princeton, Columbia и други институции, тя компресира дълги последователности от токени в по-малко количество непрекъснати латентни ембединги („soft tokens“). Този подход значително намалява натоварването на паметта от KV cache и ускорява времето за обработка на входа (Prefill) в производствени среди.

Споменавания в статии

Пълно компресиране на контекст в голям мащаб: Новата ера на LCLM