11 юни 2026 г.
Пълно компресиране на контекст в голям мащаб: Новата ера на LCLM
В официален научен труд, публикуван в платформата arXiv [1], съвместен екип от изследователи от NYU, Modal Labs, UMD, Princeton, Columbia, Harvard, LLNL и изследователското звено FAIR на Meta представи нова фамилия модели, наречена LCLM (Latent Context Language Models). Проектът цели да разреши един от най-сериозните технологични проблеми при работата с големи езикови модели (LLM) — паметовото и изчислително тесно гърло, породено от разрастването на т.нар. KV cache при обработката на дълги контексти. Докладът, разгледан и от технологичното издание VentureBeat, демонстрира как едновременното пълно (end-to-end) обучение на компактен енкодер и голям декодер може да компресира входящия контекст до 16 пъти без значително влошаване на точността на модела.
Конвенционалните методи за управление на контекста разчитат главно на изхвърляне (eviction) или квантуване на записи от KV кеша. Въпреки това, тези подходи имат фундаментални ограничения: те често изискват първоначално пълно зареждане (prefill) на целия оригинален контекст и трудно се интегрират в съвременните високопроизводителни среди за обслужване на модели. За разлика от тях, LCLM компресира суровите токени в по-къса поредица от непрекъснати ембединги (т.нар. „меки токени“ или soft tokens), които се подават на декодера. По този начин изчисленията в декодера се намаляват правопропорционално на степента на компресия [1].
