Пълно компресиране на контекст в голям мащаб: Новата ера на LCLM

Публикувано от Svetni.me Editorial на 11 юни 2026 г.

В официален научен труд, публикуван в платформата arXiv [1], съвместен екип от изследователи от NYU, Modal Labs, UMD, Princeton, Columbia, Harvard, LLNL и изследователското звено FAIR на Meta представи нова фамилия модели, наречена LCLM (Latent Context Language Models). Проектът цели да разреши един от най-сериозните технологични проблеми при работата с големи езикови модели (LLM) — паметовото и изчислително тесно гърло, породено от разрастването на т.нар. KV cache при обработката на дълги контексти. Докладът, разгледан и от технологичното издание VentureBeat, демонстрира как едновременното пълно (end-to-end) обучение на компактен енкодер и голям декодер може да компресира входящия контекст до 16 пъти без значително влошаване на точността на модела.

Конвенционалните методи за управление на контекста разчитат главно на изхвърляне (eviction) или квантуване на записи от KV кеша. Въпреки това, тези подходи имат фундаментални ограничения: те често изискват първоначално пълно зареждане (prefill) на целия оригинален контекст и трудно се интегрират в съвременните високопроизводителни среди за обслужване на модели. За разлика от тях, LCLM компресира суровите токени в по-къса поредица от непрекъснати ембединги (т.нар. „меки токени“ или soft tokens), които се подават на декодера. По този начин изчисленията в декодера се намаляват правопропорционално на степента на компресия [1].

Архитектурно търсене на оптималния енкодер-декодер компресор

За да установят най-ефективния дизайн за контекстна компресия, авторите провеждат контролирано архитектурно търсене (architecture search), обучавайки различни варианти от нулата върху 38 милиарда токена. В това чистокръвно изследване изследователите анализират няколко ключови архитектурни оси:

Оператор за групиране (Pooling Operator): Изпробвани са три метода — групиране на база токени (например използване на състоянието на EOS или CLS токените), средно групиране (mean pooling) и конкатенация (concat pooling). Експериментите показват, че mean pooling превъзхожда токеновите методи при високи нива на компресия (16x), докато конкатенацията дава леко предимство при по-ниски нива (4x).
Граничност на кодирането (Encoding Granularity): Вместо кодиране на целия контекст наведнъж, което изисква твърде много памет, авторите изследват обработката на прозорци (window size) с размер $W$. Конфигурацията с размер на прозореца $W = 1024$ токена осигурява най-добър баланс между качество на компресираните представяния и ефективност на изчисленията.
Внимание на енкодера (Encoder Attention Mask): Сравнени са каузални (causal) и двупосочни (bidirectional) маски. Противно на интуицията от класическите представяния на текстови ембединги, каузалната маска за внимание в енкодера води до системно по-нисък pre-training loss.
Дизайн на адаптера (Adapter Design): Тъй като енкодерът (0.6B параметри) и декодерът (4B параметри) имат различни скрити размерности, е необходим адаптер. Лекият MLP (мултислоен перцептрон) адаптер показва по-добри резултати и по-ниски изчислителни разходи спрямо по-сложния адаптер, базиран на внимание.

В крайна сметка мащабираната архитектура на LCLM комбинира енкодер Qwen3-Embedding-0.6B и декодер Qwen3-4B-Instruct-2507, свързани чрез MLP адаптер и каузална маска, използвайки mean pooling за финалните представяния [1].

Архитектура на LCLM
Изображение: Svetni.me / Авторско изображение

Многоетапен процес на обучение и селекция на данни

Компресирането на общ контекст без загуба на фундаменталните способности на езиковия модел изисква прецизен тренировъчен режим. Изследователите предлагат четириетапен процес за плавно обучение на компонентите, което предпазва от деградация на градиентите и катастрофално забравяне:

Етап 0 (Adapter Warmup): Енкодерът и декодерът са замразени. Обучава се единствено MLP адаптерът, за да се напаснат двете различни векторни пространства.
Етап 1 (Encoder Training): Енкодерът се размразява, докато декодерът остава замразен. Това позволява на енкодера да започне да генерира оптимизирани репрезентации, специфични за нуждите на езиковия модел.
Етап 2 (End-to-End Continual Pre-training): Декодерът се размразява с ниска скорост на обучение (learning rate), позволявайки на цялата система да се оптимизира съвместно върху 350 милиарда токена.
Етап 3 (Supervised Fine-Tuning): Моделът се дообучава върху смесица от данни за разсъждение, следване на инструкции и разбиране на дълъг контекст.

За обучението се събират три основни типа данни: прецизирана смес за продължаващо преобучение, съдържаща Common Crawl, код и математика; висококачествени SFT данни (регенерирани частично с Qwen3-30B и Qwen3-235B за по-висока точност); и спомагателни данни за реконструкция (auxiliary reconstruction). Последната задача изисква от модела да реконструира пълния оригинален текст на базата на силно компресираните латентни меки токени, което принуждава енкодера да запазва фините детайли във векторните си представяния [1].

Скорост и памет: Постигане на нова Парето граница

Ефективността на LCLM е оценена чрез сравнение с утвърдени алгоритми за компресиране на KV кеша, сред които SnapKV, KVzip, FastKVzip и Expected Attention. Оценката е извършена върху стандартизираните бенчмаркове за дълъг контекст RULER, LongBench и LongHealth.

За разлика от KV cache методите, които трябва първо да заредят целия оригинален текст в паметта и след това да извършат филтриране, LCLM извършва компресията паралелно на прозорци от 1024 токена, използвайки значително по-малък енкодер. Това позволява паралелизиране на процеса чрез пакетиране (batching) на енкодерните стъпки (например размер на партидата от 128 прозореца, равняващ се на 131 072 токена наведнъж). При контексти с дължина от 128K до 512K токена пиковата памет на графичния процесор (GPU) остава почти константна и се доминира от активациите на малкия енкодер, преди нарастването на латентната поредица да прехвърли тежестта върху декодера. LCLM дефинира нова Парето граница по отношение на латентността до първия токен (TTFT) и консумацията на памет при големи мащаби [1].

Интеграция с производствени среди и serving системи

Едно от ключовите предимства на меките токени в LCLM е пълната им съвместимост със стандартните производствени двигатели за обслужване на модели с отворен код, като vLLM и SGLang.

Много съвременни KV cache компресори разпределят капацитета за съхранение неравномерно между отделните глави на вниманието (attention heads) или слоевете на невронната мрежа. Това ги прави несъвместими с оптимизираните механизми като PagedAttention, тъй като те изискват еднаква дължина на поредицата за всички кеширани състояния. Тъй като LCLM компресира последователността на ниво входни ембединги, получените латентни токени се разглеждат от декодера като обикновен вход. Това означава, че LCLM може директно да се възползва от ускоренията на paged-attention фреймуърковете без необходимост от писане на специализирани потребителски CUDA ядра [1].

Агентни структури с латентен контекст и динамично разширяване

Изследователите демонстрират и вграждането на LCLM в агентни рамки (agent scaffolding) за справяне със задачи от тип „игла в купа сено“ (needle-in-a-haystack). Проблемът при стандартното компресиране е, че при високи нива на сгъстяване (например 16x) изключително фини детайли могат да се загубят, което пречи на точното извличане на факти.

За да разрешат това, авторите разделят входа на сегменти от 512 токена, компресират всеки от тях и му присвояват идентификатор. Агентът получава пълната компресирана латентна поредица, но разполага и с инструмент EXPAND(i). При необходимост моделът може да извика инструмента за конкретен индекс, което разширява съответния сегмент обратно до неговия суров текстов формат в контекста. Този подход позволява на агента първоначално да направи бърз глобален преглед на огромни масиви от данни (например цяло кодово хранилище) и след това селективно да фокусира изчислителния си капацитет само върху критичните сегменти, възстановявайки точността до нивата на некомпресирания модел [1].

Референции

[1] NYU, Modal Labs, UMD, Princeton, Columbia, Harvard, LLNL, FAIR at Meta. End-to-End Context Compression at Scale. arXiv:2606.09659, 2026.