vLLM

vLLM е популярна библиотека с отворен код за високопроизводително и икономично обслужване (serving) на големи езикови модели (LLMs). Разработена първоначално в UC Berkeley, тя е известна с внедряването на технологията PagedAttention, която оптимизира управлението на KV Cache в графичната памет (VRAM), предотвратявайки фрагментацията и подобрявайки пропускателната способност на системите.

Споменавания в статии

Пълно компресиране на контекст в голям мащаб: Новата ера на LCLM