KV Cache
KV Cache (Key-Value Cache) е техника за оптимизация при големите езикови модели (LLM), която съхранява изчислените състояния на предходни токени по време на генерирането на текст. Тъй като моделите генерират токени един по един, KV кешът предотвратява повторното изчисляване на вече обработения контекст, което значително ускорява инференцията. Ефективното управление на KV кеша е от решаващо значение за поддържане на дълги контекстни прозорци и висока паралелност на потребителските заявки.