llama.cpp

llama.cpp е софтуерна библиотека с отворен код, написана на C/C++, която е разработена от Георги Герганов. Проектът има за цел да осигури възможно най-висока производителност при локално стартиране (инференция) на големи езикови модели (LLM), първоначално оптимизирана за модела LLaMA на Meta.

Библиотеката се отличава с минимални външни зависимости и изключителна оптимизация за различни хардуерни архитектури, включително Apple Silicon (чрез Metal API), ARM процесори, x86 и графични ускорители (NVIDIA/AMD). Благодарение на поддръжката на различни методи за квантизация, llama.cpp позволява на потребителите да стартират модели с десетки милиарди параметри на обикновени персонални компютри и лаптопи с ограничена памет.

llama.cpp

Свързани концепции

Споменавания в статии