Unweight
Unweight е разработена от Cloudflare технология за компресиране на тензори (tensor compression), целяща драстично съкращаване на паметта, изисквана от големите езикови модели при изпълнение.
Как работи
В невронните мрежи „теглата“ (weights) на връзките са организирани в големи многомерни масиви, наречени тензори. Технологията Unweight използва математически методи за компресия, фино филтриране и отстраняване на излишна информация от тези тензори.
Това намалява физическия обем на модела, който трябва да се зареди в паметта на видеокартата (VRAM).
Ползи за периферията (Edge AI)
- Намаляване на изискванията за VRAM: Изключително големи модели могат да се изпълняват на по-компактни и евтини GPU конфигурации.
- По-бързо стартиране (Cold Start): Намалява времето за първоначално зареждане на модела в паметта, което е критично за безсървърни (serverless) приложения.
- Икономическа ефективност: Понижава крайната цена на Workers AI услугите за крайните клиенти.