Уменията за агенти работят, но изследванията показват, че повечето екипи ги изграждат грешно
Според скорошен анализ на O'Reilly Media [1], индустрията преминава от прост инженеринг на подкани (prompt engineering) към "инженеринг на умения" (skill engineering). Докато инструментите дават на AI агентите способности (като достъп до терминал или API), уменията кодират организационното знание за това как тези способности да се използват ефективно за специфични работни процеси.
Въпреки че "уменията" обещават значително подобрение в производителността, новите изследвания показват, че много екипи допускат фундаментални грешки при тяхното изграждане. От разчитане на автоматично генерирани инструкции до лошо структурирани библиотеки, пътят към надеждна агентична система се оказва по-сложен от очакваното.
Какво всъщност е "умение"?
За разлика от системните подкани, които зареждат целия контекст наведнъж, уменията използват принципа на прогресивно разкриване. Агентът вижда само описанието на умението в началото на сесията, а пълните инструкции се зареждат само когато то бъде активирано. Това позволява поддържането на огромни библиотеки с минимален разход на токени.
Както отбелязват инженерите от екипа на Goose, уменията са като YAML файлове в GitHub Actions, докато Model Context Protocol (MCP) е средата за изпълнение (runner). Едното описва работния процес, а другото го прави възможен.
Какво казват бенчмарковете
SkillsBench [2] е първото систематично проучване, което измерва дали уменията действително подобряват работата. Резултатите показват, че внимателно подбраните (curated) от хора умения повишават успеваемостта средно с 16.2%. В специфични области като здравеопазването подобрението достига до 52%.
Критичното разкритие обаче е, че уменията, генерирани изцяло от AI модели, не носят почти никаква полза. Моделите често пропускат специфични API патърни или не успяват да идентифицират точното знание, необходимо за задачата. Това означава, че човешкият преглед и корекция остават незаменим елемент от процеса.
Проблемът с мащабирането
Когато една библиотека надхвърли 80-100 умения, традиционното извличане започва да се проваля. Изследването AgentSkillOS [3] описва феномена "срив на маршрутизацията" (routing collapse), при който агентът започва да обърква сходно звучащи умения.
Изображение: Svetni.me / Авторско изображение
Решението, предложено от изследователите, са "йерархии на способностите" (capability trees). Вместо плосък списък, уменията се организират в дървовидна структура (например: Код -> Ревю -> Стил). Това позволява на агента да навигира логически и драстично намалява семантичните колизии дори в системи с над 200,000 записа.
Рисковете за сигурността
Голям анализ на над 31,000 публично достъпни умения [4] установи, че повече от една четвърт (26.1%) съдържат критични уязвимости. Те варират от скрити атаки за инжектиране на подкани (prompt injection) до скриптове за нерегламентирано извличане на данни.
Тъй като умението е практически код, изпълняван с правата на агента, импортирането му от публични хранилища без одит е еквивалентно на инсталиране на непознати пакети от npm. Платформи като OpenHands и Atlassian вече внедряват по-строги механизми за ограничаване на правата (sandboxing) и кураторски списъци, за да смекчат тези рискове.
Три стъпки към по-добри умения
Изследванията сочат три ясни стратегии за успех:
- Пишете умения въз основа на реално изпълнение: Вместо да започвате от нулата, направете процеса ръчно с агента, коригирайте го и след това извлечете успешния сценарий като умение.
- Третирайте описанието като логика за маршрутизация: Описанието на умението не е просто етикет, а условието, при което то се задейства. Точността тук е по-важна от детайлността в самото тяло.
- Планирайте пълния жизнен цикъл: Уменията остаряват. Тъй като модели като Claude Code се подобряват, някои специфични инструкции стават излишни или дори вредни. Системи като SkillOrchestra предлагат автоматизирано следене на ефективността и деактивиране на умения, които вече не носят добавена стойност.
Източници:
[1]: Agent Skills Work but the Research Shows Most Teams Are Building Them Wrong - O’Reilly Radar
[2]: SkillsBench: A Benchmark for Evaluating Agent Skills - ArXiv
[3]: AgentSkillOS: Scaling Agent Skills to Ecosystem Scale - ArXiv
[4]: A Large-Scale Security Analysis of Agent Skills - ArXiv