AI агентите тихомълком предизвикват сривове, които компаниите все още не проследяват

Публикувано от Svetni.me Editorial на 24 май 2026 г.

Според материал на експерта Саяли Патил за изданието VentureBeat [1], в съвременните производствени среди се появява нов тип инциденти, които ИТ екипите все още не класифицират правилно. Проблемът възниква, когато автономен изкуствен интелект предприеме действие, което е технически правилно спрямо собствения му контекст, но поради непълна системна картина предизвиква каскаден срив в инфраструктурата.

Проучване на консултантската компания PwC показва, че 79% от организациите вече използват някаква форма на AI агенти в реална среда [2]. Изследователската фирма Gartner предвижда, че до 2028 г. една трета от корпоративния софтуер ще включва агентски AI, но същевременно предупреждава, че 40% от тези проекти ще бъдат прекратени поради лош контрол на риска [3].

Каскаден срив, предизвикан от AI агент
Изображение: Svetni.me / Авторско изображение

Рискът от липса на човешка преценка

При традиционното хаос инженерство, хората правят субективна оценка дали системата има капацитет да поеме допълнителен стрес в дадения момент. При автономните агенти за отстраняване на проблеми този контрол липсва. Когато агентът засича аномалия, той незабавно извършва действие (например рестартиране на клъстер), което само по себе си представлява хаотично събитие.

Ако микросервизът бъде рестартиран в момент, когато споделеният пул от връзки е натоварен на 87%, а зависима база данни извършва фоново индексиране, това може да доведе до ефекта на „свирепо стадо“ (thundering herd) и мащабен срив. Данните от платформата AI Incidents Database сочат, че докладваните AI инциденти са се увеличили с 21% между 2024 и 2025 г. [4], но много от тези случаи остават нерегистрирани като предизвикани от AI, а се записват като обикновени хардуерни сривове.

Бюджет за устойчивост като решение

Въз основа на изследвания с инженери по надеждност на системите (SRE) от компании като Intuit [5] и GPTZero [6], Саяли Патил предлага внедряването на „бюджет за устойчивост“ (resilience budget). Този модел оценява в реално време колко стрес може да поеме инфраструктурата, като следи четири класа сигнали: скорост на изгаряне на SLO, тенденции в P99 латентността, насищане на зависимостите и поведенчески сигнали от приложенията. Всяко действие на ИТ екип или AI агент черпи от този общ капацитет.

Моделите не могат да контролират сами себе си

Изследвания на лабораторията за надежден изкуствен интелект (STAIR Lab) към Stanford University доказват, че защитите на ниво модел са недостатъчни, тъй като атаки чрез фина настройка лесно заобикалят вградените предпазни ограничения [8]. Поради това езиковите модели (LLM) не трябва да вземат самостоятелни решения за изпълнение при неясни сигнали [7]. Всички действия на AI агентите в инфраструктурата трябва да бъдат регулирани от същия слой, който управлява експериментите по хаос инженерство, като при неяснота се задейства автоматичен прекъсвач, прехвърлящ решението на човек.

Източници:

[1]: AI agents are quietly generating chaos engineering failures enterprises don't track yet - VentureBeat
[2]: AI Agent Survey - PwC
[3]: Gartner Predicts Over 40 Percent of Agentic AI Projects Will Be Canceled by End of 2027 - Gartner
[4]: Artificial Intelligence Incident Database
[5]: Intuit Official Website
[6]: GPTZero Official Website
[7]: Intent-based chaos testing is designed for when AI behaves confidently and wrongly - VentureBeat
[8]: Stanford Trustworthy AI Research Lab