Инфраструктура, съобразяваща се с поверителността: Управление на активи в ерата на изкуствения интелект

Публикувано от Svetni.me Editorial на 27 юни 2026 г.

В официална публикация в корпоративния си инженерен блог Meta представи детайлно изследване на своята архитектура за класификация на активи [1]. Проектът е част от по-широката инициатива за изграждане на инфраструктура, съобразяваща се с поверителността (Privacy-Aware Infrastructure или PAI), която има за цел да наложи автоматизирано спазване на правилата за защита на личните данни директно на системно ниво. В съвременната AI-native ера, характеризираща се с бързи цикли на разработка и неструктурирани потоци от данни, традиционните методи за ръчен одит са напълно нерентабилни. Решението на Meta залага на иновативен хибриден модел: съчетание от детерминистичен механизъм с нулево забавяне и резервен предпазен филтър, базиран на големи езикови модели (LLM).

Предизвикателството пред класификацията на активи

В контекста на корпоративното управление на данните (Data Governance), терминът „актив“ вече далеч надхвърля традиционните релационни бази данни. Днес той обхваща вложени полета в JSON структури, инфрaструктурни логове, API параметри, междинни масиви за обучение на модели и векторни вграждания (embeddings). За да се приложи какъвто и да е контрол върху поверителността – например ограничаване на целта, политики за задържане или заличаване на информация – системата първо трябва да разбере какво точно съдържа даденият актив [1].

Това разбиране обаче е силно зависимо от контекста. Един от най-ярките примери е с поле, наречено просто age (възраст). В контекста на потребителски профил това е чувствителна лична информация, изискваща строга защита. В рамките на разпределена кешираща система обаче, същото наименование age обозначава времето на живот на записа (TTL) – напълно безобидна техническа метрика. Ако филтърът разчита само на наименованията, той или ще пропусне изтичане на данни, или ще блокира жизненоважни кеш потоци, парализирайки инфраструктурата.

Ситуацията се усложнява допълнително от четири основни фактора в съвременните софтуерни архитектури:

  1. Шумни и слаби сигнали: Инженерите често подават десетки контекстни полета към класификаторите, което размива фокуса на моделите и води до грешки.
  2. Разпределен контекст: Информацията за произхода (lineage), собствеността и семантиката на данните често живее в коренно различни системи.
  3. Непрекъснато движение на схемите: Продуктовите промени настъпват ежедневно, правейки статичните дефиниции безполезни.
  4. Зависимост на сигурността: Класификацията се намира на входа на тръбопровода за решения. Всяка грешка тук компрометира цялата верига от контроли по киберсигурност надолу по веригата [1].

Хибридната двуканална архитектура

За да балансира между двете противоположни нужди – гъвкавост при неясни данни и абсолютна детерминистичност при вземането на решения – Meta внедрява двуканална операционна система (Online Serving Lane и Offline Loop).

Хибридна архитектура за класификация на активиАвторско изображение

1. Онлайн канал за обслужване (Online Serving Lane)

В реално време класификаторът работи като строго дефинирана услуга с ясен договор. На входа той получава идентификатор на актив и сглобен контекст от базата данни, а на изхода връща категоризация с калибриран индекс на надеждност и одитна следа.

  • Детерминистичен път: Използва предварително одобрени, версионирани правила. Тези правила покриват около 85% от общия трафик. Предимството им е огромно – обработката отнема под 10 милисекунди и не изисква почти никакъв изчислителен ресурс.
  • LLM Резервен път (Fallback): Останалите 15% от трафика, които представляват нови, непознати или силно двусмислени структури от данни, се пренасочват към LLM филтър. Този път е по-бавен (отнема секунди) и изисква около 400 пъти повече изчисления. Моделът анализира т.нар. Evidence Brief – синтезирано резюме на най-силните доказателства за и против дадена класификация.

Ключов инвариант на архитектурата е маскирането (Masking). За да се избегне цикличност в разсъжденията, съществуващите етикети за поверителност се премахват от контекста преди изпращането му към LLM. Така моделът е принуден да разсъждава върху физическото доказателство, а не да преписва готовия отговор [1].

Офлайн цикълът: Мултипанелен съдия и саморегулация

Офлайн контурът работи всяка нощ и се грижи за постоянното обучение и оптимизация на системата без допускане на самозатваряне на грешките.

За оценка на качеството Meta използва т.нар. Мултипанелен съдия (Multi-Panel Judge). Три отделни инстанции на по-голям и мощен модел (различен от използвания онлайн) оценяват класификациите от три различни гледни точки:

  1. директна класификация на база доказателства;
  2. критика на съществуващите сигнали с последващо решение;
  3. класификация изключително по метаданни (без имена и описания).

Резултатите се агрегират чрез мнозинствен вот. Нивото на консенсус се измерва статистически чрез коефициента на Капа на Коен ($\kappa$). Тези данни постъпват в Контролер за настройка (Tuning Controller). Той представлява краен автомат, който наблюдава стабилността на качеството и при необходимост може да спре оптимизационния цикъл (режим Pausing или Diagnosing), сигнализирайки за нужда от човешка намеса [1].

Дестилация на правила и сигурност

Основната цел на изкуствения интелект в тази система не е да взема решения в реално време до безкрай. Вместо това, LLM се използва за откриване на логически зависимости, които след това се дестилират в статични правила. Процесът на дестилация протича в три фази:

  1. Правила на ниво поле: Прости съвпадения и регулярни изрази.
  2. Композитни правила: Логически конюнкции (напр. собственик на кода е екип X И типът данни съвпада с Y).
  3. LLM-генерирани правила: Сложни логически модели, предложени от AI, но задължително одитирани от инженери.

Никое автоматично генерирано правило не се внедрява директно. То трябва първо да премине през тестове върху затворена референтна извадка (holdout set), след това да работи в фонов режим (shadow mode) в реална среда, без да влияе на трафика, и накрая да бъде подписано от администратор. Промотирането на правилата в продукция се извършва чрез атомарна compare-and-swap (CAS) трансакция, което изключва риска от междинни състояния в защитата на личните данни [1].

Практически изводи

Внедряването на системата доказва три фундаментални инженерни истини. Първо, качеството на подадения контекст е много по-важно от дължината и детайлността на системния промпт. Второ, оценката на качеството трябва винаги да е физически отделена от процеса на класификация. Трето, детерминизмът е единственият начин за постигане на пълна възпроизводимост и прозрачност при одит – решенията на LLM трябва систематично да се превеждат на езика на конвенционалния софтуерен код [1].

Втори екип от Meta, работещ по автономно отстраняване на неизправности, е сравнил независимо този хибриден подход с традиционни изцяло LLM-базирани решения. Резултатите потвърждават, че моделът с детерминистичен първи слой осигурява значително по-ниска латентност, по-малко разходи и пълна одитна проследимост, доказвайки стабилността на архитектурния модел в реална среда [1].

Източници:

[1]: Privacy-Aware Infrastructure in the AI-Native Era: An Asset Classification Case Study - Engineering at Meta