Защо предвиждането на намерения изисква повече от големи езикови модели
В новия епизод на технологичния подкаст на Stack Overflow, водещият Райън Донован разговаря с Франк Портман, технически директор и съосновател на компанията Yobi, за ограниченията на големите езикови модели при нелингвистични задачи [1]. Разговорът се фокусира върху въпроса защо стандартният голям езиков модел (LLM) не е оптималното решение за предвиждане на намерения и моделиране на човешкото поведение. Портман споделя, че докато съвременните текстови модели са изключително ефективни при синтезиране на информация и генериране на софтуерен код, вземането на решения под влияние на неопределеност изисква различен индуктивен подход.
Основната разлика се крие в индуктивното предразположение (inductive bias) на архитектурите. Обучението за предвиждане на следващия токен в текст е отлично за симулация на диалог, но не съответства на механиката на човешките действия. Поведенческият изкуствен интелект оперира в среда, където обемът на възможните действия е с три порядъка по-голям от този на човешкия език. Докато един типичен езиков модел се справя успешно с речник от неколкостотин хиляди токена, броят на уникалните потребителски поведения и транзакции достига десетки милиони, изисквайки съвършено различна парадигма за представяне на информацията.
Архитектура на поведенческия стек: Графове и Трансформъри
За да преодолее тези мащабни предизвикателства, Yobi разработва хибриден технологичен стек. В основата му лежат големи трансформъри, тъй като механизмът за внимание (attention) е доказано ефективен за извличане на зависимости в поредици от събития. Но за разлика от класическите езикови модели, тук системата включва и графови невронни мрежи (GNNs), които помагат за свързване на анонимни идентификатори на сесии и проследяване на потребителския път при зачитане на поверителността.
Тази графова структура помага за решаването на класическия проблем за индуктивни срещу трансдуктивни модели в препоръчителните системи. Трансдуктивните модели са ограничени до поведението, наблюдавано по време на обучението, докато индуктивните модели могат динамично да интегрират нови потребители и непознати действия в движение. Тъй като човешкото поведение се променя изключително динамично, индуктивният характер на моделите на Yobi гарантира, че персонализираните прогнози остават точни и адекватни дори когато потребителят внезапно промени своите интереси.
Изображение: Svetni.me / Авторско изображение
Милиони QPS и оптимизации на латентността
Интегрирането на поведенчески изкуствен интелект в реални системи, като рекламни сървъри и маркетингови платформи, налага екстремни технически ограничения. Решенията трябва да се вземат в рамките на милисекунди при натоварвания от милиони заявки в секунда (QPS). За да поддържа такава производителност на своите клъстери от графични процесори (GPU), екипът на Yobi избягва генерирането на отговори в реално време, както се случва при чатботовете.
Вместо това те залагат на две ключови инженерни стратегии:
Масивно предварително изчисляване (pre-computing) на поведенческите вектори и съхраняването им в бързи embedding lookup таблици.
Интелигентно управление на опашките и паралелна обработка на заявките на партиди (batching).
Това позволява на системата да балансира между точността на прогнозите и строгия бюджет за латентност, осигурявайки надеждна работа в реално време при индустриални мащаби.
Математически гаранции за защита на личните данни
Критично изискване при работа с чувствителни потребителски профили е сигурността на личните данни. Портман отбелязва, че компаниите трябва да имат пълно доверие в моделите, преди да им споделят своите масиви от данни. За тази цел Yobi внедрява строги математически рамки като диференциална поверителност (differential privacy) и концепцията за K-анонимност, гарантиращи невъзможността за идентифициране на конкретни индивиди в извадките.
Освен това компанията провежда активни научни изследвания в областта на хомоморфното шифриране (homomorphic encryption) и неговото приложение при машинното обучение. Тази криптографска технология позволява обучението на алгоритми директно върху кодирани поведенчески данни, без те някога да бъдат дешиврирани или излагани на риск. Подобни подходи правят технологията съвместима с разпределени архитектури и системи за локално изчисление (local AI), където суровите данни никога не напускат устройството или защитената среда на клиента.
Източници:
[1]: Why intent prediction needs more than an LLM - Stack Overflow