Qwen-AgentWorld: Alibaba представи първите езикови световни модели за захранване на ИИ агенти

Публикувано от Svetni.me Editorial на 25 юни 2026 г.

В бързо развиващия се свят на изкуствения интелект изследванията традиционно се фокусират върху оптимизирането на „политиката“ на агентите – способността им да вземат решения и да избират следващото действие. Изследователският екип на Tongyi Lab към китайския технологичен гигант Alibaba обаче предлага радикално различна парадигма. В нов научен труд, публикуван в препринт платформата arXiv [1], те представят проектa Qwen-AgentWorld. Това е първата фамилия от т.нар. езикови световни модели (Language World Models), които са обучени не да действат като агенти, а да симулират самата среда, с която агентите взаимодействат [2].

Липсващата половина в агентния ИИ

За да може един агентен ИИ да планира дългосрочно и да разсъждава ефективно, той се нуждае от способност да предвижда последствията от своите стъпки. В когнитивната наука тази роля се изпълнява от т.нар. световен модел (World Model) — вътрешна симулация на реалността, която прогнозира как ще се промени средата след определено действие. Досега разработчиците разчитаха на реални или статични симулирани среди (като докер контейнери или софтуерни тестови среди), които обаче са скъпи, трудни за мащабиране и не позволяват лесен контрол върху страничните събития.

Qwen-AgentWorld запълва тази празнина, като обединява седем ключови области на взаимодействие в единна архитектура:

MCP (Model Context Protocol) – симулация на протоколи за обмен на данни между приложения и модели;
Search – уеб търсене и извличане на информация;
Terminal – симулиране на команден ред и системни конзоли;
Software Engineering (SWE) – среди за програмиране и дебъгване;
Android – мобилни интерфейси и операционната система за смартфони;
Web – браузване и взаимодействие с уеб сайтове;
OS – управление на ресурси на ниво десктоп операционна система.

Чрез обучение върху над 10 милиона реални траектории на взаимодействие в тези седем домейна, Qwen-AgentWorld се превръща във високоточен, генеративен езиков симулатор [1].

[Двупосочен Агентен Цикъл с Qwen-AgentWorld]
Авторско изображение

Архитектура и тристепенен процес на обучение

Изследователите от Alibaba пускат два модела с архитектура Mixture-of-Experts (MoE) — компактния Qwen-AgentWorld-35B-A3B (с 3 милиарда активни параметри) и водещия Qwen-AgentWorld-397B-A17B (със 17 милиарда активни параметри). Създаването на моделите следва строг тристепенен конвейер [1]:

Продължаващо предварително обучение (CPT): Инжектира фундаментални знания за динамиката на преходните състояния чрез специализирани корпуси от кодове, системни логове и системна документация.
Наблюдавано фино настройване (SFT): Активира способността на модела да предвижда следващото състояние на средата. Тук се прилага дълъг мисловен процес (Chain-of-Thought или CoT), позволяващ на модела да „разсъждава“ стъпка по стъпка за промените в системата преди да ги изобрази.
Обучение с подкрепление (RL): Финализира точността на симулацията. Използва се хибридна система от правила и динамични критерии за оценка (hybrid rubric-and-rule rewards), за да се гарантира, че симулираната среда реагира реалистично на действията на агента.

Благодарение на тази подготовка, водещият модел с 397 милиарда параметри демонстрира изключителна точност на симулацията, изпреварвайки комерсиални гиганти като GPT-5.4 и Claude Opus 4.8 в новия сравнителен тест AgentWorldBench [1].

Две парадигми за подобряване на агентите

Разработването на езикови световни модели отваря два напълно нови начина за подобряване на стандартните ИИ агенти [2]:

Автономна и контролирана среда за RL обучение: Qwen-AgentWorld може да работи като независим, разкачен симулатор. Вместо агентите да се обучават в реалния свят (което крие рискове от повреда на софтуер или претоварване на API), те се обучават вътре в езиковия световен модел. Това позволява симулирането на хиляди паралелни среди с възможност за контролирано въвеждане на аномалии — например умишлено симулиране на мрежов срив или недостиг на дисково пространство, което е изключително трудно за автоматизирано възпроизвеждане в реални среди.

Ефектът на „подгряващото обучение“ (Warm-up): Изненадващото откритие на екипа е, че обучението на един модел като „световен модел“ (да предвижда какво ще покаже средата) служи като изключително ефективен подготвителен етап за същинската му роля като агент. Когато модел, преминал през обучение за световен модел, се донастрои като стандартен агент (да решава задачи), неговата производителност се покачва средно с близо 9 процентни пункта в седем популярни бенчмарка [1].

Постижения и практическо значение

За да оценят обективно езиковите световни модели, авторите създават платформата AgentWorldBench, базирана на реални взаимодействия на пет от най-мощните съществуващи модели в девет класически бенчмарка. Резултатите показват, че Qwen-AgentWorld успява да запази изключителна прецизност дори при дълги сесии на взаимодействие с непознати за него софтуерни интерфейси [1].

Проектът е напълно отворен за общността. Кодът, конфигурациите и теглата на моделите са достъпни в GitHub и Hugгинг Face под шапката на организацията QwenLM. Това предоставя на разработчиците безпрецедентен инструмент за симулиране на сложни софтуерни вериги без нужда от скъпа инфраструктура [2].

Фокусът върху световните модели може да се окаже липсващото звено по пътя към т.нар. изкуствен общ интелект (AGI), тъй като доближава компютърните системи до начина, по който хората учат и взаимодействат със заобикалящия ги свят — чрез изграждане на ментални карти и предвиждане на бъдещето.

Източници:

[1]: Qwen-AgentWorld: Language World Models for General Agents - arXiv
[2]: Alibaba’s model never trained as an agent and improved agent performance across seven benchmarks - VentureBeat