Sakana AI обучи 7B модел да управлява GPT-5, Claude 4 и Gemini 2.5

Публикувано от Svetni.me Editorial на 8 май 2026 г.

Вместо да разчитат на статични и твърдо кодирани вериги (като тези в LangChain), изследователите от Sakana AI представиха революционен подход за автоматизирано оркестриране на ИИ. Тяхната нова система, наречена RL Conductor, използва малък 7-милиарден модел, който динамично координира работата на най-мощните езикови модели в света [1].

Краят на ръчното кодиране на агенти

Настоящите мулти-агентни системи често се чупят, когато разпределението на заявките се промени, тъй като техните работни потоци са предварително дефинирани от разработчици. RL Conductor решава този проблем, като използва обучение чрез подкрепление (Reinforcement Learning), за да се научи как автоматично да разделя сложни задачи на подзадачи и да ги делегира на най-подходящия „експерт“.

Диаграма на работния процес на RL Conductor
Изображение: Svetni.me / Авторско изображение

В проведените тестове моделът е имал достъп до пул от работници, включващ GPT-5, Claude Sonnet 4 и Gemini 2.5 Pro, както и отворени модели като Qwen3 и DeepSeek-R1.

Ефективност и рекордна производителност

Резултатите показват, че RL Conductor не само превъзхожда индивидуалните фронтиерни модели, но го прави и значително по-ефективно:

  • Точност: Постига 93.3% на математическия бенчмарк AIME25 и 87.5% на GPQA-Diamond.
  • Ефективност: Използва средно само 1,820 токена на въпрос, в сравнение с над 11,000 при традиционните Mixture-of-Agents (MoA) подходи.

Интересно наблюдение от изследването е как Conductor се адаптира към силните страни на моделите. За сложни задачи по програмиране той често назначава Gemini 2.5 Pro и Claude 4 за стратегическо планиране, като оставя на GPT-5 финалното оптимизиране на кода [1].

От научен труд към бизнес продукт: Fugu

Sakana AI вече е превърнала тази технология в търговски продукт, наречен Fugu. Услугата се предлага в два варианта: Fugu Mini за операции с ниска латентност и Fugu Ultra за максимална производителност при тежки работни натоварвания.

Според Юджин Танг, съавтор на изследването, технологията е насочена към индустрии като финансите и отбраната, където досегашните статични пайплайни не успяваха да се справят с хетерогенните изисквания на реалния свят.

Източници:

[1]: How Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs - VentureBeat