SkillsBench
SkillsBench е първият специализиран бенчмарк, създаден за измерване на ефективността на "уменията" (skills) при автономните AI агенти. Разработен от изследователи, той тества 84 задачи в 11 различни области, за да определи дали добавянето на специфични инструкции и инструменти подобрява успеха на агентите. Резултатите от SkillsBench показват, че внимателно подбраните (curated) умения повишават успеваемостта средно с 16.2%, докато автоматично генерираните от модела умения често не носят съществена полза.