Claude Opus 4.7: По-честен и по-способен в програмирането и анализа

Публикувано от Svetni.me Editorial

Anthropic представи най-новия си хибриден модел с изкуствен интелект — Claude Opus 4.7, който демонстрира значителен напредък в надеждността и техническите възможности. Според официалния доклад на компанията [2], новият модел е по-малко склонен към халюцинации и проявява по-висока степен на честност в сравнение със своите предшественици и конкурентни модели в индустрията.

Ключови показатели за Claude Opus 4.7: честност и оспорване на грешки

Постижения в честността и намаляване на халюцинациите

Един от ключовите показатели за Claude Opus 4.7 е неговият резултат в бенчмарка MASK (Model Alignment between Statements and Knowledge). Моделът постига ниво на честност от 91,7%, което е подобрение спрямо 90,3% при Opus 4.6 [1]. Този тест проверява дали моделът би противоречил на собствените си знания, ако бъде подтикнат от потребител или системна подкана.

Освен това, Opus 4.7 е по-склонен да оспорва неверни твърдения от страна на потребителя. Данните показват, че моделът отхвърля грешни предпоставки в 77,2% от случаите [1]. В тестовете за точност на отговорите, Claude Opus 4.7 превъзхожда модели като Gemini 3.1 Pro и GPT-5-4 Pro в бенчмарка Humanity's Last Exam (HLE) без използване на външни инструменти, постигайки 46,9% успеваемост [2].

Нови възможности в програмирането и визуалния анализ

Anthropic подчертава, че Opus 4.7 е оптимизиран за сложни, дълготрайни задачи, особено в софтуерното инженерство. Ранни тестери от платформи като Cursor и Replit съобщават за значителен скок в автономността на модела, който вече е способен да открива собствените си логически грешки по време на фазата на планиране [2].

Визуалните възможности също са разширени, като моделът вече поддържа изображения с по-висока резолюция — до 2576 пиксела по дългата страна (около 3,75 мегапиксела). Това позволява по-прецизно извличане на данни от сложни диаграми и технически схеми [2].

Киберсигурност и безопасност

Въпреки напредъка си, Opus 4.7 остава по-малко мощен от непубликувания модел Claude Mythos, който Anthropic счита за твърде рисков за масова употреба поради разширените му кибер възможности. Opus 4.7 обаче въвежда нови защитни механизми, които автоматично откриват и блокират заявки за високорискови кибер дейности [2]. Компанията стартира и нова програма за верификация (Cyber Verification Program), предназначена за професионалисти по сигурността, които желаят да използват модела за легитимни изследвания на уязвимости [2].

За оценка на безопасността Anthropic използва рамката Bloom (известна преди като Petri 2.0), която анализира поведението на модела за признаци на сикофанство (прекомерно съгласяване с потребителя) или насърчаване на заблуди [3]. Резултатите показват, че Opus 4.7 се справя по-добре от конкурентите си в тези аспекти, поддържайки професионален и обективен тон.

Източници:

[1]: Anthropic: Claude Opus 4.7 has a 92% honesty rate, fewer hallucinations - Mashable
[2]: Introducing Claude Opus 4.7 - Anthropic
[3]: Bloom: an open source tool for automated behavioral evaluations - Anthropic Alignment