Подравняване на ИИ (AI Alignment)
Подравняването на изкуствения интелект (AI Alignment) е научно направление в областта на безопасността на ИИ, което се стреми да гарантира, че целите и поведението на ИИ моделите съвпадат с човешките ценности и намерения.
Основни проблеми
- Външно подравняване: Формулиране на правила и цели, които точно отразяват това, което хората искат.
- Вътрешно подравняване: Гарантиране, че самият модел вътрешно е възприел тези цели, а не просто се преструва или оптимизира за грешни показатели (Reward hacking).
Методи за постигане
Най-често използваните методи включват подсилено обучение с човешка обратна връзка (RLHF) и Конституционен ИИ (Constitutional AI), пионери в който са Anthropic. През 2026 г. фокусът се измества към обучение чрез етично разсъждение и използване на синтетични данни за моделиране на правилно поведение.