Подравняване на ИИ (AI Alignment)

Подравняването на изкуствения интелект (AI Alignment) е научно направление в областта на безопасността на ИИ, което се стреми да гарантира, че целите и поведението на ИИ моделите съвпадат с човешките ценности и намерения.

Основни проблеми

  • Външно подравняване: Формулиране на правила и цели, които точно отразяват това, което хората искат.
  • Вътрешно подравняване: Гарантиране, че самият модел вътрешно е възприел тези цели, а не просто се преструва или оптимизира за грешни показатели (Reward hacking).

Методи за постигане

Най-често използваните методи включват подсилено обучение с човешка обратна връзка (RLHF) и Конституционен ИИ (Constitutional AI), пионери в който са Anthropic. През 2026 г. фокусът се измества към обучение чрез етично разсъждение и използване на синтетични данни за моделиране на правилно поведение.

Споменавания в статии