Обучение чрез подкрепление (Reinforcement Learning)
Обучението чрез подкрепление (Reinforcement Learning - RL) е дял от машинното обучение, при който интелигентен агент се учи да взема решения чрез взаимодействие със среда. Агентът получава награди или наказания за своите действия, като целта е да максимизира кумулативната награда с течение на времето. В контекста на езиковите модели, RL се използва за фина настройка на поведението (напр. чрез RLHF) или за обучение на специализирани модели като „проводници“ (conductors), които се учат да координират други модели.