RLVR
RLVR (Reinforcement Learning with Verifiable Rewards) е метод за обучение на AI модели, при който се използват автоматизирани верификатори (например за математически задачи или програмен код) за предоставяне на обективна обратна връзка за верността на отговорите. Това е ключов механизъм при разработването на модели, способни на логическо разсъждение.