Функция награды для обучения с подкреплением.
npx -y skills add agentscope-ai/openjudge --skill rl-reward --agent claude-code