Обучение RL через VeRL.
npx -y skills add orchestra-research/ai-research-skills --skill verl-rl-training --agent claude-code