Поведенческие оценки LLM через Gemini CLI eval фреймворк.
npx -y skills add google-gemini/gemini-cli --skill behavioral-evals --agent claude-code