Паттерны построения eval пайплайнов для LLM выходных данных: тест-кейсы, метрики и инфраструктура.
npx -y skills add flora131/atomic --skill advanced-evaluation --agent claude-code