Benchmark система для сравнения coding агентов на реальной кодовой базе: метрики и воспроизводимость.
npx -y skills add affaan-m/everything-claude-code --skill agent-eval --agent claude-code