Сравнение нескольких LLM или агентов без готовых тестовых данных: arena формат.
npx -y skills add agentscope-ai/openjudge --skill auto-arena --agent claude-code