eval-harness

star 177

Evaluation framework for measuring code agent effectiveness. v8.0: Added Agent Teams collaboration quality metrics.

WenJunDuan By WenJunDuan schedule Updated 2/9/2026

name: eval-harness description: | Evaluation framework for measuring code agent effectiveness. v8.0: Added Agent Teams collaboration quality metrics.

Eval Harness Skill

评估维度

维度 指标 目标
任务完成率 done/todo 比例 >95%
验证通过率 首次验证通过比例 >80%
方案偏离度 plan vs 实际实现差异 <10%
返工率 需要修复的任务比例 <15%
寸止响应质量 用户一次确认通过比例 >90%

Agent Teams 评估 (v8.0 新增)

维度 指标
并行效率 实际加速比 vs 理论加速比
协调开销 协调 token / 总 token
冲突率 文件冲突次数
合并质量 合并后测试通过率
Install via CLI
npx skills add https://github.com/WenJunDuan/Rlues --skill eval-harness
Repository Details
star Stars 177
call_split Forks 23
navigation Branch main
article Path SKILL.md
More from Creator