eval-harness

star 1

实验评估清单——跑实验之前先定义"什么叫过",跑完之后对照打分。适用于仿真优化、多模型对比、benchmark 评测。

letsgetai By letsgetai schedule Updated 6/4/2026

name: eval-harness description: 实验评估清单——跑实验之前先定义"什么叫过",跑完之后对照打分。适用于仿真优化、多模型对比、benchmark 评测。 tools: Read, Write, Edit, Bash, Grep, Glob

实验评估清单

核心理念

先定义"什么叫过",再跑实验。

不是跑完再看结果好不好,而是跑之前就写好评判标准,跑完自动对照打分。

什么时候用

  • 跑 CeProBench / Aspen Plus 仿真 case 之前,定义收敛性和产品质量标准
  • 多模型对比(GPT、Gemini、Claude)时,统一评分标准
  • 改了 prompt 或 skill 之后,检查有没有退步
  • 写论文需要定量的模型表现数据

评估模板

跑之前:定义标准

## 评估标准: [case 名称]

### 硬性条件(不过就是失败)
- [ ] 仿真收敛(Aspen 无报错退出)
- [ ] 运行时间 < [上限]
- [ ] Agent 没有幻觉(结果来自 tool 返回,不是编的)

### 质量指标(打分用)
- [ ] 产品纯度 > [目标值] %
- [ ] 回收率 > [目标值] %
- [ ] 回流比在合理范围 [下限] ~ [上限]
- [ ] 能耗 < [目标值]

### 回归检查(改代码/prompt 后确认没退步)
- [ ] 之前能过的 case 仍然能过
- [ ] 关键指标没有下降超过 [容忍度] %

跑之后:对照打分

## 评估报告: [case 名称]

模型: [模型名称和版本]
Prompt 版本: [commit SHA 或 prompt 文件路径]
运行时间: [实际耗时]
运行日志: [messages.json 路径]

### 结果

| 检查项 | 标准 | 实际值 | 通过? |
|--------|------|--------|-------|
| 仿真收敛 | 无报错 | 收敛 | ✅ |
| 产品纯度 | > 99.5% | 99.7% | ✅ |
| 回收率 | > 95% | 93.2% | ❌ |
| 回流比 | 1.0~5.0 | 3.2 | ✅ |

### 通过率: 3/4 (75%)
### 状态: ⚠️ 部分通过(回收率不达标)
### 失败原因: [从轨迹分析中找原因]

多 Case 汇总

跑完一组 case 后,汇总成对比表:

## 多 Case 汇总: [模型名称]

| Case | 收敛 | 纯度 | 回收率 | 通过率 | 备注 |
|------|------|------|--------|--------|------|
| case1 芳烃精馏 | ✅ | 99.7% | 95.1% | 4/4 | |
| case2 MMA 合成 | ✅ | 98.2% | 91.0% | 3/4 | 回收率差 |
| case3 丁烯氢氰化 | ❌ | - | - | 0/4 | 未收敛 |

总计: 7/12 (58%)

多模型对比

## 模型对比

| 模型 | case1 | case2 | case3 | 总通过率 | 平均耗时 |
|------|-------|-------|-------|----------|----------|
| GPT-5.5 | 4/4 | 3/4 | 2/4 | 75% | 28min |
| Gemini-3 | 4/4 | 4/4 | 1/4 | 75% | 22min |
| Claude-4.5 | 3/4 | 3/4 | 3/4 | 75% | 35min |

评估文件存放

results/
  [时间戳]_[实验名]/
    eval-criteria.md      # 跑之前写的标准
    eval-report.md        # 跑之后的报告
    [case名]/
      messages.json       # 原始轨迹
      ...

和现有工具的配合

实验前: experiment-hygiene(检查 commit、冻结代码)
    ↓
跑实验: run_multimodel_cases.sh(启动脚本)
    ↓
评结果: eval-harness(对照标准打分)← 你在这里
    ↓
找问题: agent-trajectory-analysis(分析失败的 case)

实操建议

  • 评估标准和实验脚本一起写 — 在 case_prompt.txt 旁边放 eval-criteria.md
  • 一次跑不过可以接受,退步不行 — 重点是改 prompt/模型后有没有 regression
  • pass@1 就够了 — 仿真跑一次 30 分钟,不要搞 pass@k
  • 失败的 case 一定要溯源 — 结合轨迹分析,找到是哪一步出了问题
  • 评估标准和结果都 commit — 放进 results/ 目录,和实验数据一起版本管理

反模式(要避免的坑)

  • 跑完实验才临时想评判标准 — 会不自觉地降低标准来"通过"
  • 只看最终结果不看中间过程 — 可能 Agent 是靠幻觉"完成"的
  • 改了 prompt 不跑回归 — 新 case 过了,旧 case 可能悄悄退步了
  • 只记录通过的 case — 失败的 case 才是改进的重点
Install via CLI
npx skills add https://github.com/letsgetai/agent-skills --skill eval-harness
Repository Details
star Stars 1
call_split Forks 0
navigation Branch main
article Path SKILL.md
More from Creator