name: eval-harness description: 实验评估清单——跑实验之前先定义"什么叫过",跑完之后对照打分。适用于仿真优化、多模型对比、benchmark 评测。 tools: Read, Write, Edit, Bash, Grep, Glob
实验评估清单
核心理念
先定义"什么叫过",再跑实验。
不是跑完再看结果好不好,而是跑之前就写好评判标准,跑完自动对照打分。
什么时候用
- 跑 CeProBench / Aspen Plus 仿真 case 之前,定义收敛性和产品质量标准
- 多模型对比(GPT、Gemini、Claude)时,统一评分标准
- 改了 prompt 或 skill 之后,检查有没有退步
- 写论文需要定量的模型表现数据
评估模板
跑之前:定义标准
## 评估标准: [case 名称]
### 硬性条件(不过就是失败)
- [ ] 仿真收敛(Aspen 无报错退出)
- [ ] 运行时间 < [上限]
- [ ] Agent 没有幻觉(结果来自 tool 返回,不是编的)
### 质量指标(打分用)
- [ ] 产品纯度 > [目标值] %
- [ ] 回收率 > [目标值] %
- [ ] 回流比在合理范围 [下限] ~ [上限]
- [ ] 能耗 < [目标值]
### 回归检查(改代码/prompt 后确认没退步)
- [ ] 之前能过的 case 仍然能过
- [ ] 关键指标没有下降超过 [容忍度] %
跑之后:对照打分
## 评估报告: [case 名称]
模型: [模型名称和版本]
Prompt 版本: [commit SHA 或 prompt 文件路径]
运行时间: [实际耗时]
运行日志: [messages.json 路径]
### 结果
| 检查项 | 标准 | 实际值 | 通过? |
|--------|------|--------|-------|
| 仿真收敛 | 无报错 | 收敛 | ✅ |
| 产品纯度 | > 99.5% | 99.7% | ✅ |
| 回收率 | > 95% | 93.2% | ❌ |
| 回流比 | 1.0~5.0 | 3.2 | ✅ |
### 通过率: 3/4 (75%)
### 状态: ⚠️ 部分通过(回收率不达标)
### 失败原因: [从轨迹分析中找原因]
多 Case 汇总
跑完一组 case 后,汇总成对比表:
## 多 Case 汇总: [模型名称]
| Case | 收敛 | 纯度 | 回收率 | 通过率 | 备注 |
|------|------|------|--------|--------|------|
| case1 芳烃精馏 | ✅ | 99.7% | 95.1% | 4/4 | |
| case2 MMA 合成 | ✅ | 98.2% | 91.0% | 3/4 | 回收率差 |
| case3 丁烯氢氰化 | ❌ | - | - | 0/4 | 未收敛 |
总计: 7/12 (58%)
多模型对比
## 模型对比
| 模型 | case1 | case2 | case3 | 总通过率 | 平均耗时 |
|------|-------|-------|-------|----------|----------|
| GPT-5.5 | 4/4 | 3/4 | 2/4 | 75% | 28min |
| Gemini-3 | 4/4 | 4/4 | 1/4 | 75% | 22min |
| Claude-4.5 | 3/4 | 3/4 | 3/4 | 75% | 35min |
评估文件存放
results/
[时间戳]_[实验名]/
eval-criteria.md # 跑之前写的标准
eval-report.md # 跑之后的报告
[case名]/
messages.json # 原始轨迹
...
和现有工具的配合
实验前: experiment-hygiene(检查 commit、冻结代码)
↓
跑实验: run_multimodel_cases.sh(启动脚本)
↓
评结果: eval-harness(对照标准打分)← 你在这里
↓
找问题: agent-trajectory-analysis(分析失败的 case)
实操建议
- 评估标准和实验脚本一起写 — 在 case_prompt.txt 旁边放 eval-criteria.md
- 一次跑不过可以接受,退步不行 — 重点是改 prompt/模型后有没有 regression
- pass@1 就够了 — 仿真跑一次 30 分钟,不要搞 pass@k
- 失败的 case 一定要溯源 — 结合轨迹分析,找到是哪一步出了问题
- 评估标准和结果都 commit — 放进 results/ 目录,和实验数据一起版本管理
反模式(要避免的坑)
- 跑完实验才临时想评判标准 — 会不自觉地降低标准来"通过"
- 只看最终结果不看中间过程 — 可能 Agent 是靠幻觉"完成"的
- 改了 prompt 不跑回归 — 新 case 过了,旧 case 可能悄悄退步了
- 只记录通过的 case — 失败的 case 才是改进的重点