eval-harness

star 1

实验评估清单——跑实验之前先定义"什么叫过"，跑完之后对照打分。适用于仿真优化、多模型对比、benchmark 评测。

letsgetai

By letsgetai schedule Updated 6/4/2026

play_arrow Run Skill in Manus View GitHub

name: eval-harness description: 实验评估清单——跑实验之前先定义"什么叫过"，跑完之后对照打分。适用于仿真优化、多模型对比、benchmark 评测。 tools: Read, Write, Edit, Bash, Grep, Glob

实验评估清单

核心理念

先定义"什么叫过"，再跑实验。

不是跑完再看结果好不好，而是跑之前就写好评判标准，跑完自动对照打分。

什么时候用

跑 CeProBench / Aspen Plus 仿真 case 之前，定义收敛性和产品质量标准
多模型对比（GPT、Gemini、Claude）时，统一评分标准
改了 prompt 或 skill 之后，检查有没有退步
写论文需要定量的模型表现数据

评估模板

跑之前：定义标准

## 评估标准: [case 名称]

### 硬性条件（不过就是失败）
- [ ] 仿真收敛（Aspen 无报错退出）
- [ ] 运行时间 < [上限]
- [ ] Agent 没有幻觉（结果来自 tool 返回，不是编的）

### 质量指标（打分用）
- [ ] 产品纯度 > [目标值] %
- [ ] 回收率 > [目标值] %
- [ ] 回流比在合理范围 [下限] ~ [上限]
- [ ] 能耗 < [目标值]

### 回归检查（改代码/prompt 后确认没退步）
- [ ] 之前能过的 case 仍然能过
- [ ] 关键指标没有下降超过 [容忍度] %

跑之后：对照打分

## 评估报告: [case 名称]

模型: [模型名称和版本]
Prompt 版本: [commit SHA 或 prompt 文件路径]
运行时间: [实际耗时]
运行日志: [messages.json 路径]

### 结果

| 检查项 | 标准 | 实际值 | 通过? |
|--------|------|--------|-------|
| 仿真收敛 | 无报错 | 收敛 | ✅ |
| 产品纯度 | > 99.5% | 99.7% | ✅ |
| 回收率 | > 95% | 93.2% | ❌ |
| 回流比 | 1.0~5.0 | 3.2 | ✅ |

### 通过率: 3/4 (75%)
### 状态: ⚠️ 部分通过（回收率不达标）
### 失败原因: [从轨迹分析中找原因]

多 Case 汇总

跑完一组 case 后，汇总成对比表：

## 多 Case 汇总: [模型名称]

| Case | 收敛 | 纯度 | 回收率 | 通过率 | 备注 |
|------|------|------|--------|--------|------|
| case1 芳烃精馏 | ✅ | 99.7% | 95.1% | 4/4 | |
| case2 MMA 合成 | ✅ | 98.2% | 91.0% | 3/4 | 回收率差 |
| case3 丁烯氢氰化 | ❌ | - | - | 0/4 | 未收敛 |

总计: 7/12 (58%)

多模型对比

## 模型对比

| 模型 | case1 | case2 | case3 | 总通过率 | 平均耗时 |
|------|-------|-------|-------|----------|----------|
| GPT-5.5 | 4/4 | 3/4 | 2/4 | 75% | 28min |
| Gemini-3 | 4/4 | 4/4 | 1/4 | 75% | 22min |
| Claude-4.5 | 3/4 | 3/4 | 3/4 | 75% | 35min |

评估文件存放

results/
  [时间戳]_[实验名]/
    eval-criteria.md      # 跑之前写的标准
    eval-report.md        # 跑之后的报告
    [case名]/
      messages.json       # 原始轨迹
      ...

和现有工具的配合

实验前: experiment-hygiene（检查 commit、冻结代码）
    ↓
跑实验: run_multimodel_cases.sh（启动脚本）
    ↓
评结果: eval-harness（对照标准打分）← 你在这里
    ↓
找问题: agent-trajectory-analysis（分析失败的 case）

实操建议

评估标准和实验脚本一起写 — 在 case_prompt.txt 旁边放 eval-criteria.md
一次跑不过可以接受，退步不行 — 重点是改 prompt/模型后有没有 regression
pass@1 就够了 — 仿真跑一次 30 分钟，不要搞 pass@k
失败的 case 一定要溯源 — 结合轨迹分析，找到是哪一步出了问题
评估标准和结果都 commit — 放进 results/ 目录，和实验数据一起版本管理

反模式（要避免的坑）

跑完实验才临时想评判标准 — 会不自觉地降低标准来"通过"
只看最终结果不看中间过程 — 可能 Agent 是靠幻觉"完成"的
改了 prompt 不跑回归 — 新 case 过了，旧 case 可能悄悄退步了
只记录通过的 case — 失败的 case 才是改进的重点

Install via CLI

npx skills add https://github.com/letsgetai/agent-skills --skill eval-harness

Repository Details

star Stars 1

call_split Forks 0

navigation Branch main

article Path SKILL.md

More from Creator

letsgetai

letsgetai Explore all skills →