training-rubric-generator

star 0

根据实训任务文档生成层级化的评价标准,采用"主评分项-子得分点"结构,每个子得分点包含独立分值和详细评价要求。输出Markdown格式,便于AI评判使用。关键词:评价标准、评分标准、得分点、层级评价、大模型评判

Wu636 By Wu636 schedule Updated 2/27/2026

name: training-rubric-generator description: 根据实训任务文档生成层级化的评价标准,采用"主评分项-子得分点"结构,每个子得分点包含独立分值和详细评价要求。输出Markdown格式,便于AI评判使用。关键词:评价标准、评分标准、得分点、层级评价、大模型评判 allowed-tools: Read, Grep, Glob, Write

训练评价标准生成器

根据实训任务文档,生成详细的评价标准,为大模型和人类评判提供清晰的评价框架。

使用时机

当用户需要为能力训练创建完整的评价标准时使用此 skill,典型场景包括:

  • 用户提供了实训任务文档,需要生成或完善评价标准
  • 用户需要为大模型评判提供详细的评价要求和示例
  • 用户想要为训练创建规范化的评分体系
  • 用户提到"生成评价标准"、"创建评分项"、"完善评价体系"等关键词

Instructions

第一步: 读取并分析实训任务文档

  1. 通过 Read 工具读取用户提供的实训任务文档
  2. 提取以下关键信息:
    • 任务目标: 学生需要达成的能力目标
    • 任务描述: 智能体的人设、任务流程、各阶段要求
    • 现有评价标准: 如文档中已有评价标准表格,完整提取

第二步: 提取或生成评价标准

方案A: 文档中已有评价标准

  1. 从表格中提取所有评分项(名称、描述、分值)
  2. 保留原始信息,进行完善和扩展

方案B: 文档中没有评价标准

根据任务目标和描述,自动生成评价标准:

生成策略:

  • 识别任务的核心能力要求
  • 将能力需求转化为可评估的评分项
  • 建议 3-5 个评分项,总分 10-20 分
  • 每个评分项 2-5 分不等

通用评分项参考:

  • 知识掌握: 学生是否理解核心知识点
  • 实际应用: 学生是否能应用知识解决问题
  • 逻辑思维: 学生的分析和推理是否清晰
  • 表达能力: 学生的表述是否清晰、完整、专业
  • 态度与合作: 学生的学习态度、配合度等(如适用)

第三步: 生成详细的评价要求

对于每个评分项,采用层级化得分点结构

1. 主评分项结构

## [主评分项名称]([总分值]分)

简要描述这个主评分项考查的核心能力(50-100字)

### 得分点:

1. **[子得分点1名称]([分值]分)**

   详细描述评价要求,包括:
   - 核心评判标准
   - 需要达到的具体要求
   - 评分依据

2. **[子得分点2名称]([分值]分)**

   详细描述评价要求...

3. **[子得分点3名称]([分值]分)**

   详细描述评价要求...

2. 得分点设计原则

层级划分

  • 主评分项:代表一个大的能力维度(如"分布规律理解"、"汽蚀特征识别")
  • 子得分点:将主评分项拆解为3-5个可独立评分的具体要点
  • 分值分配:主评分项总分=所有子得分点分值之和

详细要求撰写

  • 明确评判标准:清晰说明学生需要达到什么程度才能得分
  • 包含具体要素:列出必须提到的关键概念、逻辑关系等
  • 体现能力层次:从基础理解到深入应用的递进关系
  • 便于AI评判:描述应具体、可操作、易于判断

3. Markdown格式模板

# 评价标准

## 总分:[总分值]分

---

## [主评分项1名称]([主评分项1总分]分)

[主评分项1的简要描述,说明考查的核心能力]

### 得分点:

1. **[子得分点1名称]([分值]分)**

   [详细的评价要求描述,包括:
   - 核心评判标准
   - 需要提到的关键要素
   - 逻辑要求
   - 评分依据]

2. **[子得分点2名称]([分值]分)**

   [详细的评价要求描述...]

3. **[子得分点3名称]([分值]分)**

   [详细的评价要求描述...]

---

## [主评分项2名称]([主评分项2总分]分)

[主评分项2的简要描述...]

### 得分点:

1. **[子得分点1名称]([分值]分)**

   [详细要求...]

2. **[子得分点2名称]([分值]分)**

   [详细要求...]

4. 得分点描述示例

好的得分点描述

1. **纬度地带性规律概括(3分)**

   能清晰、完整阐述纬度地带性的核心内涵,明确热量差异是主导因素,
   土壤类型随纬度变化呈现沿纬线方向延伸、沿经线方向更替的分布特征。

   评分要点:
   - 必须明确指出热量差异是主导因素(1分)
   - 准确描述土壤分布的方向性特征(1分)
   - 逻辑清晰,表述完整(1分)

差的得分点描述

1. **知识掌握(3分)**

   学生理解相关知识

(问题:太笼统,没有具体标准,无法评判)

第四步: 生成Markdown格式的评价标准

将所有评价标准整合为Markdown格式文档,保存为评价标准.md

文档结构

# [任务名称] - 评价标准

## 总分:[总分值]分

## 评价标准概述

[简要说明评价标准的整体设计思路和考查重点(100-150字)]

---

## [主评分项1名称]([主评分项1总分]分)

[主评分项1的简要描述]

### 得分点:

1. **[子得分点1名称]([分值]分)**

   [详细的评价要求...]

2. **[子得分点2名称]([分值]分)**

   [详细的评价要求...]

---

## [主评分项2名称]([主评分项2总分]分)

[主评分项2的简要描述]

### 得分点:

...

---

## 评分说明

- 本评价标准总分[X]分,各评分项可独立评分
- 评分时请严格按照得分点要求进行判断
- 若学生回答未涉及某个得分点的内容,该得分点得0分
- 若学生回答部分符合要求,可酌情给予该得分点的部分分值

第五步: 保存和输出

  1. 在实训任务文档所在目录创建以任务名称命名的文件夹(如果不存在)
  2. 将生成的评价标准保存为 评价标准.md
  3. 向用户输出:
    • 评价标准摘要(主评分项和总分)
    • 文件保存路径
    • 使用建议

Examples

示例1:地理课程 - 土壤分布规律

输入文档中的评价标准

| 评分项 | 描述 | 分值 |
| --- | --- | --- |
| 分布规律理解 | 学生能否理解土壤分布的地理规律 | 10 |

生成的详细评价标准

# 土壤分布规律分析 - 评价标准

## 总分:10分

## 评价标准概述

本评价标准考查学生对土壤地理分布规律的理解深度,包括纬度地带性规律的准确概括、
地理环境要素与土壤类型的关联分析、以及区域环境与土壤特性的适配逻辑论证能力。

---

## 分布规律理解(10分)

考查学生对纬度地带性规律的理解深度,以及将地理环境与土壤类型进行关联分析的能力。

### 得分点:

1. **纬度地带性规律概括(3分)**

   能清晰、完整阐述纬度地带性的核心内涵,明确热量差异是主导因素,
   土壤类型随纬度变化呈现沿纬线方向延伸、沿经线方向更替的分布特征。

   评分要点:
   - 必须明确指出热量差异是主导因素(1分)
   - 准确描述土壤分布的方向性特征:沿纬线延伸、沿经线更替(1分)
   - 逻辑清晰,表述完整,体现对规律的深入理解(1分)

2. **地理环境关联准确性(3分)**

   准确将纬度地带性规律与气候(温度、降水)、植被等地理要素进行对应,
   逻辑清晰说明不同纬度下的水热组合条件对土壤形成的直接影响。

   评分要点:
   - 提到气候要素(温度、降水)与土壤的关系(1分)
   - 提到植被与土壤的关系(1分)
   - 能清晰解释水热组合如何影响土壤形成(1分)

3. **"环境-土壤"区域适配逻辑体现(4分)**

   结合具体区域案例,详细论证特定地理环境(水热、植被等)如何塑造对应土壤类型,
   且能反向说明土壤特性对区域环境的反馈作用,形成完整的适配逻辑闭环。

   评分要点:
   - 使用具体区域案例进行说明(1分)
   - 正向论证:环境→土壤的塑造关系清晰(1.5分)
   - 反向论证:土壤→环境的反馈作用明确(1.5分)
   - 形成完整的逻辑闭环,体现系统性思维(1分)

示例2:化工原理 - 离心泵汽蚀诊断

输入文档中的评价标准

| 评分项 | 描述 | 分值 |
| --- | --- | --- |
| 汽蚀特征识别 | 能否准确识别汽蚀现象的特征 | 3 |
| 原因分析 | 能否准确分析导致汽蚀的原因 | 4 |
| 解决方案 | 能否提出合理的解决方案 | 3 |

生成的详细评价标准

# 离心泵汽蚀故障诊断 - 评价标准

## 总分:10分

---

## 汽蚀特征识别(3分)

考查学生是否能准确识别离心泵汽蚀现象的典型特征。

### 得分点:

1. **异常声音识别(1分)**

   能准确描述汽蚀产生的异常声音特征("咔咔"响、爆裂声等),
   并明确这是汽蚀的重要标志。

2. **压力波动识别(1分)**

   能识别出口压力表指针晃动、压力不稳定等现象,
   理解这是汽蚀导致的直接后果。

3. **综合分析能力(1分)**

   能将声音、压力、振动等多个特征综合起来,
   系统性地判断汽蚀现象,而非仅提及单一特征。

---

## 原因分析(4分)

考查学生是否能准确分析导致汽蚀的根本原因。

### 得分点:

1. **进口压力不足的识别(1.5分)**

   明确指出进口压力过低是汽蚀的直接原因,
   理解当进口压力低于饱和蒸汽压时液体会汽化。

2. **液体汽化机理理解(1.5分)**

   能解释液体汽化→气泡形成→气泡坍塌的完整过程,
   理解汽蚀现象的物理本质。

3. **影响因素分析(1分)**

   能列举导致进口压力不足的可能因素(管路堵塞、阀门开度小、
   安装高度过高等),体现对实际工况的理解。

Important Notes

  1. 准确提取信息:如文档中已有评价标准,必须完整、准确地提取,保留原意
  2. 层级化结构:每个主评分项必须拆解为3-5个子得分点,分值合理分配
  3. 详细的评判要求:每个子得分点的评价要求必须具体、可操作、便于AI评判
  4. 评分要点明确:清晰列出评分依据,避免模糊表述
  5. Markdown格式规范:严格按照模板格式生成,便于人类阅读和系统解析
  6. 分值合理性:总分应该在10-20分之间,各子得分点分值应该合理分配
  7. 评价对称性:对于多个主评分项,评判要求的详细程度应该相当

Error Handling

如果遇到以下情况,应该:

  1. 文档中评价标准不清晰:询问用户是否需要自动生成或提供更多信息
  2. 无法理解任务要求:要求用户提供更详细的任务描述或目标说明
  3. 评分项过多或过少:建议合理的数量(3-5个主评分项),并说明理由
  4. 子得分点划分困难:参考任务的能力层次(理解→应用→分析→综合)进行拆解

Version History

  • v2.0 (2026-01-14):采用层级化得分点结构,移除JSON输出和正反例,只生成Markdown格式
  • v1.0 (2025-11-25):初始版本,支持评价标准的提取、生成和扩展
Install via CLI
npx skills add https://github.com/Wu636/Agent_Evaluation --skill training-rubric-generator
Repository Details
star Stars 0
call_split Forks 1
navigation Branch main
article Path SKILL.md
More from Creator