name: training-rubric-generator description: 根据实训任务文档生成层级化的评价标准,采用"主评分项-子得分点"结构,每个子得分点包含独立分值和详细评价要求。输出Markdown格式,便于AI评判使用。关键词:评价标准、评分标准、得分点、层级评价、大模型评判 allowed-tools: Read, Grep, Glob, Write
训练评价标准生成器
根据实训任务文档,生成详细的评价标准,为大模型和人类评判提供清晰的评价框架。
使用时机
当用户需要为能力训练创建完整的评价标准时使用此 skill,典型场景包括:
- 用户提供了实训任务文档,需要生成或完善评价标准
- 用户需要为大模型评判提供详细的评价要求和示例
- 用户想要为训练创建规范化的评分体系
- 用户提到"生成评价标准"、"创建评分项"、"完善评价体系"等关键词
Instructions
第一步: 读取并分析实训任务文档
- 通过 Read 工具读取用户提供的实训任务文档
- 提取以下关键信息:
- 任务目标: 学生需要达成的能力目标
- 任务描述: 智能体的人设、任务流程、各阶段要求
- 现有评价标准: 如文档中已有评价标准表格,完整提取
第二步: 提取或生成评价标准
方案A: 文档中已有评价标准
- 从表格中提取所有评分项(名称、描述、分值)
- 保留原始信息,进行完善和扩展
方案B: 文档中没有评价标准
根据任务目标和描述,自动生成评价标准:
生成策略:
- 识别任务的核心能力要求
- 将能力需求转化为可评估的评分项
- 建议 3-5 个评分项,总分 10-20 分
- 每个评分项 2-5 分不等
通用评分项参考:
- 知识掌握: 学生是否理解核心知识点
- 实际应用: 学生是否能应用知识解决问题
- 逻辑思维: 学生的分析和推理是否清晰
- 表达能力: 学生的表述是否清晰、完整、专业
- 态度与合作: 学生的学习态度、配合度等(如适用)
第三步: 生成详细的评价要求
对于每个评分项,采用层级化得分点结构:
1. 主评分项结构
## [主评分项名称]([总分值]分)
简要描述这个主评分项考查的核心能力(50-100字)
### 得分点:
1. **[子得分点1名称]([分值]分)**
详细描述评价要求,包括:
- 核心评判标准
- 需要达到的具体要求
- 评分依据
2. **[子得分点2名称]([分值]分)**
详细描述评价要求...
3. **[子得分点3名称]([分值]分)**
详细描述评价要求...
2. 得分点设计原则
层级划分:
- 主评分项:代表一个大的能力维度(如"分布规律理解"、"汽蚀特征识别")
- 子得分点:将主评分项拆解为3-5个可独立评分的具体要点
- 分值分配:主评分项总分=所有子得分点分值之和
详细要求撰写:
- 明确评判标准:清晰说明学生需要达到什么程度才能得分
- 包含具体要素:列出必须提到的关键概念、逻辑关系等
- 体现能力层次:从基础理解到深入应用的递进关系
- 便于AI评判:描述应具体、可操作、易于判断
3. Markdown格式模板
# 评价标准
## 总分:[总分值]分
---
## [主评分项1名称]([主评分项1总分]分)
[主评分项1的简要描述,说明考查的核心能力]
### 得分点:
1. **[子得分点1名称]([分值]分)**
[详细的评价要求描述,包括:
- 核心评判标准
- 需要提到的关键要素
- 逻辑要求
- 评分依据]
2. **[子得分点2名称]([分值]分)**
[详细的评价要求描述...]
3. **[子得分点3名称]([分值]分)**
[详细的评价要求描述...]
---
## [主评分项2名称]([主评分项2总分]分)
[主评分项2的简要描述...]
### 得分点:
1. **[子得分点1名称]([分值]分)**
[详细要求...]
2. **[子得分点2名称]([分值]分)**
[详细要求...]
4. 得分点描述示例
好的得分点描述:
1. **纬度地带性规律概括(3分)**
能清晰、完整阐述纬度地带性的核心内涵,明确热量差异是主导因素,
土壤类型随纬度变化呈现沿纬线方向延伸、沿经线方向更替的分布特征。
评分要点:
- 必须明确指出热量差异是主导因素(1分)
- 准确描述土壤分布的方向性特征(1分)
- 逻辑清晰,表述完整(1分)
差的得分点描述:
1. **知识掌握(3分)**
学生理解相关知识
(问题:太笼统,没有具体标准,无法评判)
第四步: 生成Markdown格式的评价标准
将所有评价标准整合为Markdown格式文档,保存为评价标准.md。
文档结构:
# [任务名称] - 评价标准
## 总分:[总分值]分
## 评价标准概述
[简要说明评价标准的整体设计思路和考查重点(100-150字)]
---
## [主评分项1名称]([主评分项1总分]分)
[主评分项1的简要描述]
### 得分点:
1. **[子得分点1名称]([分值]分)**
[详细的评价要求...]
2. **[子得分点2名称]([分值]分)**
[详细的评价要求...]
---
## [主评分项2名称]([主评分项2总分]分)
[主评分项2的简要描述]
### 得分点:
...
---
## 评分说明
- 本评价标准总分[X]分,各评分项可独立评分
- 评分时请严格按照得分点要求进行判断
- 若学生回答未涉及某个得分点的内容,该得分点得0分
- 若学生回答部分符合要求,可酌情给予该得分点的部分分值
第五步: 保存和输出
- 在实训任务文档所在目录创建以任务名称命名的文件夹(如果不存在)
- 将生成的评价标准保存为
评价标准.md - 向用户输出:
- 评价标准摘要(主评分项和总分)
- 文件保存路径
- 使用建议
Examples
示例1:地理课程 - 土壤分布规律
输入文档中的评价标准:
| 评分项 | 描述 | 分值 |
| --- | --- | --- |
| 分布规律理解 | 学生能否理解土壤分布的地理规律 | 10 |
生成的详细评价标准:
# 土壤分布规律分析 - 评价标准
## 总分:10分
## 评价标准概述
本评价标准考查学生对土壤地理分布规律的理解深度,包括纬度地带性规律的准确概括、
地理环境要素与土壤类型的关联分析、以及区域环境与土壤特性的适配逻辑论证能力。
---
## 分布规律理解(10分)
考查学生对纬度地带性规律的理解深度,以及将地理环境与土壤类型进行关联分析的能力。
### 得分点:
1. **纬度地带性规律概括(3分)**
能清晰、完整阐述纬度地带性的核心内涵,明确热量差异是主导因素,
土壤类型随纬度变化呈现沿纬线方向延伸、沿经线方向更替的分布特征。
评分要点:
- 必须明确指出热量差异是主导因素(1分)
- 准确描述土壤分布的方向性特征:沿纬线延伸、沿经线更替(1分)
- 逻辑清晰,表述完整,体现对规律的深入理解(1分)
2. **地理环境关联准确性(3分)**
准确将纬度地带性规律与气候(温度、降水)、植被等地理要素进行对应,
逻辑清晰说明不同纬度下的水热组合条件对土壤形成的直接影响。
评分要点:
- 提到气候要素(温度、降水)与土壤的关系(1分)
- 提到植被与土壤的关系(1分)
- 能清晰解释水热组合如何影响土壤形成(1分)
3. **"环境-土壤"区域适配逻辑体现(4分)**
结合具体区域案例,详细论证特定地理环境(水热、植被等)如何塑造对应土壤类型,
且能反向说明土壤特性对区域环境的反馈作用,形成完整的适配逻辑闭环。
评分要点:
- 使用具体区域案例进行说明(1分)
- 正向论证:环境→土壤的塑造关系清晰(1.5分)
- 反向论证:土壤→环境的反馈作用明确(1.5分)
- 形成完整的逻辑闭环,体现系统性思维(1分)
示例2:化工原理 - 离心泵汽蚀诊断
输入文档中的评价标准:
| 评分项 | 描述 | 分值 |
| --- | --- | --- |
| 汽蚀特征识别 | 能否准确识别汽蚀现象的特征 | 3 |
| 原因分析 | 能否准确分析导致汽蚀的原因 | 4 |
| 解决方案 | 能否提出合理的解决方案 | 3 |
生成的详细评价标准:
# 离心泵汽蚀故障诊断 - 评价标准
## 总分:10分
---
## 汽蚀特征识别(3分)
考查学生是否能准确识别离心泵汽蚀现象的典型特征。
### 得分点:
1. **异常声音识别(1分)**
能准确描述汽蚀产生的异常声音特征("咔咔"响、爆裂声等),
并明确这是汽蚀的重要标志。
2. **压力波动识别(1分)**
能识别出口压力表指针晃动、压力不稳定等现象,
理解这是汽蚀导致的直接后果。
3. **综合分析能力(1分)**
能将声音、压力、振动等多个特征综合起来,
系统性地判断汽蚀现象,而非仅提及单一特征。
---
## 原因分析(4分)
考查学生是否能准确分析导致汽蚀的根本原因。
### 得分点:
1. **进口压力不足的识别(1.5分)**
明确指出进口压力过低是汽蚀的直接原因,
理解当进口压力低于饱和蒸汽压时液体会汽化。
2. **液体汽化机理理解(1.5分)**
能解释液体汽化→气泡形成→气泡坍塌的完整过程,
理解汽蚀现象的物理本质。
3. **影响因素分析(1分)**
能列举导致进口压力不足的可能因素(管路堵塞、阀门开度小、
安装高度过高等),体现对实际工况的理解。
Important Notes
- 准确提取信息:如文档中已有评价标准,必须完整、准确地提取,保留原意
- 层级化结构:每个主评分项必须拆解为3-5个子得分点,分值合理分配
- 详细的评判要求:每个子得分点的评价要求必须具体、可操作、便于AI评判
- 评分要点明确:清晰列出评分依据,避免模糊表述
- Markdown格式规范:严格按照模板格式生成,便于人类阅读和系统解析
- 分值合理性:总分应该在10-20分之间,各子得分点分值应该合理分配
- 评价对称性:对于多个主评分项,评判要求的详细程度应该相当
Error Handling
如果遇到以下情况,应该:
- 文档中评价标准不清晰:询问用户是否需要自动生成或提供更多信息
- 无法理解任务要求:要求用户提供更详细的任务描述或目标说明
- 评分项过多或过少:建议合理的数量(3-5个主评分项),并说明理由
- 子得分点划分困难:参考任务的能力层次(理解→应用→分析→综合)进行拆解
Version History
- v2.0 (2026-01-14):采用层级化得分点结构,移除JSON输出和正反例,只生成Markdown格式
- v1.0 (2025-11-25):初始版本,支持评价标准的提取、生成和扩展