forge-skill - SKILL.md Agent Skill

name: forge-skill description: | 思维工具锻造引擎。输入方法论名称或模糊需求，自动深度调研 → 方法论结构化提炼 → 生成可运行的思维工具 Skill。触发词：「锻造」「forge」「铸造」「用...方法分析」「提升决策」「解决问题」「创新方法」。

Forge Skill — 锻造任何领域的思维工具

不是角色扮演一个智者，而是锻造一把可执行的思维工具。

激活条件与触发词

直接锻造触发词

「锻造一个/一个 [方法论名]」
「forge a [methodology name]」
「铸造 [方法论名] Skill」
「用 [方法论名] 分析...」（如果本地无该 Skill）

诊断推荐触发词

「我想提升...」「帮我改善...」
「面对这个问题该用什么方法」
「不知道怎么办」「陷入瓶颈」
「需要一种方法论/框架」

组合调用触发词

「先用...再用...」
「用 [方法A] 和 [方法B] 组合分析」
（当检测到 nuwa-skill 时）「用 [方法论] + [名人视角] 分析」

方法框架概览

Forge Skill 的核心是把抽象方法论"锻造"为可执行的 AI Skill。它通过 6 维并行调研采集信息，用三重验证提炼核心原理，自动推导操作协议，内置误用检测和诚实边界。

核心原理

原理 1: 方法论优先于角色

"用第一性原理分析"比"像 Musk 一样思考"更有价值。角色是临时的，方法论是可复用的。

跨域证据：

芒格使用多元思维模型分析投资（金融领域）
Toyota 使用 TPS（精益方法论）管理制造（制造领域）

应用方式：输出的 Skill 是方法论工具，不是角色扮演。

局限：某些需要情感共鸣或人格特质的场景（如演讲风格模仿），方法论工具不如角色 Skill。

原理 2: 结构化可执行

每个方法论必须有明确的操作协议（Agentic Protocol），不是泛泛建议。

跨域证据：

TRIZ 的 40 个发明原理是结构化的矛盾解决工具（工程领域）
DMAIC（六西格玛）的五步流程是标准化的质量改进协议（管理领域）

应用方式：Skill 必须包含 Step 1/2/3 结构化操作流程。

局限：高度创意性或艺术性的方法论（如"头脑风暴"）难以完全结构化。

原理 3: 误用检测内置

Skill 主动检测方法论是否被错误应用，而非被动等待用户发现问题。

跨域证据：

医学诊断的排除法防止误诊（医学领域）
航空检查单防止操作遗漏（航空领域）

应用方式：每个 Skill 内置误用检测器，覆盖方法-问题不匹配、跳步骤、复杂度超限。

局限：误用检测依赖问题分类的准确性，模糊问题场景下检测器效果降低。

原理 4: 诚实边界

明确标注方法的局限，不伪装万能。

跨域证据：

科学论文的"Limitations"章节是学术诚实的基础（学术领域）
Cynefin 框架明确标注每种决策方法适用的复杂度层级（管理领域）

应用方式：Skill 必须包含 ≥3 条具体局限，禁止"不能替代专业建议"类空话。

原理 5: 可组合设计

方法论之间可以无缝组合调用，产生协同效应。

跨域证据：

第一性原理 + 系统思维在 SpaceX 中的应用（航天领域）
设计思维 + 精益创业在 IDEO 中的应用（设计领域）

应用方式：Skill 之间通过统一的 Agentic Protocol 接口组合。

局限：某些互斥方法论（如奥卡姆剃刀 vs 系统思维）不应同时使用。

操作协议（Agentic Protocol）

Step 1: 入口分流 — 判断用户意图，选择锻造路径

前置检查：检测用户语言（用于后续输出语言选择）。

路径 A：直接锻造（用户给出明确方法论名）

确认方法论名称和边界
检查本地 .claude/skills/ 是否已有该 Skill（避免重复锻造）
如果已有：直接激活已有 Skill，询问是否需要重新锻造
如果没有：确认锻造范围（全面画像 vs 聚焦某维度）
确认本地语料（用户是否有一手素材提供）

路径 B：诊断推荐（用户描述模糊需求）

通过 1-2 轮追问定位核心需求维度
扫描本地已有方法论 Skill
推荐候选方法论（最多 3 个），每个展示：
- 核心框架：这个方法的核心思路（一句话）
- 为什么适合：直接对应用户需求
- 局限：这个方法的盲区
用户选择 → 进入路径 A

需求维度映射参考（完整映射见 references/method-categories.md）：

需求维度	典型表达	推荐方法论
解决复杂问题	"问题太复杂了""看不清全貌"	系统思维、第一性原理
创新与突破	"需要新想法""陷入瓶颈"	TRIZ、设计思维、第一性原理
产品增长	"增长放缓""获客成本高"	增长黑客、精益创业
快速验证	"不确定这个方向对不对"	精益创业、双钻模型
风险预判	"怕踩坑""想提前发现风险"	事前验尸、第二阶思维
竞争分析	"怎么看待竞争格局"	五力分析、博弈论、蓝海战略
学习理解	"学不会""讲不明白"	费曼学习法
持续改进	"效率低""质量不稳定"	改善（Kaizen）、六西格玛
简化决策	"选项太多""想不清楚"	奥卡姆剃刀、逆向思维
不确定性决策	"未来不确定""风险大"	场景规划、Cynefin 框架
根因分析	"为什么会出问题""反复出同样的错"	5 Whys、鱼骨图
资源聚焦	"资源有限""抓大放小""关键少数"	帕累托法则、约束理论
商业模式设计	"怎么赚钱""商业模式""如何变现"	商业模式画布、精益画布
竞争优势分析	"护城河在哪""成本还是差异化"	价值链分析、五力分析
目标管理	"目标不清晰""对齐困难""执行跟踪"	OKR、平衡计分卡
多学科思维	"需要不同学科视角""避免思维固化""想提升决策质量"	心智模型融合、交叉学科思维

Step 2: 多源信息采集 — 6 路并行调研

前置动作：创建 Skill 目录结构。

.claude/skills/[method-name]-skill/
├── SKILL.md                          # 最终产物
└── references/
    └── research/                     # 调研结果
        ├── 01-classic-literature.md
        ├── 02-practice-cases.md
        ├── 03-critical-views.md
        ├── 04-cross-domain.md
        ├── 05-tooling.md
        └── 06-timeline.md

6 路并行采集（用 Task 工具并行启动 6 个 Agent）：

Agent	搜索目标	提取重点	输出文件
1 经典文献	奠基论文、经典著作、学术论文	核心原理、公理、基本假设、自创术语、推荐阅读	`01-classic-literature.md`
2 实践案例	成功/失败应用记录、企业案例	方法如何被执行、典型步骤、成功条件、失败原因	`02-practice-cases.md`
3 批判视角	反对意见、局限性分析、替代方案	方法的盲区、误用案例、与其他方法的冲突	`03-critical-views.md`
4 跨域迁移	方法在其他领域的应用	非原始领域的成功迁移案例、适配修改	`04-cross-domain.md`
5 工具化程度	已有框架/模板/清单/软件	方法被工具化的程度、现有工具的优劣	`05-tooling.md`
6 演化时间线	起源→发展→现状→趋势	关键里程碑、理论演化、最新发展	`06-timeline.md`

信息源优先级：

方法论创始人的原始著作 > 同行评议论文 > 实践案例 > 批判分析 > 教科书 > 博客/社交媒体
原始语言文献 > 英语翻译/分析 > 其他语言翻译

信息源黑名单：知乎、微信公众号、百度百科等低质量百科。

单一维度无结果处理：如果某个 Agent 搜索无结果，继续推进，在 Phase 2.5 调研 Review 中标注该维度信息不足，最终在 Skill 的诚实边界中说明。

Phase 1.5 检查点：调研 Review

6 个 Agent 全部完成后，暂停并向用户展示调研质量摘要：

┌──────────────────┬──────────┬──────────────────────────┐
│ Agent            │ 来源数量 │ 关键发现                   │
├──────────────────┼──────────┼──────────────────────────┤
│ 1 经典文献        │ [N] 篇   │ 核心原理: ...              │
│ 2 实践案例        │ [N] 个   │ 成功: ..., 失败: ...      │
│ 3 批判视角        │ [N] 篇   │ 主要批评: ...             │
│ 4 跨域迁移        │ [N] 个   │ 迁移到: ...               │
│ 5 工具化程度      │ [N] 个   │ 已有: ...                 │
│ 6 演化时间线      │ [完整/部分]│ 起源: ... → 现状: ...    │
├──────────────────┼──────────┼──────────────────────────┤
│ 矛盾点            │ [N] 处   │ [Agent X 说 A, Agent Y 说 B] │
│ 信息不足维度      │ [列表]   │                          │
└──────────────────┴──────────┴──────────────────────────┘

等待用户确认：

用户确认 OK → 进入 Phase 2 提炼
用户觉得某维度不够 → 补充调研后再继续

Step 3: 方法论提炼 — 三重验证 + 五层提取

3.1 核心原理提炼（三重验证）

对每个候选观点，执行三重验证：

验证维度	标准
跨域复现	在 ≥2 个不同领域/行业中出现
生成力	能推断对新问题的分析方向
排他性	不是所有方法论都这样思考

判定：

三重通过 → 核心原理（纳入 Skill）
1-2 重 → 操作规则（纳入操作协议步骤）
0 重 → 丢弃

产出 3-7 个核心原理，每个附格式：

原理名称 + 一句话定义 + ≥2 个跨域证据 + 应用方式 + 局限

3.2 操作协议推导

从核心原理自动推导 Agentic Protocol：

Step 1 问题分类：根据方法论的适用/不适用场景构建分类器
Step 2 [方法名]式分析：研究维度必须从核心原理推导，禁止使用通用"搜索相关信息"
Step 3 [方法名]式输出：基于分析结果的格式化输出

3.3 适用边界分析

维度	分析内容
最适用场景	方法论表现最好的问题类型
不适用场景	不该使用该方法论的情况
常见误用模式	人们最容易犯的错误
与其他方法的关系	互补/互斥/可替代
失效信号	方法失效的信号

3.4 误用检测器设计

至少覆盖 3 种误用模式，必须包含：

方法与问题不匹配
跳过关键步骤
复杂度超限

3.5 诚实边界

至少 3 条具体局限。禁止使用"不能替代专业建议"类空话。

Phase 2.5 检查点：提炼确认

提炼完成后，暂停并向用户展示：

核心原理列表（名称 + 一句话定义）
操作协议概览（3 步结构 + 研究维度列表）
适用/不适用场景
信息不足维度

等待用户确认后进入 Phase 3 构建。

Step 4: Skill 构建

按照 references/skill-template.md 的模板构建完整 SKILL.md。

关键约束（从模板继承）：

核心原理 3-7 个，每个须附 ≥2 个跨域证据
Agentic Protocol Step 2 研究维度须从核心原理推导，禁止通用指令
误用检测器 ≥3 种误用模式
诚实边界 ≥3 条具体局限
调研来源一手来源占比须 >50%

自包含原则：SKILL.md 包含所有必要信息。复制整个目录就能独立使用，不依赖外部文件。

Step 5: 质量验证

5.1 已知案例验证

选 3 个该方法论的经典应用案例，用生成的 Skill 分析，对比分析方向与经典结论是否一致。偏离则回溯调整核心原理权重。

5.2 边缘案例验证

选 1 个方法论未明确覆盖的问题，用 Skill 推断。期望：适度的谨慎和不确定性，而非斩钉截铁。

5.3 误用检测验证

故意用错误的方式调用方法论（如用费曼学习法分析竞争格局），验证误用检测器是否触发。

5.4 通过标准检查

检查项	通过标准	不通过信号
核心原理数量	3-7 个，每个有跨域证据	<3 或 >10
操作协议可执行性	AI 拿到 Skill 知道先做什么	模糊建议而非结构化步骤
适用边界明确性	写出不适用场景和误用模式	只写优点
误用检测器	至少覆盖 3 种误用模式	无检测
诚实边界	至少 3 条具体局限	只有"不能替代专业建议"
一手来源占比	>50%	主要依赖二手转述

Step 6: 双 Agent 精炼

并行启动两个独立评审 Agent：

Agent A（方法论评审视角）：

评审核心原理的准确性和完整性
干跑 3 个测试 prompt，评估分析质量
输出最弱 2 个维度的改进建议

Agent B（工具可用性视角）：

评审 Agentic Protocol 的可操作性
评审误用检测器的覆盖度
评审适用/不适用判断的准确性
输出 2-3 处具体文本改动建议

综合两份报告，应用不冲突的改进，输出最终 SKILL.md。

后处理：darwin-skill 进化优化（可选）

锻造完成的 Skill 可直接交给 darwin-skill 进行持续进化优化：

forge-skill 锻造产出 → darwin-skill 评估 → 改进建议 → 用户确认 → 更新 Skill

如果检测到用户已安装 darwin-skill，在锻造完成后提示：

"锻造完成。你可以用 darwin-skill 对这个 Skill 进行持续进化优化。"

forge-skill 不内置进化能力，避免与 darwin-skill 功能重叠。两者形成"生产 → 优化"的上下游关系。

与 nuwa-skill 组合调用（可选）

如果检测到用户已安装 nuwa-skill，在锻造完成后提示：

"你可以组合使用：先用此方法论 Skill 分析，再用 nuwa-skill 的人物视角审视。"

适用/不适用判断

场景	适用度	说明
已有明确名称的方法论	高	如"第一性原理""TRIZ"
有学术/工业体系的方法	高	如"六西格玛""设计思维"
用户模糊需求但可映射	中	如"想提升决策"→ 推荐方法论
纯情感/人格特征	低	用 nuwa-skill 更合适
高度领域专有知识	中	方法论可提取，但可能信息不足

误用检测器

误用信号	检测逻辑	警告信息	建议动作
锻造已有 Skill	`.claude/skills/` 已有同名 Skill	"已有 [名称] Skill，直接激活或重新锻造？"	询问用户
信息源不足	6 路调研中有 ≥3 路无有价值结果	"该方法论的公开信息较少，Skill 可能在某些维度不够深入"	降低期望，扩大诚实边界
方法论非方法论	用户给出的是人名/产品名而非方法论	"[名称] 看起来不是方法论。你是想锻造一个思维方式，还是想蒸馏一个人的视角？"	引导到 nuwa-skill
锻造后无验证	跳过 Phase 4 质量验证	"建议用 3 个案例验证 Skill 的分析方向是否正确"	执行验证

诚实边界

提炼质量依赖信息源：冷门方法论或非英语方法论可能信息不足，影响核心原理的准确性
三重验证不是万能的：某些方法论的独特价值在于其文化背景和 tacit knowledge（隐性知识），这些难以通过文献调研完全捕获
Agentic Protocol 是简化模型：真实的方法论执行往往需要领域专家的判断力，Skill 提供的是结构化框架而非替代
调研截止性：锻造时的信息截止于调研日期，方法论可能有新发展

调研来源

本 Skill 的设计基于以下来源：

Agent Skills 开放协议（skills.sh）
nuwa-skill 设计实践（github.com/alchaincyf/nuwa-skill）
方法论文献的元分析方法（学术实践）
提示工程的最佳实践（Claude/Cursor 社区）

本 Skill 由 Forge Skill 核心团队设计。GitHub: https://github.com/peterfei/forge-skill