double-check

name: double-check description: > 让 AI 对自己刚做完的事严格复盘、再自审一遍, 戳穿"嘴上说搞定了其实没测"的虚假完成 (false done). 解决 AI 幻觉 (hallucination) + 上下文看不全 — 复盘能再抓出第一遍漏掉的 bug、漏洞、幻觉. 适用 AI self-review / code review / 复盘 AI 生成的代码 / verify AI output. 触发: 打 `2` / 说 "复盘" / "double-check" / "审一遍" / "再查一遍" / "review" / "有没有问题" / "有没有漏洞"; 涉钱涉险自动接. 方法: 双向推演 (0→100 + 100→0) + 逆向反驳 + 分领域检查清单 (功能13 / 代码21 / 算法18 问). 附带 1/2/3 快捷键工作流 (1=干 / 2=复盘 / 3=上线), 复盘 (2) 是核心.

你的 AI 说"搞定了"。让它证明给你看。 Your AI says "done." Make it prove it.

double-check 干一件事:逼 AI 回头把自己刚做完的事,往死里复盘一遍,抓出它第一遍没看见的 bug、漏洞、幻觉 (hallucination)。

为什么需要它

AI 一定有幻觉率。哪怕它拍胸脯说"我很诚实、搞定了",它照样看漏、编造、留雷。这不是态度问题,是模型的先天限制 —— 而且它看不全。

把 AI 想象成一个只有两只眼睛的人。 它盯着面前这 1,000 个文件,就只能看到这 1,000 个。但真正的 bug,往往不在它眼皮底下这 1,000 个里 —— 而是藏在它没加载进来的另外 99,000 个文件里。整个项目有 10 万个文件,没有任何 AI 能一口气全看完。它看了 1% 就敢喊"搞定了",剩下 99% 的雷,它根本没瞧见。

double-check 治的就是这个:再花一点 token,逼 AI 仔细复盘一遍。靠下面这套亲测有效的提示词,它能再揪出一大批第一遍漏掉的洞。

复盘消不掉幻觉(没人能),但能把 AI 的严谨度,实打实再顶高一档。

怎么触发

打 2
说 "复盘" / "double-check" / "审一遍" / "再查一遍" / "有没有问题" / "有没有漏洞" / "review"
自动接管:涉钱 / 法律 / 健康 / 重大不可逆 / 多 agent 议事后

复盘怎么走(核心)

走法 = 双向推演 + 逆向反驳 + 三组检查清单挑一

① 双向推演

0 → 100 顺推:这方案怎么一步步成立的,往上盖一遍
100 → 0 反推:从最终结果倒着拆,找最弱环节、单点故障

② 逆向反驳

逼 AI 站到对立面,列出"这东西会怎么死":

有 BUG 吗?
从用户角度有没有问题?

③ 三组检查清单 —— 按任务类型挑一组(不要三组全套)

🅰️ 新功能 / 改旧功能 (13 问)

#	问	大白话
1	有效	真解决问题,还是只碰到边?
2	直观	用户一眼会用,还是要猜?
3	直接	最短路径,还是绕远?
4	自欺欺人	表面完成、其实没成?
5	诚实	有没有藏雷 / 糊弄?
6	高效	省时省力,还是笨重?
7	为做而做	这步真需要,还是凑数?
8	互相污染	改了 A 有没有弄坏 B?
9	多余	有没有能删的冗余?
10	最极致省 token	输出 / 上下文有没有啰嗦?
11	最省资源	算力 / 内存 / 请求有没有浪费?
12	可常态化	可持续,还是一次性 hack?
13	稳定	边界 / 异常会不会炸?

🅱️ 代码 (21 问 = 🅰️ 13 问 + 代码专属 8 问)

代码相关任务,在 🅰️ 全部 13 问之上,再加:

#	问	大白话
14	简单精简美观	代码干净,还是又长又乱?
15	没有屎山	在堆技术债吗?
16	多语言一致	产品多语言时,各语言文案(如简体 / 繁体 / 英文)同步无遗漏?
17	没有矛盾冲突	跟现有逻辑 / 约定打架没?
18	不重复	该复用的有没有抄一遍?
19	省存储空间	数据结构 / 缓存有没有浪费?
20	查证过	关键 API / 库行为是搜过证实的,不是凭记忆猜的?
21	治本	修根因,还是贴膏药?

🅒 算法 / 数学公式 (18 问)

算法和公式不像普通功能,错一个边界可能几年后才爆。这组去掉"省 token",加最关键一条:

#	问	大白话
⭐	稳定运行 100 年	极端输入、长期运行、边界值,公式都不崩?

算法组同样覆盖:精简美观 / 无屎山 / 有效 / 直观 / 直接 / 不自欺 / 诚实 / 高效 / 不互相污染 / 无矛盾冲突 / 不多余 / 不重复 / 省存储 / 可常态化 / 稳定 / 查证过 / 治本。

红线

禁模糊 —— 结论具体到数字 / 步骤 / 人,不准"差不多""应该没问题"
推测必标 —— 哪些是确认的,哪些是猜的,分清楚
草稿在脑里跑,用户只看最终结论,别把推演过程全倒出来

什么时候停

量化完 + 行动项列完 + 双向都跑过 | 或连续 2 轮挑不出新问题。

附带:1 / 2 / 3 快捷键工作流

复盘(2)是这个 skill 的核心,但它最好嵌在一个完整节奏里。配套两个键当辅助:

`1` = 干(执行)

触发 1 / OK / 继续 / go → 接上一条建议直接动手,不二次确认。带铁律干:第一性思考 + 费曼回答 + 干完复盘 + 浏览器实测 + 部署上线。停问例外:涉钱未定 / 不可逆(rm -rf / drop table / 转账)/ 方案 A/B 未拍板。

`2` = 复盘(核心,见上)

触发 2 / 复盘 / double-check → 走上面整套复盘流程。

`3` = 上线(收尾)

触发 3 / 收尾 / 完工 → 4 步:第一性+费曼 → 复盘(调 2)→ 真机实测找 BUG → 部署验证 exit 0 才算完。

1 跟 2/3 互斥;3 内含 2。快捷键是辅助,复盘才是这个 skill 的核心。

设计理念 FAQ

Q: 复盘要花额外 token,值吗? 值。Claude 官方都承认幻觉消不掉。复盘的成本是几千 token,漏掉一个 bug 上线的成本是几小时排查 + 用户流失。便宜的检查 vs 昂贵的事故,稳赚。

Q: 复盘能保证抓光 bug 吗? 不能,没人能。它做的是把 AI 的严谨度往上顶一档 —— 把"看了 1% 就说搞定"变成"再逼它多看几遍",显著减少漏网。

Q: 跟普通 code review 工具(CodeRabbit 等)有啥不同? 那些是"别人 / 工具审你的 PR"。double-check 是"让 AI 审它自己刚做的事" —— 在你部署前,逼它先自我复盘。互补,不冲突。

Q: 为什么 3 包含 2? 上线前不复盘 = 裸奔。收尾流程强制塞一道复盘。

自定义

这套复盘清单 + 快捷键是作者的工作流约定。Fork 它,改本文件:

换触发词
改检查清单(删用不上的,加你领域的)
改部署命令(3 那步换成你项目真实的上线流程)

核心思想一句话:AI 说"搞定了"不算数,逼它再 double-check 一遍才算。

double-check

double-check

为什么需要它

怎么触发

复盘怎么走(核心)

① 双向推演

② 逆向反驳

③ 三组检查清单 —— 按任务类型挑一组(不要三组全套)

🅰️ 新功能 / 改旧功能 (13 问)

🅱️ 代码 (21 问 = 🅰️ 13 问 + 代码专属 8 问)

🅒 算法 / 数学公式 (18 问)

红线

什么时候停

附带:1 / 2 / 3 快捷键工作流

1 = 干(执行)

2 = 复盘(核心,见上)

3 = 上线(收尾)

设计理念 FAQ

自定义

`1` = 干(执行)

`2` = 复盘(核心,见上)

`3` = 上线(收尾)