literature-evidence-matcher - SKILL.md Agent Skill

name: literature-evidence-matcher description: Match manuscript claims against user-provided literature and produce a traceable claim-evidence table. Use when the user asks to add references, check whether PDFs support manuscript statements, find supporting or opposing evidence from a literature folder, distinguish strong support from background support, or create a 论点-证据匹配 report for an academic draft.

文献证据匹配

这个技能的目标不是“找几篇看起来相关的文献”，而是判断用户论文中的具体论点，是否能被用户提供的文献原文支撑。

默认只基于用户提供的文献、笔记、PDF 提取文本或明确允许查询的数据库工作。不能凭记忆编造参考文献。

适用场景

当用户想做以下事情时使用：

给论文段落补参考文献
检查已有引用是否真的支撑正文
从文献文件夹中找支持、反驳或背景支撑某个论点的证据
判断哪些句子证据不足
为综述、引言、相关工作、讨论部分建立“论点-文献-证据”表

输入

优先使用这些材料：

论文草稿、章节草稿、摘要、引言或提纲
PDF 文献、文献提取文本、阅读笔记
已有参考文献列表
项目说明或目标期刊要求

如果没有文献材料，不能执行证据匹配。应提示用户补充 PDF、笔记、参考文献列表或允许联网检索。

PDF 和 Word 处理

如果输入是 Word 或 PDF，先生成中间文本，原始文件不覆盖。

推荐输出到：

04_中间文本/

建议工具：

Word：用可用的文档解析工具提取段落，保留段落编号。
可复制文字的 PDF：优先用 pdftotext 或等价工具提取正文。
扫描版 PDF：如果没有文字识别能力，标记为无法可靠提取，不要猜内容。

中间文本命名示例：

论文初稿.extracted.md
paper1.extracted.txt

提取文本要尽量保留标题、章节、页码、段落编号、行号或其他可追溯线索。

本地工具调用

执行时要把“文件读取”和“智能判断”分开：先用确定性工具把 Word 和 PDF 转成中间文本，再做论点和证据匹配。

1. 扫描材料

find . -maxdepth 3 -type f | sort

单独查找 PDF：

find . -maxdepth 3 -type f -iname '*.pdf' | sort

2. 提取 PDF

优先检查是否有 pdftotext：

which pdftotext

可复制文字的 PDF，用：

pdftotext -layout 输入.pdf 04_中间文本/输入.extracted.txt

如果输出几乎为空、乱码严重或全是图片，标记为“PDF 提取失败或疑似扫描版”，不要猜论文内容。

3. 提取 Word

如果没有专用 Word 工具，可用脚本读取 .docx 内部 XML，按段落输出到：

04_中间文本/论文初稿.extracted.md

输出格式建议：

【段落 001】……
【段落 002】……

这样后续报告可以引用段落位置。

4. 检索关键词

对中间文本用全文搜索工具定位证据。优先用：

rg -n "知识图谱|实体|关系|抽取|语义|图神经网络|自监督|推荐" 04_中间文本/

关键词应根据论文主题调整。搜索结果只能作为候选证据，最终仍要读上下文判断是否支撑。

5. 抽取上下文

找到候选行后，读取上下文：

sed -n '起始行,结束行p' 04_中间文本/某篇文献.extracted.txt

报告中的证据必须来自这些上下文，而不是只来自关键词命中。

6. 写入报告

将最终报告写入：

05_输出报告/文献证据匹配报告.md

如果是多轮测试，可加后缀：

05_输出报告/文献证据匹配报告_第一轮.md

工作流程

1. 抽取论文论点

从草稿中抽取需要文献支撑的句子或短段。

优先抽取：

背景判断
领域趋势
方法优劣
已有研究不足
技术定义
与前人工作的比较
需要引用支撑的定量陈述

跳过：

作者自己的研究问题
论文结构说明
明显的章节标题
没有实质论点的连接句

给每个论点分配编号，例如 C001、C002。

2. 检索文献证据

在用户提供的文献文本中查找证据。

每条候选证据必须包含：

文献名称
原文片段或精确转述
位置线索，例如页码、章节、提取文本行号或段落
与论文论点的关系

如果只能找到主题相关内容，但没有直接支撑，必须标为背景支撑或支撑不足。

3. 判断支撑强度

使用以下标签：

强支撑：文献原文直接支持该论点，范围和语气基本一致。
部分支撑：文献支持论点的一部分，但不能覆盖全部表述。
背景支撑：文献能作为背景材料，但不能直接证明该句。
反驳：文献与该论点相冲突或提出相反证据。
支撑不足：文献主题相关，但原文不能支撑该论点。
无法确认：PDF 提取失败、证据位置不清、材料不足或需要作者确认。
不能支撑：该论点属于作者实验结果或作者原创发现，不能用外部文献代替。

4. 输出报告

默认输出到：

05_输出报告/文献证据匹配报告.md

报告应包含：

# 文献证据匹配报告

## 输入材料

## 总体结论

## 论点-证据匹配表
| 论文位置 | 论文论点 | 可用文献证据 | 支撑强度 | 建议 |
|---|---|---|---|---|

## 不能直接引用的内容

## 需要补充的文献类型

## 下一步建议

关键判断规则

不能因为文献标题相关就建议引用。
不能把综述中的泛泛背景，当成某个具体实验结论的直接支撑。
作者自己的实验结果不能靠外部文献支撑。
导师意见、会议纪要、审稿意见不能作为文献证据。
如果原文只能支持较弱说法，应建议降低正文表述强度。
如果文献和论文主题不是同一场景，要标为类比或背景支撑。

视频演示重点

这个技能最适合展示文章方法的实际价值：人工智能不是硬塞引用，而是帮作者判断“这篇文献到底能不能支撑这句话”。