name: literature-evidence-matcher description: Match manuscript claims against user-provided literature and produce a traceable claim-evidence table. Use when the user asks to add references, check whether PDFs support manuscript statements, find supporting or opposing evidence from a literature folder, distinguish strong support from background support, or create a 论点-证据匹配 report for an academic draft.
文献证据匹配
这个技能的目标不是“找几篇看起来相关的文献”,而是判断用户论文中的具体论点,是否能被用户提供的文献原文支撑。
默认只基于用户提供的文献、笔记、PDF 提取文本或明确允许查询的数据库工作。不能凭记忆编造参考文献。
适用场景
当用户想做以下事情时使用:
- 给论文段落补参考文献
- 检查已有引用是否真的支撑正文
- 从文献文件夹中找支持、反驳或背景支撑某个论点的证据
- 判断哪些句子证据不足
- 为综述、引言、相关工作、讨论部分建立“论点-文献-证据”表
输入
优先使用这些材料:
- 论文草稿、章节草稿、摘要、引言或提纲
- PDF 文献、文献提取文本、阅读笔记
- 已有参考文献列表
- 项目说明或目标期刊要求
如果没有文献材料,不能执行证据匹配。应提示用户补充 PDF、笔记、参考文献列表或允许联网检索。
PDF 和 Word 处理
如果输入是 Word 或 PDF,先生成中间文本,原始文件不覆盖。
推荐输出到:
04_中间文本/
建议工具:
- Word:用可用的文档解析工具提取段落,保留段落编号。
- 可复制文字的 PDF:优先用
pdftotext或等价工具提取正文。 - 扫描版 PDF:如果没有文字识别能力,标记为无法可靠提取,不要猜内容。
中间文本命名示例:
论文初稿.extracted.md
paper1.extracted.txt
提取文本要尽量保留标题、章节、页码、段落编号、行号或其他可追溯线索。
本地工具调用
执行时要把“文件读取”和“智能判断”分开:先用确定性工具把 Word 和 PDF 转成中间文本,再做论点和证据匹配。
1. 扫描材料
find . -maxdepth 3 -type f | sort
单独查找 PDF:
find . -maxdepth 3 -type f -iname '*.pdf' | sort
2. 提取 PDF
优先检查是否有 pdftotext:
which pdftotext
可复制文字的 PDF,用:
pdftotext -layout 输入.pdf 04_中间文本/输入.extracted.txt
如果输出几乎为空、乱码严重或全是图片,标记为“PDF 提取失败或疑似扫描版”,不要猜论文内容。
3. 提取 Word
如果没有专用 Word 工具,可用脚本读取 .docx 内部 XML,按段落输出到:
04_中间文本/论文初稿.extracted.md
输出格式建议:
【段落 001】……
【段落 002】……
这样后续报告可以引用段落位置。
4. 检索关键词
对中间文本用全文搜索工具定位证据。优先用:
rg -n "知识图谱|实体|关系|抽取|语义|图神经网络|自监督|推荐" 04_中间文本/
关键词应根据论文主题调整。搜索结果只能作为候选证据,最终仍要读上下文判断是否支撑。
5. 抽取上下文
找到候选行后,读取上下文:
sed -n '起始行,结束行p' 04_中间文本/某篇文献.extracted.txt
报告中的证据必须来自这些上下文,而不是只来自关键词命中。
6. 写入报告
将最终报告写入:
05_输出报告/文献证据匹配报告.md
如果是多轮测试,可加后缀:
05_输出报告/文献证据匹配报告_第一轮.md
工作流程
1. 抽取论文论点
从草稿中抽取需要文献支撑的句子或短段。
优先抽取:
- 背景判断
- 领域趋势
- 方法优劣
- 已有研究不足
- 技术定义
- 与前人工作的比较
- 需要引用支撑的定量陈述
跳过:
- 作者自己的研究问题
- 论文结构说明
- 明显的章节标题
- 没有实质论点的连接句
给每个论点分配编号,例如 C001、C002。
2. 检索文献证据
在用户提供的文献文本中查找证据。
每条候选证据必须包含:
- 文献名称
- 原文片段或精确转述
- 位置线索,例如页码、章节、提取文本行号或段落
- 与论文论点的关系
如果只能找到主题相关内容,但没有直接支撑,必须标为背景支撑或支撑不足。
3. 判断支撑强度
使用以下标签:
强支撑:文献原文直接支持该论点,范围和语气基本一致。部分支撑:文献支持论点的一部分,但不能覆盖全部表述。背景支撑:文献能作为背景材料,但不能直接证明该句。反驳:文献与该论点相冲突或提出相反证据。支撑不足:文献主题相关,但原文不能支撑该论点。无法确认:PDF 提取失败、证据位置不清、材料不足或需要作者确认。不能支撑:该论点属于作者实验结果或作者原创发现,不能用外部文献代替。
4. 输出报告
默认输出到:
05_输出报告/文献证据匹配报告.md
报告应包含:
# 文献证据匹配报告
## 输入材料
## 总体结论
## 论点-证据匹配表
| 论文位置 | 论文论点 | 可用文献证据 | 支撑强度 | 建议 |
|---|---|---|---|---|
## 不能直接引用的内容
## 需要补充的文献类型
## 下一步建议
关键判断规则
- 不能因为文献标题相关就建议引用。
- 不能把综述中的泛泛背景,当成某个具体实验结论的直接支撑。
- 作者自己的实验结果不能靠外部文献支撑。
- 导师意见、会议纪要、审稿意见不能作为文献证据。
- 如果原文只能支持较弱说法,应建议降低正文表述强度。
- 如果文献和论文主题不是同一场景,要标为类比或背景支撑。
视频演示重点
这个技能最适合展示文章方法的实际价值:人工智能不是硬塞引用,而是帮作者判断“这篇文献到底能不能支撑这句话”。