name: paper-review description: "论文深度解读 Skill — 下载论文PDF → LLM深度解读(问题/创新点/方法原理/实验分析)→ PDF图片提取 → 生成组会PPT → 生成解读音频MP3。端到端学术论文解读工具。" license: MIT requires_env: OPENAI_API_KEY triggers: - 论文解读 - paper review - paper reading - 组会PPT - 研读论文 required_args: - paper_url metadata: version: "1.0" category: academic author: "RapidAI Research - 安妮"
Paper Review — 论文深度解读工具
端到端论文解读流程:下载论文 → LLM 深度解读 → 提取图片 → 生成 PPT → 生成 MP3 音频。
架构概览
用户提供论文URL/路径
│
▼
┌──────────────────┐
│ Step 1: 下载PDF │ (支持 arXiv / DOI / 任意URL)
└────────┬─────────┘
▼
┌─────────────────────────┐
│ Step 2: 全文提取 (txt) │ (PDF→文本,含图片占位标记)
└────────┬────────────────┘
▼
┌──────────────────────────────────────────────┐
│ Step 3: LLM 深度解读分析 │
│ • 解决的问题 │
│ • 创新点 │
│ • 方法本质与核心原理 │
│ • 详细原理解读 │
│ • 实验方法与结果分析 │
└────────┬─────────────────────────────────────┘
▼
┌──────────────────┐
│ Step 4: 提取图片 │ (PDF→PNG图片素材)
└────────┬─────────┘
▼
┌──────────────────────────────┐
│ Step 5: 生成组会PPT (.pptx) │ (深度解读内容 + 图片嵌入)
└────────┬─────────────────────┘
▼
┌──────────────────────────────┐
│ Step 6: 生成解读音频 (.mp3) │ (TTS 合成为自然语音)
└────────┬─────────────────────┘
▼
输出文件清单
环境要求
- Python 3.8+
- 依赖安装:
pip install requests PyPDF2 python-pptx Pillow pydub - 如使用 Edge TTS 音频:
pip install edge-tts - (可选) pdf2image + poppler 用于图片提取
Step 1: 下载 PDF
从 arXiv / DOI / 任意 URL 下载论文 PDF。
python "{baseDir}/steps/download_paper.py" --url "{{paper_url}}" --output "{{output_dir}}"
参数:
--url: 论文 URL(arXiv 链接、DOI 链接、或直接 PDF 链接)--output: 输出目录(可选,默认当前目录)
输出:{{paper_id}}.pdf
Step 2: 全文提取
从 PDF 提取文本内容(含图片标记):
python "{baseDir}/steps/extract_text.py" --pdf "{{pdf_path}}" --output "{{output_dir}}"
输出:{{paper_id}}_text.txt
Step 3: LLM 深度解读
调用 OpenAI 兼容 API 对论文进行深度解读:
python "{baseDir}/steps/analyze_paper.py" --text "{{txt_path}}" --output "{{output_dir}}"
输出:{{paper_id}}_review.json + {{paper_id}}_review.md
解读结构:
{
"title": "论文标题",
"problem": "解决的问题",
"novelty": ["创新点1", "创新点2", ...],
"method_essence": "方法本质/核心思想",
"method_detail": "详细原理解读",
"experiments": "实验方法及结果分析",
"conclusion": "结论与启示"
}
Step 4: 提取图片素材
从 PDF 中提取图片作为 PPT 素材:
python "{baseDir}/steps/extract_images.py" --pdf "{{pdf_path}}" --output "{{output_dir}}/images"
参数:
--dpi: 图片 DPI(默认 200)--format: 输出格式(默认 png)
输出:images/page_XX.png 等
Step 5: 生成组会 PPT
基于解读内容和图片生成组会 PPT:
python "{baseDir}/steps/generate_ppt.py" --review "{{review_json}}" --images "{{images_dir}}" --output "{{output_dir}}"
PPT 结构(10-15页):
- 封面 — 论文标题 / 作者 / 会议
- 研究背景与动机 — 为什么做这个工作
- 要解决的问题 — 问题定义与挑战
- 核心创新点 — 本文的主要贡献
- 方法总览 — 整体架构图(含原论文图)
- 方法详解① — 关键模块/步骤
- 方法详解② — 更多细节
- 核心原理剖析 — 为什么有效
- 实验设置 — 数据集 / 评价指标 / 基线
- 实验结果 — 主实验结果(含原论文表格)
- 消融实验 — 各模块贡献分析
- 可视化分析 — 可视化结果(含原论文图)
- 讨论与局限性
- 总结与启示
- 参考资料 / Q&A
输出:{{paper_id}}_presentation.pptx
Step 6: 生成解读音频
将完整解读文本合成为 MP3 音频:
python "{baseDir}/steps/generate_audio.py" --text "{{review_md}}" --output "{{output_dir}}"
输出:{{paper_id}}_audio.mp3
完整运行
一步到位运行所有步骤:
python "{baseDir}/run.py" --url "{{paper_url}}" --output "{{output_dir}}"
输出文件
| 文件 | 说明 |
|---|---|
{{paper_id}}.pdf |
原论文 PDF |
{{paper_id}}_text.txt |
PDF 提取的纯文本 |
{{paper_id}}_review.md |
LLM 深度解读报告 |
{{paper_id}}_review.json |
结构化解读数据 |
images/ |
提取的论文图片素材 |
{{paper_id}}_presentation.pptx |
组会 PPT |
{{paper_id}}_audio.mp3 |
解读音频 |
自定义配置
通过环境变量配置 API:
| 变量 | 说明 | 默认值 |
|---|---|---|
OPENAI_BASE_URL |
API 基础 URL | 由 maclaw proxy 自动注入 |
OPENAI_API_KEY |
API 密钥 | 由 maclaw proxy 自动注入 |
OPENAI_MODEL |
模型名称 | gpt-4o-mini |
TTS_ENGINE |
TTS 引擎 (openai/edge) | edge |
PPT_LANG |
PPT 语言 (zh/en) | zh |