authoritative-data-harvester - SKILL.md Agent Skill

name: "authoritative-data-harvester" description: "自动定位并获取权威公开数据（优先API/官方批量下载），输出可复现抓取与清洗方案。Invoke when用户需要权威数据、官方统计、API下载或数据源爬取。"

本 skill 不得作为孤立入口。用户要求完整论文、生成 Word、继续流程或不确定阶段时，先回到 paper-workflow-orchestrator 判断当前 S0-S8 阶段。

启动或继续本 skill 的正式任务前，必须运行：

python .claude/skills/paper-workflow-orchestrator/scripts/workflow_guard.py --skill authoritative-data-harvester

如果输出 [WORKFLOW FAIL] 或报告 status != "PASS"，停止本 skill，按 paper_output/qa/workflow_guard_report.json 的失败项回补前置阶段，不得凭记忆继续。
本 skill 只写入自己契约范围内的 paper_output/ 产物；完成后必须回到 paper-workflow-orchestrator 判断下一步，并用 context-memory-keeper 记录已完成产物、阻塞项和下一步。
长对话中如果上下文变长、阶段不确定或用户分开调用 skill，先运行：
```
python .claude/skills/paper-workflow-orchestrator/scripts/workflow_guard.py --status
```
再读取 paper_output/qa/workflow_guard_report.json、paper_output/preflight_report.json、paper_output/input_manifest.json、paper_output/results/run_manifest.json 和本 skill 的上游 JSON 契约，按报告里的 recommended_skill 与 next_action 继续。
继续流程前，必须把 paper_output/context/workflow_memory.json 视为长期断点记录；若其中的 current_step、next_step、recommended_skill 与 workflow_guard.py --status 不一致，以 guard 报告为准。
每次完成本 skill 的产物后，先回到 paper-workflow-orchestrator 或运行 workflow_guard.py --status，再更新 workflow memory：
```
python .claude/skills/context-memory-keeper/scripts/update_workflow_memory.py
```
更新后读取 paper_output/context/workflow_memory.json / .md，确认下一步和推荐 skill 已记录。

上游输入：用户给出的变量需求，或 paper_output/step1/problem_analysis.json、paper_output/plan/model_route.json 中识别出的外部数据需求。
必须输出：可复现的数据源说明、抓取或下载方案，并将原始/处理后数据与来源信息保存到 crawled_data/，优先包含 crawled_data/sources.json。
下游交接：data-cleaning-and-visualization 读取 crawled_data/ 做统一清洗、图表计划和论文级配图。
推荐下一步：数据落盘后进入 data-cleaning-and-visualization；完整论文目标应回到 paper-workflow-orchestrator 判断后续阶段。
失败回退：若无法自动获取，应给出同级权威替代源、口径差异和人工下载路径；不得使用无来源或不可引用的数据冒充权威数据。

在数学建模任务中，快速找到“权威、可引用、可复现”的公开数据源，并以尽量不爬网页、优先 API/批量下载的方式获取数据，最终输出：

输出“数据需求表”，至少包含：

按任务类型优先匹配：

交付脚本必须具备：

当某源不可用/受限：

Memory Interaction (必做):
- 获取数据后：必须调用 context-memory-keeper，记录“新增数据源名称”与“存放路径”到 Short-term Workbench。
本技能只负责“把权威数据拿到手并保证可复现”，不负责直接写论文正文；产物必须落盘到 crawled_data/。
若数据要进入论文，必须同时满足两点：
- crawled_data/sources.json 中记录可引用来源信息。
- 后续调用 data-cleaning-and-visualization，把数据清洗并生成 paper_output/figures/ 的证据图表。