name: collect-baoyan-info description: 用于收集和整理最新的保研(推免/夏令营/预推免)信息。当用户要求“收集最新保研信息”、“更新保研数据”、“拉取保研信息”时触发此技能。自动运行本地抓取脚本并将结果更新至 Excel。
收集最新保研信息 (Collect Baoyan Info)
这是一个自动化收集并清洗保研(研究生推荐免试)信息的技能,用于及时获取各个高校发布的招生活动并生成结构化的表格文件。
使用场景
当用户给出诸如以下指令时,应调用本技能:
- 收集/抓取最新保研信息
- 更新保研数据
- 跑一下保研脚本
- 帮我看看最近有没有新的夏令营/预推免通知
执行步骤
为了顺利和准确地完成任务,请遵循以下多步执行工作流:
1. 确认前置环境
- 确认 Python 运行环境已激活或准备就绪,并在当前终端中安装
requests,pandas,openpyxl等必要依赖。如果缺少对应依赖,主动提醒用户。
2. 执行抓取任务
- 请直接在终端中运行内置在当前 Skill 目录下的
scripts/info_get.py脚本,以此抓取保研 API 接口最新增量数据并按专业大类进行清洗:python .claude/skills/collect-baoyan-info/scripts/info_get.py - 脚本会自动增量拉取信息,并与工作区根目录下现存的(如果是首次运行则没有) Excel 进行比对,将有变更与新增的项目分类整理输出到当前打开的工作区根目录。
3. 等待与监控脚本执行
- 由于抓取是逐页处理的(如无新数据会自动在指定次数后停止),请等待脚本完全执行结束。
- 收集并观察输出在终端中的控制台输出日志与统计信息。
4. 修改招生项目
- 运行工作区中内置的
.claude/skills/collect-baoyan-info/scripts/title_match.py自动化脚本,对“招生项目”字段进行原网页标题对应替换。python .claude/skills/collect-baoyan-info/scripts/title_match.py - 脚本会针对不同网页(如微信公众号文章和普通网页版)自动使用对应的提取策略更新“招生项目”列,而不影响表格中其他行与列。
- 若获取招生项目字段失败,请将失败信息反馈给用户,并保留原始“招生项目”字段不变。不允许随意删除得到的单行数据。
5. 总结反馈给用户
一旦获得执行结果,请向用户汇报:
- 抓取总括:本次拉取到了多少条最新更新的保研/夏令营/推免数据。
- 分类统览:分别在“理工农医”、“经管法”、“人文社科与艺术”及“单校”下各新增了多少条。
- 文件位置:提醒用户数据已经成功保存至项目中的 Excel 对应文件中(如
2026院校信息_更新.xlsx)。
规则与约束
- 不要擅自修改逻辑:在非必要(或用户明确要求)的情况下,请勿修改内置脚本
scripts/info_get.py的源码。 - 输出位置:由于脚本通过工作区执行,新生成的 Excel 文件会直接在当前工作区根目录下输出。
- 异常处理:若脚本提示 API 网络连接失败、无读取/写入权限或其他异常,请将核心错误信息传达给用户,并提出修复或重试建议。