name: didi-reimbursement description: 专门用于处理“滴滴出行行程报销单”PDF文件,提取行程明细并汇总为Excel文件的技能。
滴滴行程报销处理技能
此技能用于自动化提取滴滴出行行程报销单中的结构化数据。它能够识别 PDF 中的表格,清理特定格式(如删除星期、修正城市名空格),并生成统一的 Excel 报销汇总。
使用场景
- 当用户需要将多个“滴滴出行行程报销单”PDF 文件汇总到 Excel 时。
- 需要对滴滴行程数据进行清洗(如统一城市名称、简化时间格式)时。
核心功能
- 表格提取:自动定位 PDF 中的行程明细表。
- 数据清洗:
- 移除“上车时间”中的星期信息(如“周日”、“周 一”)。
- 移除“城市”名称中的空格(如“武汉 市”修正为“武汉市”)。
- 文件溯源:在输出的 Excel 中自动添加“来源文件”列。
工作流程
- 定位文件:在指定的目录中查找包含“行程报销单”关键字的 PDF 文件。
- 执行脚本:调用内置的
scripts/process_didi.py进行处理。 - 生成结果:在目标位置生成
.xlsx汇总表。
使用指南
直接调用 scripts/process_didi.py 脚本,并传入输入目录和输出路径:
python scripts/process_didi.py <input_directory> 滴滴行程明细汇总表.xlsx
依赖项
pdfplumber:用于解析 PDF 表格。pandas:用于数据处理。openpyxl:用于导出 Excel。