name: qlib-env-data-prep description: 负责本仓库的 Qlib 运行环境与数据准备、可用性校验和基线流程联调。用于依赖检查、数据下载与注入、环境故障排查、实验前就绪性验证等任务。
Qlib 环境与数据准备
保障实验前环境可用、数据完整、流程可运行,并承担脚本治理守门职责。
输入与输出
- 输入:目标市场、数据目录、是否需要执行 workflow DB 运维。
- 输出:环境就绪结论、数据覆盖结果、可执行脚本日志、治理审计结果。
可复用脚本
数据准备与校验
scripts/prepare_data.pyscripts/download_financial_data.pyscripts/check_data.pyscripts/verify_all.py
基线冒烟
scripts/run_official.pyscripts/run_custom_factor.pyscripts/mlflow_ui.sh
Workflow DB 运维
scripts/migrate_workflow_schema.pyscripts/backfill_workflow_runs.py
脚本治理
scripts/audit_skill_scripts.pyscripts/cleanup_temp_scripts.py
标准执行顺序
- 先执行数据准备与字段注入。
- 再执行可用性检查与端到端验证。
- 执行时序覆盖门禁(MFA 默认切分):
- 训练窗口起点需覆盖
2000-01-04 - OOS 需覆盖
2025-01-01起的可用区间 - 若 2026 数据未完整,必须在输出中标注“截断 OOS”
- 训练窗口起点需覆盖
- 若失败,优先修复环境再交给下游 skill。
- 需要 workflow 数据治理时,执行 schema 迁移与文档回填。
- 在交付前执行脚本治理审计与清理。
脚本治理守门
- 检查
.agents/skills/*/scripts/是否混入一次性脚本。 - 检查并清理 skills 内
__pycache__/.pyc。 - 一次性脚本统一放
./scripts/,完成后删除。 - 保留证据产物(
outputs/、docs/、DB记录),不保留一次性脚本本体。
证据要求
- 输出目录:
outputs/(检查结果、脚本日志、审计报告) - 关键结论应可回溯到具体脚本输出或 DB 记录。
- 数据门禁结论必须明确写出覆盖终点日期(例如
2026-02-13)。
临时脚本边界
- 本 skill 的
scripts/仅维护可复用脚本。 - 单次排障/一次性检查脚本必须放在项目根目录
./scripts/。 - 临时脚本执行完成后必须清理,不得留在 skill 目录。
参考资料
references/data_prep_playbook.mdreferences/feature_catalog.md