name: data-profiler description: 数据探查技能,分析数据结构、统计信息、值分布
数据探查技能
⚠️ 强制约束(违反将导致探查失败)
- 必须调用
data_profile工具 - 不要自己写代码,直接调用工具 - 必须等待工具返回结果 - 工具返回前禁止进行任何总结
- 必须看到完成标记 - 只有看到 "✅ 数据探查完成" 才算执行成功
- 禁止虚构任何数据 - 所有数字、列名、值分布必须来自工具输出
❌ 错误示例:自己写 pandas 代码执行数据探查
✅ 正确做法:调用 data_profile 工具,传入文件路径
执行流程
第一步:准备参数
从上下文 "可用文件" 部分获取 容器路径(如 /data/project_files/xxx/file.csv)
第二步:调用数据探查工具
使用 data_profile 工具执行探查:
data_profile(
file_path="/data/project_files/xxx/file.csv" # 容器路径
)
工具会返回完整的探查结果,包含:
- 数据集概要(行数、列数、内存)
- 列分类(维度、指标、时间、文本)
- 关键列分析(空值率、唯一值、值分布)
- 数据样本(前50行)
第三步:验证执行结果
检查工具返回中是否包含:
-
✅ 成功读取文件:X 行, Y 列- 确认文件已读取 -
## 1. 数据集概要- 有行数、列数、列名 -
## 2. 关键列分析- 有空值率、唯一值、值分布 -
## 3. 数据样本- 有数据表格 -
✅ 数据探查完成- 执行成功标记
如果缺少任何一项,说明执行失败,需要重试。
第四步:基于真实输出继续分析
根据工具输出的实际数据(不是假设的数据)进行后续分析。
注意:数据筛选和过滤需要在后续步骤中自己编写代码完成,data_profile 只提供数据结构信息。
重要提示
- 使用上下文 "可用文件" 部分的 容器路径(如
/data/project_files/xxx/file.csv) - 禁止使用本地路径(如
/Users/...) - 如果执行失败,检查路径是否正确后重试