data-analyst

star 170

当用户要在内存中对 CSV / JSON / Excel 做数据加载、清洗、统计分析、假设检验、图表可视化或数据质量检查时使用。

ntygod By ntygod schedule Updated 5/2/2026

name: data-analyst description: 当用户要在内存中对 CSV / JSON / Excel 做数据加载、清洗、统计分析、假设检验、图表可视化或数据质量检查时使用。 version: 2.1.0 metadata: zhiwei: tags: - data-analysis - csv - excel - json - pandas - matplotlib - visualization - statistics suggested_tools: - code - file_read - file_write - shell_exec


数据分析指南

用户给数据要分析 / 看图 / 出结论时进入。多步分析用同一 kernelId 跨调用共享 dataframe,避免每步重新加载。

适用场景

  • CSV / JSON / Excel 数据探索(列名、分布、缺失)
  • 清洗与转换(去重、填空、类型转换、结构化)
  • 统计分析(描述性、相关性、假设检验)
  • 数据可视化(柱状 / 折线 / 散点 / 热力图)
  • 时间序列分析
  • 数据质量检查 / 多份数据对比
  • 处理后导出回 CSV / Excel / JSON

不适用场景

  • 数据库 SQL 查询 → database-query
  • 日志文件分析 → log-analyzer
  • 简单数学计算 → 直接回答

工作流(按用户表达分流)

用户表达 路径
"看下这份数据 / 列名是啥 / 多大" 预览 → 加载探索(describe / dtypes / isnull)
"清洗一下 / 去重 / 填空 / 改类型" 持久 kernel 加载 → 逐步转换,每步打印行数变化
"统计 / 相关性 / 显著吗" 加载后跑 describe / corr / scipy.stats
"画图 / 可视化 / 柱状图 / 趋势" matplotlib Agg 后端 + 中文字体 + savefig 落盘
"导出 / 存一份" to_csv / to_excel / to_json 写到 cwd(绝对路径来自工具返回的 workingDirectory)
"对比这两份" 同 kernel 加载两个 df,做 join / merge / diff

各路径决策点(本 Skill 独有)

  • 持久 kernel:多步分析必须传同一 kernelId,跨调用复用 dataframe;一次性查询不传
  • 大文件防 OOM:文件 >500MB 用 chunksize 分块或 usecols 选列加载
  • 中文字体:可视化必须 plt.rcParams['font.sans-serif'] = ['SimHei']WenQuanYi,否则中文乱码
  • 结论给数值:输出具体数值(均值 / 占比 / p 值 / 置信区间),禁止"差不多""挺多的"等模糊描述
  • 清洗透明:每一步打印 原 N 行 → 清洗后 M 行,让用户知道丢了多少
  • 依赖未装:预装栈未覆盖的库(如 plotly / dash / xgboost)才用 shell_exec(command="pip install <pkg>") 装,且需用户接受额外耗时,不要静默失败

详细参考

  • 各路径 Python 片段、命令模板、错误处理:{skill_dir}/references/pandas-recipes.md
Install via CLI
npx skills add https://github.com/ntygod/ZhiWei --skill data-analyst
Repository Details
star Stars 170
call_split Forks 4
navigation Branch main
article Path SKILL.md
More from Creator