data-analyst - SKILL.md Agent Skill

name: data-analyst description: "BigQuery/Snowflake接続、EDA、可視化、Marimoノートブック作成を行うサブエージェント。データ分析関連の4つのルール（data_analysis, visualization, notebook, marimo_variable_naming）を統合。「データ分析して」「BigQueryに接続」「EDAを実行」「Marimoで分析」等のリクエストで発動。" triggers: - データ分析 - BigQuery - Snowflake - EDA - 探索的データ分析 - 可視化 - グラフを作成 - Marimo - ノートブック

Data Analyst サブエージェント

BigQuery/Snowflake接続、EDA、可視化、Marimoノートブック作成を専用コンテキストで実行するサブエージェント。

目的

データ分析処理をメインエージェントのコンテキストから分離し：

4つの関連ルールをサブエージェント内に統合（約1500-3000トークン削減）
分析結果のサマリーのみを返却
GCP認証フローの統合

統合ルール

このサブエージェントは以下の4つのルールの内容を内包しています：

data_analysis.mdc - データ分析の基本原則
visualization.mdc - 可視化の品質基準
notebook.mdc - Marimo Notebook利用ルール
marimo_variable_naming.mdc - Marimo変数命名ルール

Part 1: データ分析の基本原則

分析プロセス

目的の明確化: 分析開始前に目的・ゴール・仮説を記述
データ品質の確保: 完全性・正確性・一貫性を確認、欠損・異常値・重複の処理方針を説明
バイアスと因果: 主観的バイアスを排除、相関と因果を混同しない
分析対象の理解: カラム意味・単位・収集元・更新頻度を把握

ファイル整理

data/
├── raw/           # 元データ（上書き禁止）
├── intermediate/  # 中間処理データ
├── feature/       # 特徴量データ
└── output/        # 最終出力

命名規則: {source}__{target}__{granularity}__{date}.parquet 例: bq__sales__daily__2025-03-01.parquet

EDA（探索的データ分析）

YData Profiling (ydata-profiling) やAutoViz (autoviz) を活用
Marimoでインタラクティブに探索
1つのグラフに情報を詰め込みすぎない

Part 2: 可視化の品質基準

必須ルール

ルール	説明
意味のあるラベル	index番号使用禁止、ユーザー名/日付/カテゴリ名を使用
適切なグラフタイプ	棒グラフ（比較）、折れ線（時系列）、ヒートマップ（2次元）
日本語ラベル	専門知識なしで理解できるように
数値ラベル表示	棒の上に「1,791件」等を表示
タイトル/軸ラベル/凡例	必須
高解像度	300 DPI以上

グラフタイプ選択

データ	推奨グラフ
カテゴリ比較	棒グラフ
時系列	折れ線グラフ
2次元データ	ヒートマップ
内訳	積み上げグラフ
長いラベル	横棒グラフ

matplotlib設定

import matplotlib
matplotlib.use('Agg')  # GUIなしで動作
import matplotlib.pyplot as plt

# 日本語フォント設定
plt.rcParams['font.family'] = 'Hiragino Sans'

Part 3: Marimo Notebook ルール

基本ルール

Marimoを使用: Jupyter Notebookは使用しない
分析目的を明記: 最初のセルに記載
仮想環境の使用: uv を使用
エラー対応: 原因と再発防止策をNotebookに追記

進捗表示（tqdm）

from tqdm import tqdm

# 時間のかかる処理には必ず進捗表示
for item in tqdm(items, desc="処理中", unit="item"):
    process(item)
    time.sleep(0.5)

BigQuery重複除去（必須）

WITH deduplicated AS (
    SELECT
        *,
        ROW_NUMBER() OVER (PARTITION BY post.xPostId ORDER BY _PARTITIONTIME DESC) as row_num
    FROM `project.dataset.table`
    WHERE _PARTITIONTIME IS NOT NULL
)
SELECT * FROM deduplicated WHERE row_num = 1

Part 4: Marimo変数命名ルール

🚨 重要な制約

Marimoでは変数の再定義が禁止。異なるセル間で同じ変数名を使用するとエラー。

命名パターン

セル固有の接尾辞

セルの目的	推奨接尾辞	例
データ取得	`_fetch`, `_load`	`df_fetch`, `result_load`
前処理	`_prep`, `_clean`	`data_prep`, `values_clean`
統計分析	`_stat`, `_calc`	`mean_stat`, `corr_calc`
可視化（静的）	`_static`, `_plot`	`fig_static`, `ax_plot`
可視化（動的）	`_dyn`, `_inter`	`net_dyn`, `chart_inter`
モデル学習	`_train`, `_fit`	`model_train`, `scaler_fit`
評価	`_eval`, `_test`	`score_eval`, `pred_test`

正しい例

# ✅ 良い例（セルごとに固有の接尾辞）
@app.cell
def _(data):
    fig_overview, axes_overview = plt.subplots(2, 2)
    for idx_ov, ax_ov in enumerate(axes_overview.flatten()):
        ax_ov.plot(data[idx_ov])
    return fig_overview, axes_overview

@app.cell
def _(data):
    fig_detail, axes_detail = plt.subplots(3, 3)
    return fig_detail, axes_detail

変数Lintチェック

# 編集前後で実行し、再定義が0件であることを確認
python scripts/lint_marimo_vars.py <path>

GCP認証

作業開始前の確認

# 設定プロファイル一覧
gcloud config configurations list

# プロファイル切り替え
gcloud config configurations activate <profile_name>

# 認証
gcloud auth application-default login

利用可能なプロファイル

プロファイル名	プロジェクトID	用途
`default`	-	デフォルト環境
`my-profile`	my-gcp-project	本番データ分析
`my-dev`	my-dev-project	開発分析

サブエージェント呼び出しパターン

メインエージェントは以下のパターンでこのサブエージェントを呼び出す：

Task(
    subagent_type="generalPurpose",
    model="fast",
    description="Data analysis",
    prompt="""
    このスキルを読んで実行してください: skills/data-analyst/SKILL.md
    
    タスク: {ユーザーの指示}
    データソース: {BigQuery / Snowflake / CSV等}
    分析目的: {EDA / 可視化 / レポート作成等}
    
    分析結果のサマリーを返却してください。
    """
)

返却フォーマット

status: success
analysis_type: EDA
data_source: BigQuery (my-dev-project)
summary:
  total_rows: 150000
  columns: 25
  date_range: "2025-01-01 ~ 2025-12-31"
  key_findings:
    - "日別投稿数は平均1,200件/日"
    - "ピーク時間帯は12:00-13:00"
    - "週末は平日比30%減少"
visualizations:
  - path: reports/daily_posts.png
    description: "日別投稿数推移"
  - path: reports/hourly_heatmap.png
    description: "時間帯別ヒートマップ"
notebook:
  path: notebooks/eda_analysis.py
  status: "作成完了"

依存関係

marimo>=0.5.0
pandas>=2.0.0
plotly>=5.0.0
matplotlib>=3.7.0
google-cloud-bigquery>=3.0.0
ydata-profiling>=4.0.0
tqdm>=4.65.0

ユースケース

BigQuery EDA: テーブル構造把握、基本統計、分布確認
時系列分析: トレンド、季節性、異常値検出
コホート分析: ユーザーセグメント、リテンション
可視化レポート: ダッシュボード、プレゼン資料
Marimoノートブック作成: インタラクティブ分析環境構築

Troubleshooting

エラー	解決方法
GCP認証エラー	`gcloud auth application-default login` を実行
BigQueryテーブルが見つからない	`gcloud config configurations list` でプロファイルを確認し適切なものに切り替え
Marimo変数再定義エラー	`python scripts/lint_marimo_vars.py <path>` で重複変数を確認・修正

Success Criteria

分析結果のサマリー（YAML形式）が返却されている
可視化グラフに日本語ラベル・タイトル・凡例が含まれている
出力ファイルが data/output/ または reports/ に保存されている

Overview

BigQuery/Snowflake接続、EDA（探索的データ分析）、可視化、Marimoノートブック作成を専用コンテキストで実行するサブエージェントスキルです。データ分析・可視化・Notebook作成の4つのルールを統合し、分析結果のサマリーのみを返却します。

Usage

上記「サブエージェント呼び出しパターン」および「GCP認証」セクションを参照。基本的な実行例:

# Marimo ノートブックで分析を開始
marimo edit notebooks/eda_analysis.py

# 変数Lintチェック
python scripts/lint_marimo_vars.py notebooks/eda_analysis.py