name: experiment-design description: "學術研究實驗設計技能——從研究假設到可重現實驗計畫的完整流程。當使用者需要規劃實驗、設計 ablation study、選擇 baseline、確定評估指標,或問「我應該跑哪些實驗」時,一定要使用此技能。觸發詞包括:實驗設計、experiment design、ablation、baseline、跑什麼實驗、evaluation metric、如何驗證方法。適用於機器學習、NLP、CV 等領域的實驗規劃。" license: MIT compatibility: Works with Claude Code, ChatGPT/Codex CLI, and Gemini CLI. metadata: author: Research Reading Agent version: "1.0.0"
實驗設計技能
概述
本技能提供一套結構化的實驗設計流程,適用於機器學習、自然語言處理、電腦視覺等領域的學術研究。目標是協助研究者從模糊的研究想法出發,產出一份嚴謹、可重現、且具說服力的實驗計畫。
核心設計理念
好的實驗設計應具備以下特質:
- 可證偽性:實驗結果必須能夠支持或否定研究假設
- 公平性:所有比較對象在相同條件下評估
- 可重現性:他人能夠依據描述完整重現實驗
- 充分性:實驗覆蓋足夠的面向以支撐論文結論
實驗設計 Pipeline
完整的實驗設計遵循以下六步流程:
假設 → 變數 → 指標 → Baseline → Ablation → 計算預算
每一步的產出都是下一步的輸入,形成嚴謹的推導鏈。
步驟一:研究假設明確化
目的
將模糊的研究動機轉化為可驗證的具體假設。
方法
- 辨識研究問題:你想回答什麼問題?
- 提出核心假設:對問題的預期答案是什麼?
- 明確化假設:假設必須具備可測量性與可證偽性
- 分解子假設:將複雜假設拆解為可逐一驗證的子假設
假設的品質標準
| 標準 | 說明 |
|---|---|
| 具體性 | 明確指出預期的效果方向與幅度 |
| 可測量性 | 可以用量化指標來驗證 |
| 可證偽性 | 存在可能否定假設的實驗結果 |
| 相關性 | 與研究問題直接相關 |
範例
- 不佳:「我們的方法比較好」
- 良好:「在 SQuAD 2.0 資料集上,加入跨注意力機制後,F1 分數相較於純自注意力基線提升至少 2 個百分點」
詳見:實驗規劃參考
步驟二:變數定義
自變數(Independent Variables)
研究者主動操控的變數,即實驗中「改變的東西」。
- 模型架構的變體
- 訓練策略的差異
- 資料處理方式的不同
依變數(Dependent Variables)
用來衡量實驗結果的變數,即「被測量的東西」。
- 模型效能指標(準確率、F1、BLEU 等)
- 效率指標(推論時間、記憶體用量)
- 品質指標(人工評估分數)
控制變數(Control Variables)
實驗中保持不變的變數,確保比較的公平性。
- 隨機種子
- 訓練資料集與切分方式
- 超參數(非研究對象的部分)
- 硬體環境
- 預訓練模型版本
變數控制原則
- 單一變數原則:每次實驗僅改變一個自變數
- 完整記錄原則:所有變數的值都必須記錄
- 合理範圍原則:自變數的取值範圍應有理論依據
詳見:實驗規劃參考
步驟三:評估指標選擇
選擇原則
- 領域慣例:優先選擇該領域公認的標準指標
- 多面向覆蓋:同時報告效能、效率、穩健性指標
- 統計顯著性:報告多次實驗的平均值與標準差
- 合理性:指標能真正反映研究假設所關注的面向
常見指標類別
| 類別 | 指標範例 |
|---|---|
| 分類任務 | Accuracy、Precision、Recall、F1-score、AUC-ROC |
| 生成任務 | BLEU、ROUGE、METEOR、BERTScore、人工評估 |
| 資訊擷取 | MAP、MRR、NDCG、Recall@K |
| 效率指標 | FLOPs、參數量、推論延遲、記憶體佔用 |
| 穩健性 | 跨資料集表現、對抗樣本準確率 |
統計檢驗
- 報告多次隨機種子實驗的平均值與標準差
- 必要時進行統計顯著性檢驗(如 paired t-test、bootstrap test)
- 標註統計顯著性水準(p < 0.05, p < 0.01)
步驟四:Baseline 選擇與設定
必選 Baseline 類型
- 經典方法:該領域歷史上重要的方法
- 當前 SOTA:最新的最佳表現方法
- 簡單 Baseline:簡單但合理的基準方法(如隨機、多數類別、TF-IDF)
公平比較原則
- 使用相同的資料切分
- 使用相同的評估協定
- 盡可能使用原作者的程式碼與超參數
- 若需重新實現,需驗證重現結果與原論文一致
常見錯誤
- 僅與弱基線比較
- 未使用最新 SOTA 作為基線
- 基線的超參數未經調校
- 比較條件不一致(如不同的預訓練模型)
步驟五:Ablation Study 設計
Ablation Study 是驗證方法中各組件貢獻的關鍵實驗。本技能定義四種 Ablation 模式:
模式一:完整消融(Component Ablation)
逐一移除或替換方法中的各個組件,觀察效能變化。
- 每次僅移除一個組件
- 記錄移除後的效能變化
- 藉此判斷每個組件的貢獻度
模式二:超參敏感度分析(Hyperparameter Sensitivity)
探討關鍵超參數對效能的影響。
- 選擇 2-4 個最重要的超參數
- 在合理範圍內變化超參數值
- 繪製超參數-效能曲線圖
模式三:跨資料集遷移(Cross-Dataset Transfer)
驗證方法的泛化能力。
- 在多個不同資料集上測試
- 包含不同規模、不同領域的資料集
- 分析方法在何種條件下效果最佳或最差
模式四:定性分析(Qualitative Analysis)
透過可視化與案例分析深入理解模型行為。
- 注意力權重視覺化
- 成功與失敗案例分析
- 特徵空間視覺化(如 t-SNE)
- 錯誤類型分類與統計
步驟六:計算資源預估
預估項目
單次實驗成本
- GPU 時數
- 記憶體需求
- 儲存空間需求
實驗總量計算
總 GPU 時數 = 單次時數 × 模型變體數 × 資料集數 × 隨機種子數 × 超參組合數安全係數
- 建議預留 1.5-2 倍的預估資源
- 考慮除錯、預實驗、追加實驗的需求
資源最佳化策略
- 先以小規模資料集進行預實驗
- 使用早停(early stopping)節省訓練時間
- 善用混合精度訓練(mixed precision)
- 合理安排實驗優先順序
可重現性要求
實驗計畫必須包含完整的可重現性資訊,確保他人能夠精確重現結果。
必要揭露項目
硬體環境
- GPU 型號與數量
- CPU 規格
- 記憶體大小
軟體環境
- 程式語言版本
- 深度學習框架版本
- 關鍵套件版本
隨機性控制
- 隨機種子設定
- 確定性演算法設定
- 多次實驗的種子列表
訓練協定
- 完整的超參數列表
- 優化器設定
- 學習率排程
- 資料增強策略
- 早停準則
資料處理
- 資料集版本與來源
- 前處理步驟
- 資料切分方式
評估協定
- 評估指標的精確定義
- 評估頻率
- 模型選擇準則
詳見:可重現性清單
輸出:結構化實驗計畫文件
本技能的最終產出為一份結構化的實驗計畫文件,包含以下章節:
- 研究假設與子假設
- 變數定義表
- 評估指標與統計方法
- Baseline 列表與設定
- Ablation Study 設計矩陣
- 計算資源預估與時程規劃
- 可重現性資訊
使用模板:實驗計畫模板
使用流程
輸入
- 研究主題或論文草稿
- 提出的方法描述
- 可用的計算資源
處理
- 引導使用者明確化研究假設
- 協助定義自變數、依變數、控制變數
- 根據任務類型建議評估指標
- 根據研究領域建議 Baseline
- 設計 Ablation Study 方案
- 預估計算資源需求
輸出
- 完整的實驗計畫文件(依照模板格式)
- 實驗優先順序建議
- 潛在風險與應對方案
品質檢查清單
在完成實驗計畫後,請確認以下項目:
- 每個研究假設都有對應的實驗來驗證
- 所有自變數的取值範圍已明確定義
- 控制變數已完整列出
- 評估指標涵蓋多個面向
- Baseline 包含經典方法、SOTA、簡單基線
- Ablation Study 覆蓋所有提出的組件
- 計算資源預估合理且包含安全係數
- 可重現性資訊完整
- 統計檢驗方法已確定