ceq-inference

star 39

Use when scrutinizing statistical inference for a 《经济学(季刊)》 (China Economic Quarterly, CEQ) manuscript — choosing and justifying the clustering level, handling weak instruments with robust inference, correcting for multiple hypothesis testing, and reporting standard errors that survive a technical reviewer. Default robust SEs are rarely enough at CEQ.

brycewang-stanford By brycewang-stanford schedule Updated 6/10/2026

name: ceq-inference description: Use when scrutinizing statistical inference for a 《经济学(季刊)》 (China Economic Quarterly, CEQ) manuscript — choosing and justifying the clustering level, handling weak instruments with robust inference, correcting for multiple hypothesis testing, and reporting standard errors that survive a technical reviewer. Default robust SEs are rarely enough at CEQ.

推断细节(ceq-inference)

触发时机

  • 标准误用了默认稳健,但没说聚类层级理由
  • 第一阶段 F 偏低 / 工具偏弱
  • 跑了大量子样本/异质性,没做多重检验校正
  • 审稿人会逐条挑推断的稿子

CEQ 视角:推断是技术审稿的主战场

海外训练的审稿人会盯:聚类层级、弱工具、多重检验、有限样本。点估计漂亮但推断站不住,照样退。

1. 聚类层级(要给理由,不是默认)

  • 聚类应与处理/抽样的层级一致:处理在省级,就省级聚类(即使样本在个体)。
  • 簇数太少(< ~30–50)→ 用 wild cluster bootstrap(Cameron-Gelbach-Miller)。
  • 面板同时考虑双向聚类(个体 + 时间)是否必要。
  • 聚类层级与处理分配层级一致,且写明理由
  • 少簇情形用 wild bootstrap

2. 弱工具(IV)

  • 第一阶段 F 报告;多工具用 Kleibergen-Paap(非同方差稳健)而非简单 F。
  • F 偏弱 → 用 Anderson-Rubin 等 weak-IV-robust 置信区间,别只靠 t 比。
  • 报告 reduced form 与第一阶段,别只给 2SLS。
  • F / KP 报告;弱则给 AR 区间
  • reduced form 与第一阶段都展示

3. 多重假设检验

  • 跑了多个结果变量 / 多个子组 → Romano-Wolf、List-Shaikh-Xu,或 BH/Bonferroni 校正。
  • 异质性"找显著"要预警 p-hacking;最好预先登记或限制切分维度。
  • 多结果/多子组已做 MHT 校正
  • 异质性切分有理论依据,非数据挖掘

4. 标准误与有限样本

  • DID 现代估计量用其配套(解析或 bootstrap)标准误,别套 TWFE 的。
  • 小样本/少处理单位 → 随机化推断(permutation / placebo 分布)。
  • 估计量与标准误匹配
  • 必要时随机化推断

反模式

  • "标准误聚类到个体层"但处理在省级——典型低估
  • 只报 2SLS t 值,不管弱工具
  • 报告 20 个异质性里挑出的 2 个显著,不做校正
  • 现代 DID 估计量配 TWFE 标准误

CEQ 技术审稿的推断扣分表

下表把本刊技术审稿最常打的推断漏洞,映射到"严重度"与第一时间的补救动作。严重度按本刊经验排序:聚类与弱工具几乎是硬伤,措辞类问题相对软。具体审稿尺度因稿件而异,以编辑部最新稿约与外审意见为准。

推断漏洞 严重度 第一补救
聚类层级低于处理分配层级 高(多半要求重估) 上提到处理层级;少簇配 wild bootstrap
弱工具只报 t 值 报 KP F,给 Anderson-Rubin 区间
多结果/多子组不校正 中高 Romano-Wolf 或 BH,标注族范围
现代 DID 套 TWFE 标准误 中高 改用估计量配套解析/bootstrap SE
少处理单位不做随机化推断 placebo 置换分布报精确 p
只给点估计不给区间 低中 全表补 CI,正文报关键区间

微型走查:省级政策、个体面板的聚类陷阱

虚构稿件《自贸区扩围与企业全要素生产率》。处理在省(自贸区批次),数据在企业-年。作者初稿聚类到企业层,t 值都很漂亮。按本 skill 重做(示意数字,仅演示推断如何翻转):

初稿:企业层聚类,β=0.061,SE=0.012,t=5.1(看似稳)
问题:处理在省级,企业层聚类低估了组内相关 → t 被夸大
重估:省级聚类后 SE=0.034,t=1.8(边缘显著)
省份数仅 14(簇数 < 30)→ 默认渐近不可靠
wild cluster bootstrap(Webb 权重,B=9999):p=0.094
弱工具旁证:若用"距口岸距离×政策时点"作工具,
            KP F=6.7(弱)→ Anderson-Rubin 95% CI 含 0
结论:主效应在正确推断下不稳,需扩样本或换更强设计

走查要点:聚类层级一改,结论从"显著"变"边缘"——这正是 CEQ 审稿人第一刀的位置。诚实报告少簇 bootstrap 与 AR 区间,远胜硬撑 t 值。

审稿人追问模式与本刊语境修法

  • "你为什么聚类到这一层?"——修法:写明聚类层级=处理/抽样层级,并报少簇 bootstrap,而非辩称"惯例如此"。
  • "多个异质性结果里你挑了显著的,做了校正吗?"——修法:声明族范围、给 Romano-Wolf 校正后 p 值,并说明切分维度的理论先验(接 ceq-mechanism)。
  • "弱工具下 t 检验失效,AR 区间是多少?"——修法:报 AR/CLR 区间,承认弱工具,必要时退回 reduced form 讨论。

输出格式

【聚类层级】... | 与处理层级一致 □ | 少簇 bootstrap □
【弱工具】F/KP=... | AR 区间 □ | reduced form □
【多重检验】结果数=.. 子组数=.. | 校正方法=..
【标准误-估计量匹配】是 / 否
【缺口】<待补>
【下一步】ceq-mechanism
Install via CLI
npx skills add https://github.com/brycewang-stanford/Awesome-Journal-Skills --skill ceq-inference
Repository Details
star Stars 39
call_split Forks 11
navigation Branch main
article Path SKILL.md
More from Creator
brycewang-stanford
brycewang-stanford Explore all skills →