name: ceq-inference description: Use when scrutinizing statistical inference for a 《经济学(季刊)》 (China Economic Quarterly, CEQ) manuscript — choosing and justifying the clustering level, handling weak instruments with robust inference, correcting for multiple hypothesis testing, and reporting standard errors that survive a technical reviewer. Default robust SEs are rarely enough at CEQ.
推断细节(ceq-inference)
触发时机
- 标准误用了默认稳健,但没说聚类层级理由
- 第一阶段 F 偏低 / 工具偏弱
- 跑了大量子样本/异质性,没做多重检验校正
- 审稿人会逐条挑推断的稿子
CEQ 视角:推断是技术审稿的主战场
海外训练的审稿人会盯:聚类层级、弱工具、多重检验、有限样本。点估计漂亮但推断站不住,照样退。
1. 聚类层级(要给理由,不是默认)
- 聚类应与处理/抽样的层级一致:处理在省级,就省级聚类(即使样本在个体)。
- 簇数太少(< ~30–50)→ 用 wild cluster bootstrap(Cameron-Gelbach-Miller)。
- 面板同时考虑双向聚类(个体 + 时间)是否必要。
- 聚类层级与处理分配层级一致,且写明理由
- 少簇情形用 wild bootstrap
2. 弱工具(IV)
- 第一阶段 F 报告;多工具用 Kleibergen-Paap(非同方差稳健)而非简单 F。
- F 偏弱 → 用 Anderson-Rubin 等 weak-IV-robust 置信区间,别只靠 t 比。
- 报告 reduced form 与第一阶段,别只给 2SLS。
- F / KP 报告;弱则给 AR 区间
- reduced form 与第一阶段都展示
3. 多重假设检验
- 跑了多个结果变量 / 多个子组 → Romano-Wolf、List-Shaikh-Xu,或 BH/Bonferroni 校正。
- 异质性"找显著"要预警 p-hacking;最好预先登记或限制切分维度。
- 多结果/多子组已做 MHT 校正
- 异质性切分有理论依据,非数据挖掘
4. 标准误与有限样本
- DID 现代估计量用其配套(解析或 bootstrap)标准误,别套 TWFE 的。
- 小样本/少处理单位 → 随机化推断(permutation / placebo 分布)。
- 估计量与标准误匹配
- 必要时随机化推断
反模式
- "标准误聚类到个体层"但处理在省级——典型低估
- 只报 2SLS t 值,不管弱工具
- 报告 20 个异质性里挑出的 2 个显著,不做校正
- 现代 DID 估计量配 TWFE 标准误
CEQ 技术审稿的推断扣分表
下表把本刊技术审稿最常打的推断漏洞,映射到"严重度"与第一时间的补救动作。严重度按本刊经验排序:聚类与弱工具几乎是硬伤,措辞类问题相对软。具体审稿尺度因稿件而异,以编辑部最新稿约与外审意见为准。
| 推断漏洞 | 严重度 | 第一补救 |
|---|---|---|
| 聚类层级低于处理分配层级 | 高(多半要求重估) | 上提到处理层级;少簇配 wild bootstrap |
| 弱工具只报 t 值 | 高 | 报 KP F,给 Anderson-Rubin 区间 |
| 多结果/多子组不校正 | 中高 | Romano-Wolf 或 BH,标注族范围 |
| 现代 DID 套 TWFE 标准误 | 中高 | 改用估计量配套解析/bootstrap SE |
| 少处理单位不做随机化推断 | 中 | placebo 置换分布报精确 p |
| 只给点估计不给区间 | 低中 | 全表补 CI,正文报关键区间 |
微型走查:省级政策、个体面板的聚类陷阱
虚构稿件《自贸区扩围与企业全要素生产率》。处理在省(自贸区批次),数据在企业-年。作者初稿聚类到企业层,t 值都很漂亮。按本 skill 重做(示意数字,仅演示推断如何翻转):
初稿:企业层聚类,β=0.061,SE=0.012,t=5.1(看似稳)
问题:处理在省级,企业层聚类低估了组内相关 → t 被夸大
重估:省级聚类后 SE=0.034,t=1.8(边缘显著)
省份数仅 14(簇数 < 30)→ 默认渐近不可靠
wild cluster bootstrap(Webb 权重,B=9999):p=0.094
弱工具旁证:若用"距口岸距离×政策时点"作工具,
KP F=6.7(弱)→ Anderson-Rubin 95% CI 含 0
结论:主效应在正确推断下不稳,需扩样本或换更强设计
走查要点:聚类层级一改,结论从"显著"变"边缘"——这正是 CEQ 审稿人第一刀的位置。诚实报告少簇 bootstrap 与 AR 区间,远胜硬撑 t 值。
审稿人追问模式与本刊语境修法
- "你为什么聚类到这一层?"——修法:写明聚类层级=处理/抽样层级,并报少簇 bootstrap,而非辩称"惯例如此"。
- "多个异质性结果里你挑了显著的,做了校正吗?"——修法:声明族范围、给 Romano-Wolf 校正后 p 值,并说明切分维度的理论先验(接
ceq-mechanism)。 - "弱工具下 t 检验失效,AR 区间是多少?"——修法:报 AR/CLR 区间,承认弱工具,必要时退回 reduced form 讨论。
输出格式
【聚类层级】... | 与处理层级一致 □ | 少簇 bootstrap □
【弱工具】F/KP=... | AR 区间 □ | reduced form □
【多重检验】结果数=.. 子组数=.. | 校正方法=..
【标准误-估计量匹配】是 / 否
【缺口】<待补>
【下一步】ceq-mechanism