统计方法
置信区间
定义
置信区间量化了观测到的指标变化量周围的不确定性。95% 置信区间的含义是:如果重复进行多次实验,计算出的区间中有 95% 会包含真实效应。
关键解读:当置信区间不包含零时 → 结果在 α = 0.05 水平下具有统计显著性。
计算方法
绝对变化量(双侧):
其中:
= 观测到的绝对变化量( ) = 95% 置信区间(双侧)时为 1.96 = 变化量的标准差 =
相对变化量: Delta 方法
P 值
定义
P 值是在假设原假设成立(即假设两组之间不存在真实差异)的条件下,观测到与测量到的指标变化量同等或更大效应的概率。
P 值并不告诉你处理是否有效的概率。它告诉你的是:如果确实没有效应,观测到的数据会有多令人意外。
如何解读
| P 值 | 解读 |
|---|---|
| p < 0.01 | 对 H₀ 的强有力证据。极不可能是随机噪声。 |
| 0.01 ≤ p < 0.05 | 对 H₀ 的中等证据。在 α=0.05 水平下统计显著。 |
| 0.05 ≤ p < 0.10 | 弱证据。在 α=0.05 水平下不显著,但方向上有提示性。 |
| p ≥ 0.10 | 证据不足以拒绝 H₀。 |
统计功效
定义
功效(1 -
| 术语 | 定义 | 典型取值 |
|---|---|---|
| 功效(1- | P(拒绝 H₀ | H₁ 为真) | 0.80(80%) |
| 第二类错误( | P(未能拒绝 H₀ | H₁ 为真) | 0.20(20%) |
一个具有 80% 功效的实验,有 20% 的概率会遗漏指定大小的真实效应。
功效公式
功效、MDE、样本量和显著性水平相互关联。给定其中任意三个,第四个即可确定:
其中:
= 真实效应大小(绝对值) = 变化量的标准误 = = 显著性临界值(α=0.05 时为 1.96) = 标准正态累积分布函数
影响功效的因素
| 因素 | 对功效的影响 | 应对措施 |
|---|---|---|
| ↑ 样本量(N) | ↑ 功效 | 延长实验时间或增加流量分配 |
| ↑ 效应大小(Δ) | ↑ 功效 | 预期更大影响(或仅接受检测大效应) |
| ↓ 方差 | ↑ 功效 | 应用 CUPED、缩尾处理 |
| ↑ 显著性水平(α) | ↑ 功效 | 接受更高的假阳性率(权衡取舍) |
| 单侧检验 | ↑ 功效 | 仅在方向预先指定且有合理依据时使用 |
MDE(最小可检测效应)
定义
MDE 是在给定功效水平下,实验能够可靠检测到的最小真实效应大小。它回答的问题是:"这个实验能捕捉到多小的变化?"
- 80% 功效下 MDE 为 1%,意味着:如果真实效应恰好为 1%,实验有 80% 的概率会判定其显著。
- 小于 MDE 的真实效应不太可能被检测到(功效不足)。
- MDE 随样本量增大而降低——实验时间越长,能检测到的效应越小。
如何使用:解读不显著的结果
当实验得出 p ≥ α(不显著) 时,结果是有歧义的:可能意味着不存在真实效应,也可能只是实验功效不足以检测到它。MDE 可以消除这种歧义。
决策逻辑:
将 MDE 与预先设定的目标效应大小(你所关心的最小效应)进行比较:
| P 值 | 事后 MDE 与目标比较 | 解读 | 行动 |
|---|---|---|---|
| p < α | — | 检测到显著效应 | 进入决策(上线/不上线) |
| p ≥ α | MDE ≤ 目标 | 功效充足但无效应 | 接受无效应结论。处理无效。 |
| p ≥ α | MDE > 目标 | 功效不足 | 结论不确定。延长实验或增加样本量。 |
Delta 方法
定义
Delta 方法用于计算比率指标的方差——即由两个相关随机变量的比值定义的指标(如每次会话的点击数、每次购买的营收)。
为什么需要它
标准方差公式假设分子和分母相互独立。但对于比率指标,两者来自同一批用户,存在必须考虑的相关性。
示例:"每次会话的点击数"——点击和会话来自同一用户群体。会话更多的用户自然会产生更多点击。忽略这种相关性会低估方差。
计算方法
对于比率
Var(R̄) ≈ (X̄/Ȳ)² × [Var(X̄)/X̄² + Var(Ȳ)/Ȳ² - 2·Cov(X̄,Ȳ)/(X̄·Ȳ)]展开后:
Var(R̄) ≈ (1/Ȳ²) × [Var(X̄) + R̄² · Var(Ȳ) - 2R̄ · Cov(X̄, Ȳ)]Delta方法的另一用途:相对提升
当计算相对变化量(百分比变化)的置信区间时,Delta 方法提供了一种启发式近似:
Var(Δ X̄ %) ≈ Var(Δ X̄) / X̄_control²该近似在总体较大时收敛。