Skip to content

统计方法

置信区间

定义

置信区间量化了观测到的指标变化量周围的不确定性。95% 置信区间的含义是:如果重复进行多次实验,计算出的区间中有 95% 会包含真实效应。

关键解读:当置信区间不包含零时 → 结果在 α = 0.05 水平下具有统计显著性。

计算方法

绝对变化量(双侧):

CI=ΔX¯±zα2×σΔ

其中:

  • ΔX¯ = 观测到的绝对变化量(X¯testX¯control
  • zα/2 = 95% 置信区间(双侧)时为 1.96
  • σΔ = 变化量的标准差 = Var(X¯test)+Var(X¯control)

相对变化量: Delta 方法

P 值

定义

P 值是在假设原假设成立(即假设两组之间不存在真实差异)的条件下,观测到与测量到的指标变化量同等或更大效应的概率。

P 值并不告诉你处理是否有效的概率。它告诉你的是:如果确实没有效应,观测到的数据会有多令人意外。

如何解读

P 值解读
p < 0.01对 H₀ 的强有力证据。极不可能是随机噪声。
0.01 ≤ p < 0.05对 H₀ 的中等证据。在 α=0.05 水平下统计显著。
0.05 ≤ p < 0.10弱证据。在 α=0.05 水平下不显著,但方向上有提示性。
p ≥ 0.10证据不足以拒绝 H₀。

统计功效

定义

功效(1 - β 是当真实效应确实存在时,正确检测到该效应的概率。等价地,β假阴性(第二类错误)的概率——即未能检测到真实效应。

术语定义典型取值
功效(1-βP(拒绝 H₀ | H₁ 为真)0.80(80%)
第二类错误(βP(未能拒绝 H₀ | H₁ 为真)0.20(20%)

一个具有 80% 功效的实验,有 20% 的概率会遗漏指定大小的真实效应。

功效公式

功效、MDE、样本量和显著性水平相互关联。给定其中任意三个,第四个即可确定:

Power=Φ(|Δ|SE(Δ)Z1α2)

其中:

  • |Δ| = 真实效应大小(绝对值)
  • SE(Δ) = 变化量的标准误 = Var(X¯test)+Var(X¯control)
  • Z1α/2 = 显著性临界值(α=0.05 时为 1.96)
  • Φ = 标准正态累积分布函数

影响功效的因素

因素对功效的影响应对措施
↑ 样本量(N)↑ 功效延长实验时间或增加流量分配
↑ 效应大小(Δ)↑ 功效预期更大影响(或仅接受检测大效应)
↓ 方差↑ 功效应用 CUPED、缩尾处理
↑ 显著性水平(α)↑ 功效接受更高的假阳性率(权衡取舍)
单侧检验↑ 功效仅在方向预先指定且有合理依据时使用

MDE(最小可检测效应)

定义

MDE 是在给定功效水平下,实验能够可靠检测到的最小真实效应大小。它回答的问题是:"这个实验能捕捉到多小的变化?"

  • 80% 功效下 MDE 为 1%,意味着:如果真实效应恰好为 1%,实验有 80% 的概率会判定其显著。
  • 小于 MDE 的真实效应不太可能被检测到(功效不足)。
  • MDE 随样本量增大而降低——实验时间越长,能检测到的效应越小。

如何使用:解读不显著的结果

当实验得出 p ≥ α(不显著) 时,结果是有歧义的:可能意味着不存在真实效应,也可能只是实验功效不足以检测到它。MDE 可以消除这种歧义。

决策逻辑:

MDE预先设定的目标效应大小(你所关心的最小效应)进行比较:

P 值事后 MDE 与目标比较解读行动
p < α检测到显著效应进入决策(上线/不上线)
p ≥ αMDE ≤ 目标功效充足但无效应接受无效应结论。处理无效。
p ≥ αMDE > 目标功效不足结论不确定。延长实验或增加样本量。

Delta 方法

定义

Delta 方法用于计算比率指标的方差——即由两个相关随机变量的比值定义的指标(如每次会话的点击数、每次购买的营收)。

为什么需要它

标准方差公式假设分子和分母相互独立。但对于比率指标,两者来自同一批用户,存在必须考虑的相关性。

示例:"每次会话的点击数"——点击和会话来自同一用户群体。会话更多的用户自然会产生更多点击。忽略这种相关性会低估方差。

计算方法

对于比率 R¯=X¯/Y¯

Var(R̄) ≈ (X̄/Ȳ)² × [Var(X̄)/X̄² + Var(Ȳ)/Ȳ² - 2·Cov(X̄,Ȳ)/(X̄·Ȳ)]

展开后:

Var(R̄) ≈ (1/Ȳ²) × [Var(X̄) + R̄² · Var(Ȳ) - 2R̄ · Cov(X̄, Ȳ)]

Delta方法的另一用途:相对提升

当计算相对变化量(百分比变化)的置信区间时,Delta 方法提供了一种启发式近似:

Var(Δ X̄ %) ≈ Var(Δ X̄) / X̄_control²

该近似在总体较大时收敛。