统计方法

置信区间

定义

置信区间量化了观测到的指标变化量周围的不确定性。95% 置信区间的含义是：如果重复进行多次实验，计算出的区间中有 95% 会包含真实效应。

关键解读：当置信区间不包含零时 → 结果在 α = 0.05 水平下具有统计显著性。

计算方法

绝对变化量（双侧）：

C I = Δ \bar{X} \pm z_{\frac{α}{2}} \times σ_{Δ}

其中：

$Δ \bar{X}$ = 观测到的绝对变化量（ ${\bar{X}}_{t e s t} - {\bar{X}}_{c o n t r o l}$ ）
$z_{α / 2}$ = 95% 置信区间（双侧）时为 1.96
$σ_{Δ}$ = 变化量的标准差 = $\sqrt{Var ({\bar{X}}_{t e s t}) + Var ({\bar{X}}_{c o n t r o l})}$

相对变化量： Delta 方法

P 值

定义

P 值是在假设原假设成立（即假设两组之间不存在真实差异）的条件下，观测到与测量到的指标变化量同等或更大效应的概率。

P 值并不告诉你处理是否有效的概率。它告诉你的是：如果确实没有效应，观测到的数据会有多令人意外。

如何解读

P 值	解读
p < 0.01	对 H₀ 的强有力证据。极不可能是随机噪声。
0.01 ≤ p < 0.05	对 H₀ 的中等证据。在 α=0.05 水平下统计显著。
0.05 ≤ p < 0.10	弱证据。在 α=0.05 水平下不显著，但方向上有提示性。
p ≥ 0.10	证据不足以拒绝 H₀。

统计功效

定义

功效（1 - $β$ ） 是当真实效应确实存在时，正确检测到该效应的概率。等价地， $β$ 是假阴性（第二类错误）的概率——即未能检测到真实效应。

术语	定义	典型取值
功效（1- $β$ ）	P(拒绝 H₀ \| H₁ 为真)	0.80（80%）
第二类错误（ $β$ ）	P(未能拒绝 H₀ \| H₁ 为真)	0.20（20%）

一个具有 80% 功效的实验，有 20% 的概率会遗漏指定大小的真实效应。

功效公式

功效、MDE、样本量和显著性水平相互关联。给定其中任意三个，第四个即可确定：

Power = Φ (\frac{| Δ |}{S E (Δ)} - Z_{1 - \frac{α}{2}})

其中：

$| Δ |$ = 真实效应大小（绝对值）
$S E (Δ)$ = 变化量的标准误 = $\sqrt{Var ({\bar{X}}_{t e s t}) + Var ({\bar{X}}_{c o n t r o l})}$
$Z_{1 - α / 2}$ = 显著性临界值（α=0.05 时为 1.96）
$Φ$ = 标准正态累积分布函数

影响功效的因素

因素	对功效的影响	应对措施
↑ 样本量（N）	↑ 功效	延长实验时间或增加流量分配
↑ 效应大小（Δ）	↑ 功效	预期更大影响（或仅接受检测大效应）
↓ 方差	↑ 功效	应用 CUPED、缩尾处理
↑ 显著性水平（α）	↑ 功效	接受更高的假阳性率（权衡取舍）
单侧检验	↑ 功效	仅在方向预先指定且有合理依据时使用

MDE（最小可检测效应）

定义

MDE 是在给定功效水平下，实验能够可靠检测到的最小真实效应大小。它回答的问题是："这个实验能捕捉到多小的变化？"

80% 功效下 MDE 为 1%，意味着：如果真实效应恰好为 1%，实验有 80% 的概率会判定其显著。
小于 MDE 的真实效应不太可能被检测到（功效不足）。
MDE 随样本量增大而降低——实验时间越长，能检测到的效应越小。

如何使用：解读不显著的结果

当实验得出 p ≥ α（不显著） 时，结果是有歧义的：可能意味着不存在真实效应，也可能只是实验功效不足以检测到它。MDE 可以消除这种歧义。

决策逻辑：

将 MDE 与预先设定的目标效应大小（你所关心的最小效应）进行比较：

P 值	事后 MDE 与目标比较	解读	行动
p < α	—	检测到显著效应	进入决策（上线/不上线）
p ≥ α	MDE ≤ 目标	功效充足但无效应	接受无效应结论。处理无效。
p ≥ α	MDE > 目标	功效不足	结论不确定。延长实验或增加样本量。

Delta 方法

定义

Delta 方法用于计算比率指标的方差——即由两个相关随机变量的比值定义的指标（如每次会话的点击数、每次购买的营收）。

为什么需要它

标准方差公式假设分子和分母相互独立。但对于比率指标，两者来自同一批用户，存在必须考虑的相关性。

示例："每次会话的点击数"——点击和会话来自同一用户群体。会话更多的用户自然会产生更多点击。忽略这种相关性会低估方差。

计算方法

对于比率 $\bar{R} = \bar{X} / \bar{Y}$ ：

Var(R̄) ≈ (X̄/Ȳ)² × [Var(X̄)/X̄² + Var(Ȳ)/Ȳ² - 2·Cov(X̄,Ȳ)/(X̄·Ȳ)]

展开后：

Var(R̄) ≈ (1/Ȳ²) × [Var(X̄) + R̄² · Var(Ȳ) - 2R̄ · Cov(X̄, Ȳ)]

Delta方法的另一用途：相对提升

当计算相对变化量（百分比变化）的置信区间时，Delta 方法提供了一种启发式近似：

Var(Δ X̄ %) ≈ Var(Δ X̄) / X̄_control²

该近似在总体较大时收敛。

统计方法 ​

置信区间 ​

定义 ​

计算方法 ​

P 值 ​

定义 ​

如何解读 ​

统计功效 ​

定义 ​

功效公式 ​

影响功效的因素 ​

MDE（最小可检测效应） ​

定义 ​

如何使用：解读不显著的结果 ​

Delta 方法 ​

定义 ​

为什么需要它 ​

计算方法 ​

Delta方法的另一用途：相对提升 ​

统计方法

置信区间

定义

计算方法

P 值

定义

如何解读

统计功效

定义

功效公式

影响功效的因素

MDE（最小可检测效应）

定义

如何使用：解读不显著的结果

Delta 方法

定义

为什么需要它

计算方法

Delta方法的另一用途：相对提升