Skip to content

样本比例失衡检查

样本比例失衡(Sample Ratio Mismatch,简称SRM)是在线实验中常见的问题,其中随机单元(如用户)实际分配到不同实验组的比例与预定分配比例不匹配,导致估计偏差和结论错误。

什么是样本比例失衡?

在理想的在线对照实验中,随机单元(如用户)根据预定义的比例随机分配到不同的组(例如,对照组和处理组)。当观察到的单元分配与这一预期比例显著偏离时,就发生了样本比例失衡(SRM)。例如,在一个50/50分割的用户级实验中,一半的用户应该在对照组,另一半在处理组。如果观察到的分配是90/10,那么很可能发生了SRM。

为什么我应该关心?

实验设计或实施的缺陷

SRM通常指向实验设计或其实施中的缺陷。当检测到SRM时,通常表明在将用户分配到不同实验组的过程中出了问题。例如,负责用户分配的代码中的错误可能导致错误的组分配,而在高流量环境中,竞争条件或并发问题可能导致用户被错误分配。

潜在的选择偏差

随机实验的基本原则之一是将个体随机分配到对照组或测试组。这确保了可能混淆结果的外部变量在各组之间均匀分布。然而,如果实验设计或其实施中存在导致SRM的缺陷,则上述假设可能不再成立。这样的缺陷可以将选择偏差引入实验中,导致错误地将观察到的效应归因于处理,而实际上可能是由于组特征的不平衡。

伦理考虑

确保用户被公平且随机地分配到不同组不仅是一种方法论上的必要性,也是一种伦理考虑。适当的随机化通过防止可能扭曲结果的系统性偏差来保护实验的完整性。然而,SRM的失败可能导致重大的伦理和方法论问题。SRM可能导致某些用户在某些组中被不公平地排除或过度代表,从而损害研究结果的代表性和普遍性。

检查程序如何工作?

累积曝光

累积曝光提供了当前实验中考虑的不同组的累积独特曝光单元的视觉比较。这种可视化有助于评估曝光分布,并帮助确保实验组随时间得到公平对待。

皮尔逊卡方检验

累积曝光块使用α=0.001对收集的累积独特单元和配置的流量分布进行皮尔逊卡方检验,以确定SRM的存在。这种统计测试评估观察到的曝光分布是否与预期分布显著偏离,从而识别组分配中的潜在不平衡。 IMG 在检测到SRM时,图表上会出现红色指示器,伴随着警告信息。这个警告标志着实验设计或其实施中可能存在的缺陷,这些缺陷可能会损害实验结果的有效性。解决这些问题对于确保研究结果的完整性和可靠性至关重要。