Skip to content

解读结果

本页面帮助你理解实验跑起来之后,Results 标签上各项内容的含义。按页面从上到下顺序走一遍。

为什么要关心这个:你的消除游戏已经跑了一周的新奖励弹窗测试。Results 页出现了绿色的条、灰色的条、各种百分比——这些是什么意思?看完这一页,你就能自信地判断该上线、继续跑还是关掉实验。

还在配置实验?请先看创建与上线实验配置统计引擎与样本校验

入口

左侧导航点 Experiments → 选择实验进入详情页 → 切换到 Results 标签。页头始终显示实验状态,运行期间还会出现 Make Decision 按钮。 实验 Results 标签入口

分享技巧:页面 URL 包含你当前看到的所有配置。直接发给同事,对方打开就是你看到的同一份视图——不用额外解释。

从上到下阅读

1. Suggestion 横幅

页面顶部一句话结论,告诉你实验当前状态。

看到什么意味着什么下一步
Suggestion to add primary metrics没选主指标添加一个才能看到图表
Collecting data…数据不够继续让实验跑
A better group has been found已有显著胜出方评估是否 Ship
No winning variant found跑完无显著差异评估是否 Archive
Risk warning(红色)触发高风险操作立即停止读 headline,先排查

游戏场景:你昨天上线了新手引导 A/B 测试,今天打开看到 Collecting data…——这很正常。大部分休闲游戏需要 7–14 天才有足够信号,别急着下结论。

2. 累计曝光(Cumulative Exposures)

累计曝光趋势图 结果页顶部是「累计曝光趋势图」。曝光指进入实验的去重实验单元数,通常为去重用户数;对于设备级实验,则为设备数。时间线展示了实验的启动时间,以及每一天有多少曝光进入实验。你可以查看用户进入各实验分组的速率、累计总曝光数,并确认实际流量配比与你在实验设置页中配置的目标配比是否一致。 曝光趋势图详情 当出现「样本不均衡(SRM)」时,图中会以红点标记。其成因是各实验分组的累计曝光占比,与实验设置页中配置的流量分配不一致。

3. 三种分析视图

视图用途
基础分析(Basic Analysis)(默认)「这个实验赢了没」——Control 与一个 Treatment 的正面对比
下钻分析(Explore)看实验指标集之外的指标,或同时对比多个 Treatment(最多 30 指标 × 5 变体)
HTE 分析怀疑效果集中在某个玩家群体(如付费 vs 免费),想确认

基础分析(Basic Analysis)

基础分析页 展示你在创建实验时配置的所有指标的相对差异(Lift)。实验「结果(Results)」每日运行任务,计算各随机分组(如实验组与对照组)在每个指标上的差异,并对结果进行统计检验。

标题

指标表逐行对比 Control 和 Treatment:

含义
指标名旁边可能带 CUPED On / Off 标记
Baseline对照组的值
Comparison实验组的值
相对差Treatment 相比 Control 的变化幅度,附置信区间
Trends差异随时间的变化趋势小图

看颜色:

  • 绿色 —— Treatment 显著优于 Control,赢了
  • 红色 —— Treatment 显著劣于 Control,有问题
  • 灰色 —— 暂无显著差异

游戏场景:测试转盘抽奖是否比静态宝箱更能提升 D7 留存。10 天后留存行绿色 +2.3%,护栏指标(ARPU、广告观看)灰色——干净的赢面,可放心上线转盘。

实验指标结果表 相对差异(Lift)的计算公式为:Delta(%) = (Test - Control) / Control 置信区间基于所选的显著性水平计算(默认 95%)。

CUPED 标记

  • CUPED On = 方差减少已生效,结果更可靠
  • CUPED Off = 该指标类型不支持,悬停可看原因

CUPED 通常能让实验提前 3–7 天出结论——通过消除玩家天然行为波动(周末猛玩 vs 平日偶尔上线)降低噪声。

下钻分析(Explore)

即席查询,不改实验配置。选指标、选变体、设日期范围,点 Query

什么时候用:

  • 一张图对比所有 Treatment 与 Control
  • 同事问「对局时长有没有变化」——一个不在实验主指标里的指标
  • 临时探索一个想法,不想动实验本身

游戏场景:主指标是 D7 留存,但商业化同事想知道新弹窗是否影响 IAP 转化率。打开 Explore 加上 IAP 转化指标——不用动实验设置。

HTE 异质性分析

回答「效果对所有玩家都一样,还是不同群体有差异」。

操作步骤:

  1. 顶部选择基准组(默认 Control)
  2. 设置日期范围
  3. 如需筛选特定人群,点 Sample Filtering 添加过滤条件
  4. Metrics 添加关注的指标(最多 10 个)
  5. Group By 选择一个分群维度(玩家等级段、国家、消费层级)
  6. Query

查询结果在下方 Metric Details 区域展示各子群体的实验效果差异。实验组多时,可开启右上角 Multiple Comparison Correction 控制误判风险。

游戏场景:新难度曲线整体显示微弱正向提升。但按玩家等级分群后发现:50 级以上 +5%,新玩家反而 –1%。HTE 揭示了这一点——如果不分群就直接全量上线,新玩家会因难度不适配加速流失,整体留存的「微弱提升」其实是被老玩家拉上去的假象。

实验回溯(Backtrack):样本平衡的二次确认

ABC 在每个实验上自动跑的样本平衡校验,回答:「最近这段流量上各变体之间是否真的可比?」

结果显示在两处:

  • 实验头部小标签(✓ Normal / - - 占位)
  • 独立的回溯页面,列出真实的分指标差异

实战用法:

  1. 看到 ✓ Normal → 可以信任 Suggestion 和指标表
  2. 看到 - - → 实验还没积累到足够数据,等几小时
  3. 临界结果犹豫时 → 切到 7-Day 标签,把 7 天和 3 天对比一下
  4. 给实验补绑了新指标 → 用 Rerun Backtrack 立即重跑

回溯 vs SRM:都在检查平衡,但范围不同——SRM 覆盖整个实验从开始到现在,回溯只覆盖最近 3 / 7 天。一个长跑实验如果开局正常、后期漂移,可能 SRM 通过、3 天回溯不通过。

完整说明见配置统计引擎与样本校验

Advanced Query:强制重算

Advanced Query 按钮(日期选择器旁)用于强制重新计算,适用:

  • 你刚加了新指标,不想等明天的自动计算
  • 指标定义或数据源更新了,需要刷新数字

点开后选择要重算的指标,点 Query。如果需要从头全量重算,打开 Rerun Data 开关。


下一步:做出决策

读懂结果后,点实验顶部的 Make Decision 按钮上线胜出变体或归档实验。详见结束实验与决策