解读结果
本页面帮助你理解实验跑起来之后,Results 标签上各项内容的含义。按页面从上到下顺序走一遍。
为什么要关心这个:你的消除游戏已经跑了一周的新奖励弹窗测试。Results 页出现了绿色的条、灰色的条、各种百分比——这些是什么意思?看完这一页,你就能自信地判断该上线、继续跑还是关掉实验。
还在配置实验?请先看创建与上线实验和配置统计引擎与样本校验。
入口
左侧导航点 Experiments → 选择实验进入详情页 → 切换到 Results 标签。页头始终显示实验状态,运行期间还会出现 Make Decision 按钮。 
分享技巧:页面 URL 包含你当前看到的所有配置。直接发给同事,对方打开就是你看到的同一份视图——不用额外解释。
从上到下阅读
1. Suggestion 横幅
页面顶部一句话结论,告诉你实验当前状态。
| 看到什么 | 意味着什么 | 下一步 |
|---|---|---|
| Suggestion to add primary metrics | 没选主指标 | 添加一个才能看到图表 |
| Collecting data… | 数据不够 | 继续让实验跑 |
| A better group has been found | 已有显著胜出方 | 评估是否 Ship |
| No winning variant found | 跑完无显著差异 | 评估是否 Archive |
| Risk warning(红色) | 触发高风险操作 | 立即停止读 headline,先排查 |
游戏场景:你昨天上线了新手引导 A/B 测试,今天打开看到 Collecting data…——这很正常。大部分休闲游戏需要 7–14 天才有足够信号,别急着下结论。
2. 累计曝光(Cumulative Exposures)
结果页顶部是「累计曝光趋势图」。曝光指进入实验的去重实验单元数,通常为去重用户数;对于设备级实验,则为设备数。时间线展示了实验的启动时间,以及每一天有多少曝光进入实验。你可以查看用户进入各实验分组的速率、累计总曝光数,并确认实际流量配比与你在实验设置页中配置的目标配比是否一致。
当出现「样本不均衡(SRM)」时,图中会以红点标记。其成因是各实验分组的累计曝光占比,与实验设置页中配置的流量分配不一致。
3. 三种分析视图
| 视图 | 用途 |
|---|---|
| 基础分析(Basic Analysis)(默认) | 「这个实验赢了没」——Control 与一个 Treatment 的正面对比 |
| 下钻分析(Explore) | 看实验指标集之外的指标,或同时对比多个 Treatment(最多 30 指标 × 5 变体) |
| HTE 分析 | 怀疑效果集中在某个玩家群体(如付费 vs 免费),想确认 |
基础分析(Basic Analysis)
展示你在创建实验时配置的所有指标的相对差异(Lift)。实验「结果(Results)」每日运行任务,计算各随机分组(如实验组与对照组)在每个指标上的差异,并对结果进行统计检验。
标题
指标表逐行对比 Control 和 Treatment:
| 列 | 含义 |
|---|---|
| 指标名 | 旁边可能带 CUPED On / Off 标记 |
| Baseline | 对照组的值 |
| Comparison | 实验组的值 |
| 相对差 | Treatment 相比 Control 的变化幅度,附置信区间 |
| Trends | 差异随时间的变化趋势小图 |
看颜色:
- 绿色 —— Treatment 显著优于 Control,赢了
- 红色 —— Treatment 显著劣于 Control,有问题
- 灰色 —— 暂无显著差异
游戏场景:测试转盘抽奖是否比静态宝箱更能提升 D7 留存。10 天后留存行绿色 +2.3%,护栏指标(ARPU、广告观看)灰色——干净的赢面,可放心上线转盘。
相对差异(Lift)的计算公式为:Delta(%) = (Test - Control) / Control 置信区间基于所选的显著性水平计算(默认 95%)。
CUPED 标记
- CUPED On = 方差减少已生效,结果更可靠
- CUPED Off = 该指标类型不支持,悬停可看原因
CUPED 通常能让实验提前 3–7 天出结论——通过消除玩家天然行为波动(周末猛玩 vs 平日偶尔上线)降低噪声。
下钻分析(Explore)
即席查询,不改实验配置。选指标、选变体、设日期范围,点 Query。
什么时候用:
- 一张图对比所有 Treatment 与 Control
- 同事问「对局时长有没有变化」——一个不在实验主指标里的指标
- 临时探索一个想法,不想动实验本身
游戏场景:主指标是 D7 留存,但商业化同事想知道新弹窗是否影响 IAP 转化率。打开 Explore 加上 IAP 转化指标——不用动实验设置。
HTE 异质性分析
回答「效果对所有玩家都一样,还是不同群体有差异」。
操作步骤:
- 顶部选择基准组(默认 Control)
- 设置日期范围
- 如需筛选特定人群,点 Sample Filtering 添加过滤条件
- 在 Metrics 添加关注的指标(最多 10 个)
- 在 Group By 选择一个分群维度(玩家等级段、国家、消费层级)
- 点 Query
查询结果在下方 Metric Details 区域展示各子群体的实验效果差异。实验组多时,可开启右上角 Multiple Comparison Correction 控制误判风险。
游戏场景:新难度曲线整体显示微弱正向提升。但按玩家等级分群后发现:50 级以上 +5%,新玩家反而 –1%。HTE 揭示了这一点——如果不分群就直接全量上线,新玩家会因难度不适配加速流失,整体留存的「微弱提升」其实是被老玩家拉上去的假象。
实验回溯(Backtrack):样本平衡的二次确认
ABC 在每个实验上自动跑的样本平衡校验,回答:「最近这段流量上各变体之间是否真的可比?」
结果显示在两处:
- 实验头部小标签(✓ Normal /
- -占位) - 独立的回溯页面,列出真实的分指标差异
实战用法:
- 看到 ✓ Normal → 可以信任 Suggestion 和指标表
- 看到
- -→ 实验还没积累到足够数据,等几小时 - 临界结果犹豫时 → 切到 7-Day 标签,把 7 天和 3 天对比一下
- 给实验补绑了新指标 → 用 Rerun Backtrack 立即重跑
回溯 vs SRM:都在检查平衡,但范围不同——SRM 覆盖整个实验从开始到现在,回溯只覆盖最近 3 / 7 天。一个长跑实验如果开局正常、后期漂移,可能 SRM 通过、3 天回溯不通过。
完整说明见配置统计引擎与样本校验。
Advanced Query:强制重算
Advanced Query 按钮(日期选择器旁)用于强制重新计算,适用:
- 你刚加了新指标,不想等明天的自动计算
- 指标定义或数据源更新了,需要刷新数字
点开后选择要重算的指标,点 Query。如果需要从头全量重算,打开 Rerun Data 开关。
下一步:做出决策
读懂结果后,点实验顶部的 Make Decision 按钮上线胜出变体或归档实验。详见结束实验与决策。