解读结果

本页面帮助你理解实验跑起来之后，Results 标签上各项内容的含义。按页面从上到下顺序走一遍。

为什么要关心这个：你的消除游戏已经跑了一周的新奖励弹窗测试。Results 页出现了绿色的条、灰色的条、各种百分比——这些是什么意思？看完这一页，你就能自信地判断该上线、继续跑还是关掉实验。

还在配置实验？请先看创建与上线实验和配置统计引擎与样本校验。

入口

左侧导航点 Experiments → 选择实验进入详情页 → 切换到 Results 标签。页头始终显示实验状态，运行期间还会出现 Make Decision 按钮。实验 Results 标签入口

分享技巧：页面 URL 包含你当前看到的所有配置。直接发给同事，对方打开就是你看到的同一份视图——不用额外解释。

从上到下阅读

1. Suggestion 横幅

页面顶部一句话结论，告诉你实验当前状态。

看到什么	意味着什么	下一步
Suggestion to add primary metrics	没选主指标	添加一个才能看到图表
Collecting data…	数据不够	继续让实验跑
A better group has been found	已有显著胜出方	评估是否 Ship
No winning variant found	跑完无显著差异	评估是否 Archive
Risk warning（红色）	触发高风险操作	立即停止读 headline，先排查

游戏场景：你昨天上线了新手引导 A/B 测试，今天打开看到 Collecting data…——这很正常。大部分休闲游戏需要 7–14 天才有足够信号，别急着下结论。

2. 累计曝光（Cumulative Exposures）

结果页顶部是「累计曝光趋势图」。曝光指进入实验的去重实验单元数，通常为去重用户数；对于设备级实验，则为设备数。时间线展示了实验的启动时间，以及每一天有多少曝光进入实验。你可以查看用户进入各实验分组的速率、累计总曝光数，并确认实际流量配比与你在实验设置页中配置的目标配比是否一致。曝光趋势图详情当出现「样本不均衡（SRM）」时，图中会以红点标记。其成因是各实验分组的累计曝光占比，与实验设置页中配置的流量分配不一致。

3. 三种分析视图

视图	用途
基础分析（Basic Analysis）（默认）	「这个实验赢了没」——Control 与一个 Treatment 的正面对比
下钻分析（Explore）	看实验指标集之外的指标，或同时对比多个 Treatment（最多 30 指标 × 5 变体）
HTE 分析	怀疑效果集中在某个玩家群体（如付费 vs 免费），想确认

基础分析（Basic Analysis）

基础分析页展示你在创建实验时配置的所有指标的相对差异（Lift）。实验「结果（Results）」每日运行任务，计算各随机分组（如实验组与对照组）在每个指标上的差异，并对结果进行统计检验。

标题

指标表逐行对比 Control 和 Treatment：

列	含义
指标名	旁边可能带 CUPED On / Off 标记
Baseline	对照组的值
Comparison	实验组的值
相对差	Treatment 相比 Control 的变化幅度，附置信区间
Trends	差异随时间的变化趋势小图

看颜色：

绿色 —— Treatment 显著优于 Control，赢了
红色 —— Treatment 显著劣于 Control，有问题
灰色 —— 暂无显著差异

游戏场景：测试转盘抽奖是否比静态宝箱更能提升 D7 留存。10 天后留存行绿色 +2.3%，护栏指标（ARPU、广告观看）灰色——干净的赢面，可放心上线转盘。

实验指标结果表相对差异（Lift）的计算公式为：Delta(%) = (Test - Control) / Control 置信区间基于所选的显著性水平计算（默认 95%）。

CUPED 标记

CUPED On = 方差减少已生效，结果更可靠
CUPED Off = 该指标类型不支持，悬停可看原因

CUPED 通常能让实验提前 3–7 天出结论——通过消除玩家天然行为波动（周末猛玩 vs 平日偶尔上线）降低噪声。

下钻分析（Explore）

即席查询，不改实验配置。选指标、选变体、设日期范围，点 Query。

什么时候用：

一张图对比所有 Treatment 与 Control
同事问「对局时长有没有变化」——一个不在实验主指标里的指标
临时探索一个想法，不想动实验本身

游戏场景：主指标是 D7 留存，但商业化同事想知道新弹窗是否影响 IAP 转化率。打开 Explore 加上 IAP 转化指标——不用动实验设置。

HTE 异质性分析

回答「效果对所有玩家都一样，还是不同群体有差异」。

操作步骤：

顶部选择基准组（默认 Control）
设置日期范围
如需筛选特定人群，点 Sample Filtering 添加过滤条件
在 Metrics 添加关注的指标（最多 10 个）
在 Group By 选择一个分群维度（玩家等级段、国家、消费层级）
点 Query

查询结果在下方 Metric Details 区域展示各子群体的实验效果差异。实验组多时，可开启右上角 Multiple Comparison Correction 控制误判风险。

游戏场景：新难度曲线整体显示微弱正向提升。但按玩家等级分群后发现：50 级以上 +5%，新玩家反而 –1%。HTE 揭示了这一点——如果不分群就直接全量上线，新玩家会因难度不适配加速流失，整体留存的「微弱提升」其实是被老玩家拉上去的假象。

实验回溯（Backtrack）：样本平衡的二次确认

ABC 在每个实验上自动跑的样本平衡校验，回答：「最近这段流量上各变体之间是否真的可比？」

结果显示在两处：

实验头部小标签（✓ Normal / - - 占位）
独立的回溯页面，列出真实的分指标差异

实战用法：

看到 ✓ Normal → 可以信任 Suggestion 和指标表
看到 - - → 实验还没积累到足够数据，等几小时
临界结果犹豫时 → 切到 7-Day 标签，把 7 天和 3 天对比一下
给实验补绑了新指标 → 用 Rerun Backtrack 立即重跑

回溯 vs SRM：都在检查平衡，但范围不同——SRM 覆盖整个实验从开始到现在，回溯只覆盖最近 3 / 7 天。一个长跑实验如果开局正常、后期漂移，可能 SRM 通过、3 天回溯不通过。

完整说明见配置统计引擎与样本校验。

Advanced Query：强制重算

Advanced Query 按钮（日期选择器旁）用于强制重新计算，适用：

你刚加了新指标，不想等明天的自动计算
指标定义或数据源更新了，需要刷新数字

点开后选择要重算的指标，点 Query。如果需要从头全量重算，打开 Rerun Data 开关。

下一步：做出决策

读懂结果后，点实验顶部的 Make Decision 按钮上线胜出变体或归档实验。详见结束实验与决策。

解读结果 ​

入口 ​

从上到下阅读 ​

1. Suggestion 横幅 ​

2. 累计曝光（Cumulative Exposures） ​

3. 三种分析视图 ​

基础分析（Basic Analysis） ​

标题 ​

CUPED 标记 ​

下钻分析（Explore） ​

HTE 异质性分析 ​

实验回溯（Backtrack）：样本平衡的二次确认 ​

Advanced Query：强制重算 ​

下一步：做出决策 ​