多臂老虎机实验(MAB)
多臂老虎机实验(MAB Experiment,Multi-Armed Bandit)是 ABC 平台为「边测边优化」场景专门设计的实验类型。与传统 A/B 固定分流不同,MAB 在运行过程中会自动把更多流量分配给表现更好的组——一边收集数据,一边把流量集中到优胜者,最大限度减少在差变体上「浪费」的流量。
为什么需要 MAB 实验
传统层域实验是「先固定流量比例,跑够时间再决策」——所有变体不论好坏都按既定比例承担流量,决策前差变体可能已经造成显著的机会成本损失。
场景对比
| 业务诉求 | 传统分层实验 | MAB 实验 |
|---|---|---|
| 限时活动期间快速择优 | 即使某变体明显差,活动期间也按固定比例继续承担流量 | 系统自动把流量从差变体抽走,集中到优胜组 |
| 5 个广告素材比谁点击率高 | 5 组都得跑够样本量 | 表现差的素材几小时内流量被压到最低保障线 |
| 持续上线策略迭代 | 每个新策略都要从 0 开始平均分配流量 | 表现优的新策略自动获得更多流量 |
| 严格统计显著性证明 | 强项 | MAB 不输出严格的 P 值,不适合 |
什么时候用 MAB 实验
场景 1:限时活动多素材择优
背景:大促活动 banner 有 5 个候选素材,活动期只有 3 天。如果用传统 A/B,3 天可能还跑不出显著结论;用 MAB,差素材几小时内就被压低流量。
| 操作 | 详情 |
|---|---|
| 优化指标 | 点击率(click_through_rate) |
| 流量更新频率 | 10 分钟 |
| 计算窗口 | Custom window 1 小时(避免活动初期数据稀释近期表现) |
| 效果 | 12 小时内系统已把约 80% 流量集中到点击率最高的素材,整个活动期总点击量显著提升 |
场景 2:推荐策略持续优化
背景:测试推荐算法的几个新参数组合,希望在不影响整体收入的前提下,让表现更好的策略自动获得更多流量。
| 操作 | 详情 |
|---|---|
| 优化指标 | 单用户广告收入(user_ad_revenue) |
| 最低流量保障 | 每组 10%(保留持续探索空间) |
| 更新频率 | 30 分钟 |
| 价值 | 不需要在「探索新策略」和「防止收入下滑」之间二选一——MAB 自动平衡 |
场景 3:商业化定价快速决策
背景:上线一个新礼包,想快速找到付费率最高的定价点(候选 6 / 12 / 30 / 68 元),但又不想让大量用户长期看到劣质定价。
| 操作 | 详情 |
|---|---|
| 优化指标 | 礼包付费转化率(gift_purchase_rate) |
| 计算窗口 | Custom window 6 小时(捕捉每日付费高峰特征) |
| 效果 | 24 小时后流量集中到最优定价 |
场景 4:降低差变体的机会成本
背景:测一个有风险的新方案——如果它差,不希望太多用户长期承担它的负面影响。
| 操作 | 详情 |
|---|---|
| 优化指标 | 用户留存率(retention_rate) |
| 分组初始流量 | Control 50% / Treatment_A 50% |
| 最低流量 | Treatment_A 5%(如果方案差,最低保留 5% 持续观察,剩余流量回到 Control) |
| 价值 | 最低流量保障实现「风险止血」,让差方案的伤害可控 |
不适用场景
- 需要严格统计显著性的关键决策(如付费策略 A/B、是否上线高风险新功能)→ 用分层实验
- 需要固定流量比例、不允许任何变动(合规要求、对照实验)→ 用分层实验
- 关键指标本身有强季节性 / 时段性(白天 vs 夜晚差异极大)→ 慎用 MAB,否则系统可能被时段噪声误导
核心能力
1. 动态流量调整——自动向赢家倾斜
系统按设定的更新频率(10 / 30 / 60 分钟)重新评估各组表现,表现越好的组下一周期获得越多流量。差变体的流量会被自动抽走,不需要人工干预。
2. 最低流量保障——保留探索空间
每组都有 Minimum Traffic 下限,即使表现暂时落后,系统也会保留这一比例继续观察——避免因短期波动过早「放弃」某个方案。
设置建议:探索性实验留 10%~20%,活动期快速择优可压到 5%。
3. 灵活的指标计算窗口
| 窗口模式 | 适用场景 |
|---|---|
| Since experiment start(累计) | 业务指标稳定、无明显时段差异 |
| Custom window(滑动窗口) | 业务指标波动大、时效性强(如活动期间);避免早期数据稀释近期表现 |
4. 概率化收敛判断——基于贝叶斯模型
MAB 不像传统 A/B 设定固定结束时间,而是通过贝叶斯后验概率判断收敛:
- 每个更新周期收集各组指标数据
- 基于已有数据计算各组「成为最优」的后验概率
- Results 页会展示各组的优胜概率(如 Control 5%、Treatment_A 95%)
简单理解:数据越多 → 越确定谁好 → 流量越集中。
创建路径
创建入口:

使用路径: 
三段创建详解
基础信息

- 实验 ID:唯一标识,仅字母 / 数字 / 下划线
- 负责人:默认当前账号
- 层(可选):如需与同层其他实验流量互斥时填写
假设与指标

- 假设:实验假设描述
- 优化指标(Target Optimization Metric):必须 1 个——驱动 MAB 流量分配的唯一指标
- 观测指标(Observation Metrics):最多 5 个,仅用于监控,不影响流量分配
- 流量更新频率:10 / 30 / 60 分钟
- 指标计算窗口:累计 / 自定义滑动窗口
流量与分组

- 流量分配:实验占用的总流量百分比
- 实验分组:默认 Control + Treatment_A,各 50%
- Traffic Distribution:各组初始占比
- Minimum Traffic:该组最低流量保障比例(不能超过该组的 Traffic Distribution)
- 参数:为每个分组配置不同参数值
- 白名单(可选):上线前 QA 验证用
- 定向受众(可选):如只对特定人群生效
配置约束:MAB Minimum Traffic 不能超过该组的 Traffic Distribution。例如某组 Traffic Distribution 为 50%,则其 Minimum Traffic 最多 50%。
流量分配的工作机制
每个更新周期,系统执行以下步骤:

举例:实验启动后 1 小时(更新频率 10 分钟,已运行 6 个周期)
| 组 | 初始流量 | 当前优胜概率 | 当前流量 | 趋势 |
|---|---|---|---|---|
| Control | 33% | 12% | 15% | 下降 |
| Treatment_A | 33% | 20% | 20% | 持平 |
| Treatment_B | 33% | 68% | 65% | 上升 |
价值总结
| 价值 | 具体收益 |
|---|---|
| 降低机会成本 | 差变体不再长期承担流量,整个实验期总指标产出显著高于固定分流 |
| 加速择优 | 多变体场景下尤其明显——5 个素材里最优胜者通常 24 小时内就被识别 |
| 持续探索 | Minimum Traffic 保证持续探索,避免短期波动让系统过早「放弃」某方案 |
| 风险可控 | 较低的初始流量 + 最低流量保障,可让高风险新方案的伤害可控 |
| 自动化运行 | 不需要人工每天盯着实验调流量 |