多臂老虎机实验（MAB）

多臂老虎机实验（MAB Experiment，Multi-Armed Bandit）是 ABC 平台为「边测边优化」场景专门设计的实验类型。与传统 A/B 固定分流不同，MAB 在运行过程中会自动把更多流量分配给表现更好的组——一边收集数据，一边把流量集中到优胜者，最大限度减少在差变体上「浪费」的流量。

为什么需要 MAB 实验

传统层域实验是「先固定流量比例，跑够时间再决策」——所有变体不论好坏都按既定比例承担流量，决策前差变体可能已经造成显著的机会成本损失。

场景对比

业务诉求	传统分层实验	MAB 实验
限时活动期间快速择优	即使某变体明显差，活动期间也按固定比例继续承担流量	系统自动把流量从差变体抽走，集中到优胜组
5 个广告素材比谁点击率高	5 组都得跑够样本量	表现差的素材几小时内流量被压到最低保障线
持续上线策略迭代	每个新策略都要从 0 开始平均分配流量	表现优的新策略自动获得更多流量
严格统计显著性证明	强项	MAB 不输出严格的 P 值，不适合

什么时候用 MAB 实验

场景 1：限时活动多素材择优

背景：大促活动 banner 有 5 个候选素材，活动期只有 3 天。如果用传统 A/B，3 天可能还跑不出显著结论；用 MAB，差素材几小时内就被压低流量。

操作	详情
优化指标	点击率（`click_through_rate`）
流量更新频率	10 分钟
计算窗口	Custom window 1 小时（避免活动初期数据稀释近期表现）
效果	12 小时内系统已把约 80% 流量集中到点击率最高的素材，整个活动期总点击量显著提升

场景 2：推荐策略持续优化

背景：测试推荐算法的几个新参数组合，希望在不影响整体收入的前提下，让表现更好的策略自动获得更多流量。

操作	详情
优化指标	单用户广告收入（`user_ad_revenue`）
最低流量保障	每组 10%（保留持续探索空间）
更新频率	30 分钟
价值	不需要在「探索新策略」和「防止收入下滑」之间二选一——MAB 自动平衡

场景 3：商业化定价快速决策

背景：上线一个新礼包，想快速找到付费率最高的定价点（候选 6 / 12 / 30 / 68 元），但又不想让大量用户长期看到劣质定价。

操作	详情
优化指标	礼包付费转化率（`gift_purchase_rate`）
计算窗口	Custom window 6 小时（捕捉每日付费高峰特征）
效果	24 小时后流量集中到最优定价

场景 4：降低差变体的机会成本

背景：测一个有风险的新方案——如果它差，不希望太多用户长期承担它的负面影响。

操作	详情
优化指标	用户留存率（`retention_rate`）
分组初始流量	Control 50% / Treatment_A 50%
最低流量	Treatment_A 5%（如果方案差，最低保留 5% 持续观察，剩余流量回到 Control）
价值	最低流量保障实现「风险止血」，让差方案的伤害可控

不适用场景

需要严格统计显著性的关键决策（如付费策略 A/B、是否上线高风险新功能）→ 用分层实验
需要固定流量比例、不允许任何变动（合规要求、对照实验）→ 用分层实验
关键指标本身有强季节性 / 时段性（白天 vs 夜晚差异极大）→ 慎用 MAB，否则系统可能被时段噪声误导

核心能力

1. 动态流量调整——自动向赢家倾斜

系统按设定的更新频率（10 / 30 / 60 分钟）重新评估各组表现，表现越好的组下一周期获得越多流量。差变体的流量会被自动抽走，不需要人工干预。

2. 最低流量保障——保留探索空间

每组都有 Minimum Traffic 下限，即使表现暂时落后，系统也会保留这一比例继续观察——避免因短期波动过早「放弃」某个方案。

设置建议：探索性实验留 10%~20%，活动期快速择优可压到 5%。

3. 灵活的指标计算窗口

窗口模式	适用场景
Since experiment start（累计）	业务指标稳定、无明显时段差异
Custom window（滑动窗口）	业务指标波动大、时效性强（如活动期间）；避免早期数据稀释近期表现

4. 概率化收敛判断——基于贝叶斯模型

MAB 不像传统 A/B 设定固定结束时间，而是通过贝叶斯后验概率判断收敛：

每个更新周期收集各组指标数据
基于已有数据计算各组「成为最优」的后验概率
Results 页会展示各组的优胜概率（如 Control 5%、Treatment_A 95%）

简单理解：数据越多 → 越确定谁好 → 流量越集中。

创建路径

创建入口：

MAB 实验创建入口

使用路径： MAB 实验配置流程

三段创建详解

基础信息

MAB 实验基础信息

实验 ID：唯一标识，仅字母 / 数字 / 下划线
负责人：默认当前账号
层（可选）：如需与同层其他实验流量互斥时填写

假设与指标

MAB 假设与指标配置

假设：实验假设描述
优化指标（Target Optimization Metric）：必须 1 个——驱动 MAB 流量分配的唯一指标
观测指标（Observation Metrics）：最多 5 个，仅用于监控，不影响流量分配
流量更新频率：10 / 30 / 60 分钟
指标计算窗口：累计 / 自定义滑动窗口

流量与分组

MAB 实验流量与分组

流量分配：实验占用的总流量百分比
实验分组：默认 Control + Treatment_A，各 50%
- Traffic Distribution：各组初始占比
- Minimum Traffic：该组最低流量保障比例（不能超过该组的 Traffic Distribution）
参数：为每个分组配置不同参数值
白名单（可选）：上线前 QA 验证用
定向受众（可选）：如只对特定人群生效

配置约束：MAB Minimum Traffic 不能超过该组的 Traffic Distribution。例如某组 Traffic Distribution 为 50%，则其 Minimum Traffic 最多 50%。

流量分配的工作机制

每个更新周期，系统执行以下步骤：

MAB 流量分配循环

举例：实验启动后 1 小时（更新频率 10 分钟，已运行 6 个周期）

组	初始流量	当前优胜概率	当前流量	趋势
Control	33%	12%	15%	下降
Treatment_A	33%	20%	20%	持平
Treatment_B	33%	68%	65%	上升

价值总结

价值	具体收益
降低机会成本	差变体不再长期承担流量，整个实验期总指标产出显著高于固定分流
加速择优	多变体场景下尤其明显——5 个素材里最优胜者通常 24 小时内就被识别
持续探索	Minimum Traffic 保证持续探索，避免短期波动让系统过早「放弃」某方案
风险可控	较低的初始流量 + 最低流量保障，可让高风险新方案的伤害可控
自动化运行	不需要人工每天盯着实验调流量

多臂老虎机实验（MAB） ​

为什么需要 MAB 实验 ​

场景对比 ​

什么时候用 MAB 实验 ​

场景 1：限时活动多素材择优 ​

场景 2：推荐策略持续优化 ​

场景 3：商业化定价快速决策 ​

场景 4：降低差变体的机会成本 ​

不适用场景 ​

核心能力 ​

1. 动态流量调整——自动向赢家倾斜 ​

2. 最低流量保障——保留探索空间 ​

3. 灵活的指标计算窗口 ​

4. 概率化收敛判断——基于贝叶斯模型 ​

创建路径 ​

三段创建详解 ​

基础信息 ​

假设与指标 ​

流量与分组 ​

流量分配的工作机制 ​

价值总结 ​