Skip to content

多臂老虎机实验(MAB)

多臂老虎机实验(MAB Experiment,Multi-Armed Bandit)是 ABC 平台为「边测边优化」场景专门设计的实验类型。与传统 A/B 固定分流不同,MAB 在运行过程中会自动把更多流量分配给表现更好的组——一边收集数据,一边把流量集中到优胜者,最大限度减少在差变体上「浪费」的流量。

为什么需要 MAB 实验

传统层域实验是「先固定流量比例,跑够时间再决策」——所有变体不论好坏都按既定比例承担流量,决策前差变体可能已经造成显著的机会成本损失。

场景对比

业务诉求传统分层实验MAB 实验
限时活动期间快速择优即使某变体明显差,活动期间也按固定比例继续承担流量系统自动把流量从差变体抽走,集中到优胜组
5 个广告素材比谁点击率高5 组都得跑够样本量表现差的素材几小时内流量被压到最低保障线
持续上线策略迭代每个新策略都要从 0 开始平均分配流量表现优的新策略自动获得更多流量
严格统计显著性证明强项MAB 不输出严格的 P 值,不适合

什么时候用 MAB 实验

场景 1:限时活动多素材择优

背景:大促活动 banner 有 5 个候选素材,活动期只有 3 天。如果用传统 A/B,3 天可能还跑不出显著结论;用 MAB,差素材几小时内就被压低流量。

操作详情
优化指标点击率(click_through_rate
流量更新频率10 分钟
计算窗口Custom window 1 小时(避免活动初期数据稀释近期表现)
效果12 小时内系统已把约 80% 流量集中到点击率最高的素材,整个活动期总点击量显著提升

场景 2:推荐策略持续优化

背景:测试推荐算法的几个新参数组合,希望在不影响整体收入的前提下,让表现更好的策略自动获得更多流量。

操作详情
优化指标单用户广告收入(user_ad_revenue
最低流量保障每组 10%(保留持续探索空间)
更新频率30 分钟
价值不需要在「探索新策略」和「防止收入下滑」之间二选一——MAB 自动平衡

场景 3:商业化定价快速决策

背景:上线一个新礼包,想快速找到付费率最高的定价点(候选 6 / 12 / 30 / 68 元),但又不想让大量用户长期看到劣质定价。

操作详情
优化指标礼包付费转化率(gift_purchase_rate
计算窗口Custom window 6 小时(捕捉每日付费高峰特征)
效果24 小时后流量集中到最优定价

场景 4:降低差变体的机会成本

背景:测一个有风险的新方案——如果它差,不希望太多用户长期承担它的负面影响。

操作详情
优化指标用户留存率(retention_rate
分组初始流量Control 50% / Treatment_A 50%
最低流量Treatment_A 5%(如果方案差,最低保留 5% 持续观察,剩余流量回到 Control)
价值最低流量保障实现「风险止血」,让差方案的伤害可控

不适用场景

  • 需要严格统计显著性的关键决策(如付费策略 A/B、是否上线高风险新功能)→ 用分层实验
  • 需要固定流量比例、不允许任何变动(合规要求、对照实验)→ 用分层实验
  • 关键指标本身有强季节性 / 时段性(白天 vs 夜晚差异极大)→ 慎用 MAB,否则系统可能被时段噪声误导

核心能力

1. 动态流量调整——自动向赢家倾斜

系统按设定的更新频率(10 / 30 / 60 分钟)重新评估各组表现,表现越好的组下一周期获得越多流量。差变体的流量会被自动抽走,不需要人工干预。

2. 最低流量保障——保留探索空间

每组都有 Minimum Traffic 下限,即使表现暂时落后,系统也会保留这一比例继续观察——避免因短期波动过早「放弃」某个方案。

设置建议:探索性实验留 10%~20%,活动期快速择优可压到 5%。

3. 灵活的指标计算窗口

窗口模式适用场景
Since experiment start(累计)业务指标稳定、无明显时段差异
Custom window(滑动窗口)业务指标波动大、时效性强(如活动期间);避免早期数据稀释近期表现

4. 概率化收敛判断——基于贝叶斯模型

MAB 不像传统 A/B 设定固定结束时间,而是通过贝叶斯后验概率判断收敛:

  • 每个更新周期收集各组指标数据
  • 基于已有数据计算各组「成为最优」的后验概率
  • Results 页会展示各组的优胜概率(如 Control 5%、Treatment_A 95%)

简单理解:数据越多 → 越确定谁好 → 流量越集中

创建路径

创建入口:

MAB 实验创建入口

使用路径: MAB 实验配置流程

三段创建详解

基础信息

MAB 实验基础信息

  • 实验 ID:唯一标识,仅字母 / 数字 / 下划线
  • 负责人:默认当前账号
  • (可选):如需与同层其他实验流量互斥时填写

假设与指标

MAB 假设与指标配置

  • 假设:实验假设描述
  • 优化指标(Target Optimization Metric)必须 1 个——驱动 MAB 流量分配的唯一指标
  • 观测指标(Observation Metrics):最多 5 个,仅用于监控,不影响流量分配
  • 流量更新频率:10 / 30 / 60 分钟
  • 指标计算窗口:累计 / 自定义滑动窗口

流量与分组

MAB 实验流量与分组

  • 流量分配:实验占用的总流量百分比
  • 实验分组:默认 Control + Treatment_A,各 50%
    • Traffic Distribution:各组初始占比
    • Minimum Traffic:该组最低流量保障比例(不能超过该组的 Traffic Distribution
  • 参数:为每个分组配置不同参数值
  • 白名单(可选):上线前 QA 验证用
  • 定向受众(可选):如只对特定人群生效

配置约束:MAB Minimum Traffic 不能超过该组的 Traffic Distribution。例如某组 Traffic Distribution 为 50%,则其 Minimum Traffic 最多 50%。


流量分配的工作机制

每个更新周期,系统执行以下步骤:

MAB 流量分配循环

举例:实验启动后 1 小时(更新频率 10 分钟,已运行 6 个周期)

初始流量当前优胜概率当前流量趋势
Control33%12%15%下降
Treatment_A33%20%20%持平
Treatment_B33%68%65%上升

价值总结

价值具体收益
降低机会成本差变体不再长期承担流量,整个实验期总指标产出显著高于固定分流
加速择优多变体场景下尤其明显——5 个素材里最优胜者通常 24 小时内就被识别
持续探索Minimum Traffic 保证持续探索,避免短期波动让系统过早「放弃」某方案
风险可控较低的初始流量 + 最低流量保障,可让高风险新方案的伤害可控
自动化运行不需要人工每天盯着实验调流量