广告位 A/B 测试的执行清单

明确实验目标、分流比例、观察周期和成功指标，避免用波动当结论。

实验问题要小一点

A/B 测试最怕同时改太多东西。频次、样式、底价、广告源顺序一起变，结果就算上涨，也不知道是谁起作用。

每次只选一个主要变量，其他条件尽量保持一致。实验目标越小，结论越容易复用。

如果团队人手有限，优先保证这件事能被复盘。每次改动只要写清楚时间、范围、负责人和观察口径，后续即使数据没有明显提升，也能知道下一步该收窄问题还是更换假设。

手册里的方法最好能直接变成检查动作。不要只写原则，而要落到谁看数据、什么时候看、看完以后怎么处理。这样文档才不会停留在培训材料里，而是能进入每周工作。这里不建议只用单日数据做判断。广告主预算、用户来源和版本分布都会带来噪声，至少要看趋势和异常点是否同时出现。

分流比例、用户范围、地区范围和观察周期要在开始前定好。中途频繁改比例，会让样本失去可比性。

如果流量不大，不要强行在很短时间内下结论。广告预算和用户行为都有自然波动。

把“分流要稳定，不要临时换”放到真实项目里看，关键是不要只留下一个口头判断。可以把当前广告位、影响地区、触发入口和预期变化写在同一张记录里，等数据回来后再逐项对照。这样做看起来慢一点，但能避免团队在复盘时只记得结果，却说不清当时为什么这么调。

手册里的方法最好能直接变成检查动作。不要只写原则，而要落到谁看数据、什么时候看、看完以后怎么处理。这样文档才不会停留在培训材料里，而是能进入每周工作。如果数据和预期相反，先检查埋点、广告位 ID、版本范围和地区拆分。基础口径错了，后面的策略讨论都会偏。

测试开始前就要写清楚看什么：收益、展示率、eCPM、留存、关闭率、投诉，还是核心流程完成率。

如果测试结束后才挑对自己有利的指标，实验就失去意义。商业化实验尤其要避免只看收益。

执行时可以先选一个代表性广告位小范围验证。收益提升不是唯一指标。留存、崩溃、页面停留、投诉和关闭率也要一起看。这类判断如果直接推到全量流量，出现异常时排查成本会很高；先用小样本确认链路，再决定是否扩大，通常更稳。

手册里的方法最好能直接变成检查动作。不要只写原则，而要落到谁看数据、什么时候看、看完以后怎么处理。这样文档才不会停留在培训材料里，而是能进入每周工作。比较稳妥的做法是保留回滚路径。任何会影响核心流程或大额流量的调整，都应该知道撤回后会恢复到哪一套配置。

出现无法关闭、奖励错发、崩溃增加、核心流程下降时，先停止实验。A/B 测试不是为了把错误跑满样本。

保留异常截图、日志和时间点，后续复盘会更快。

这里还有一个容易被忽视的点：同一套配置在不同版本、不同国家、不同入口里表现可能完全不同。不要把总表里的平均数当成结论，最好保留拆分维度，让后续调整有可回看的依据。

手册里的方法最好能直接变成检查动作。不要只写原则，而要落到谁看数据、什么时候看、看完以后怎么处理。这样文档才不会停留在培训材料里，而是能进入每周工作。围绕“异常先停，不要硬跑”继续往下做时，可以把观察周期控制在一个自然周左右。时间太短容易被预算和流量波动影响，时间太长又会让问题滞后。

现场提醒：A/B 测试只改一个主要变量。频次、样式、底价、广告源顺序一起改，结果通常无法解释。

好的实验结论应该能变成动作：扩大、回滚、保留观察或换一个假设。

如果结论只是“数据有波动”，说明实验设计还不够清楚。下一次要缩小变量或延长周期。

上线后的第一件事不是庆祝策略完成，而是确认真实流量里的请求、填充、展示和收益是否能对应上。只要链路可信，后续调价、加源、拆地区都会更有把握。