关键词: 假设检验,正交实验,双重差分;
AB实验本质上就是对照实验,通过对实验对象分组,在不同分组中实行不同的策略,然后对比各组间的数据差异,从而找到最优方案。
AB实验可以在较小成本下得到有力的数据支撑,帮助产品、运营策略快速迭代更新,是分析师、产品经理常用的神兵利器。
AB实验的准确性、有效性,依赖于完备的统计学理论,其中主要应用到假设检验相关领域知识。(z检验,t检验,卡方检验等)
此外,AB实验的最基本的原则就是保证各组间除控制变量外,无其他因素影响。在整个实验过程当中,需要考虑到同一样本始终属于同一分组,也就是说一个用户不能在试验期间既进入了A组又进入了B组,A组样本与B组样本须要互斥。同时,由于样本资源有限,且可能会有同时进行多个实验的情况,此时应保证每个实验分层之间样本正交(一般要求交叉的实验之间互相独立、关联性较小,不会彼此产生影响),即X实验与Y实验同时进行且两者样本存在交集的情况下,需要保证样本在两个实验中的分布均匀。
由于实验对象本身具有较多属性,如渠道、设备型号、区域分布等等,而具有不同属性的样本,其本身就可能具有不同水平的数据表现,如不能在分流时确保A、B组中各属性的分布均匀,则需要在AB实验正式开始前进行验证,明确A、B组在没有施加不同策略的情况下本身是否具有显著差异,如表现一致则基本可以说明用户属性分布均匀,否则可能各组间具有先天的差异,可能需要重新进行分流。这种在AB实验前验证的方法就是AA实验,一般可以在用户圈选完成后,先进行分流,但不对其施加不同策略,而是在外部因素一致的条件下空跑一段时间,或者如果施加不允许时,选择无其他因素影响时的历史数据进行验证。
除了上述理论基础和前提条件外,要想实验数据有足够的可信度,还需要一定的样本量来保证。样本量越少,意味着出现第一类错误(拒绝了正确的原假设,“去真”)、第二类错误(没有拒绝错误的原假设,“存伪”)或偶发事件的可能性越高。
那么是不是样本量越多就越好呢?首先,对于假设检验来讲,这是肯定的,样本越多,检验结果出错的机会越小。但是,在实际操作中,我们必须要考虑成本问题,对于一个未经验证的策略,如果贸然开放给大量用户,万一其产生负面影响,那么可能会造成非常严重的后果,同时也可能会影响到其他需要做实验的同学。所以我们要在保证数据显著性的前提下,尽可能缩小影响范围,找到一个最小样本量:

注:德尔塔为容许误差,要求误差越小,则样本量就需要越大,西格玛为样本标准差,即样本波动越大,所需样本也越大。
分析问题,明确目的->确定目标变量->设计实验方案->计算样本量,圈选实验对象,分流上线->持续一定时间,保证样本数据充足->收集数据,计算统计指标,检验差异是否显著->得出结论,选择最优方案提量