PSM(倾向评分匹配)&DID(双重差分)&断点回归·闲人指数·

PSM(倾向评分匹配)&DID(双重差分)&断点回归 导出word


关键词: AB实验,归因分析;






PSM通俗理解

对比试验的本质是通过控制变量,来观察其对目标变量的影响。所以必须要排除控制变量外的其他因素的干扰,也就是要在其他条件一致的情况下,对比才有意义。

从实验设计的角度看,有时候控制变量的成本太高、影响太大,不宜通过人为控制来达到对照的目的,而自然界中又普遍存在一些可供观察的对象,PSM就是充分利用这些自然状态下的观察对象,事后构造对照实验。

比如,要观察父母是否上过大学,对子女的学历水平影响,我们不可能预先设计对照试验,让一部分人接受大学教育,另一部分不接受大学教育,再过个几十年去观察他们的子女。所以,我们可以通过从已有的家庭中去选取合适的对象进行观察。如此,控制变量即为父母是否上过大学,目标变量为子女教育水平,但仍有其他不在我们本次考察范围的因素可能对结果产生影响,比如父母的年龄、所属地区、家庭收入、是否独生子女等等。故而,我们需要将其他因素水平相同、相近的对象收纳在一起,然后依据其父母是否上过大学来划分实验组对照组,形成同质对象的配对,匹配完成后可进行配对样本检验,以验证控制变量对于目标变量的影响是否显著。

 

DID(双重差分)

双重差分,即差分两次。不论是事先设计好的对照实验,还是事后从自然实验中选取对象构造对比实验,都可以适用。

双重差分不仅会对两组之间的同期差异进行对比,还需要考虑时间因素。假如A组在干预前的水平为0.5,B组相同状态、相同时期的水平为0.4,之后对A组进行干预,A组水平提升到0.8,B组未进行任何干预但此时水平为0.6。如果要计算干预效果,不能单纯的直接用0.8-0.5,因为与之相似的B组在无干预的状态下水平也发生了变化,也就是考虑随时间的变化,观察对象可能具有某种自然上升的趋势,要将A组的提升效果减去自然状态下上升的幅度后,才能被当作干预措施的提升效果:0.8-0.5-(0.6-0.4)=0.1

断点回归

断点回归是判断临界值影响的常用方法。变量X在某个范围内与目标变量Y具有较为稳定的相关关系,但当X超过某个临界值时,Y变量开始出现大幅波动。一个较为典型的例子就是:某APP内签到功能,连续签到7天,可以获得奖励,可以对签到天数和用户留存效果进行断点回归,签到不足7天的留存水平与超过7天的水平相去甚远。