关键词: 回归分析;
最近刷微博、知乎,总是看到“植发“广告,师兄不禁腹诽:我这是被精准营销了么?
摸着头顶依旧坚挺、浓密而不甚乌黑的秀发,师兄陷入了沉思!
难道我这满头青丝终将化为乌有吗?难道我堂堂数分小王子、数据界的吴彦祖,也要变得和徐峥、葛大爷一样用发型来吸粉不成!
这令人窒息的画面太美,不敢想象。但是经过师兄对周围朋友和同时暗地里的观察发现:小A刚刚毕业开始实习,头发乌黑而浓密,简直和他代码中的bug数量有得一拼;B君今年本命年,36岁,精神依然矍铄,只是头顶依稀有了农村包围城市、地方支援中央的趋势;C姐二胎刚上小学,平日里没少吐槽为了给孩子辅导作业而大把大把掉头发,直呼“白头搔更短,浑欲不胜簪”……
看到这一现象,莫名头顶一阵凉飕飕的。但是作为一名分析师,敏锐的察觉到莫非发量和年龄之间真的存在某种关系?
于是,师兄果断组织了一批志(bei)愿(bi)者(de),做一个简单的小调查!经过一番费劲巴力地折腾,我们最终得到了如下数据:

看起来挺像那么回事儿的哈,有点点负相关的味道,那就来看一下究竟是不是负相关呢?首先,我们简单地计算一下发量和年龄的Pearson相关系数:

解释一下哦,上面公式意思是两个变量的相关系数等于两者的协方差除以这两个变量各自标准差的乘积,一般来说,这个数如果小于0,那就是负相关,如果大于0,就是正相关,刚好等于0就不相关,其绝对值越大就说明正或负相关的程度越高。
经过计算,我们得到了发量和年龄的相关系数-0.57,哈哈,果然是负相关,而且相关度也不算太低。不过这还不够,接下来还要验证一下这个相关系数的显著性。
构建假设检验:
原假设:ρ=0
备择假设:ρ!=0
构造统计量:
,其中n就是样本的数量27
然后计算得到t=-3.43,根据t检验的临界值表,我们查到,在自由度25下,t0.01=2.787,也就是在99.9%的置信水平下,|t|>2.787,也就可以拒绝原假设,从而说明相关系数显著。

附:t检验临界值表
到这一步,我们已经知道了发量是和年龄有负相关的关系,那么二者之间的数量关系是怎样的呢?这就需要我们通过回归来进一步量化了。
从散点图上我们大致可以看出,随着年龄的增加,发量又一个下降的趋势,我们可以直接利用excel散点图,为这些点添加趋势线的方式,拟合得到一条直线,这就是我们得到的样本回归模型。同时,我们可以显示出这条直线的表达式为y = -510.77x + 102965。

那么,这条线是怎么得出的呢,又为什么是这条线呢?
所谓回归,它是描述变量之间定量关系的一种统计分析方法。可以从不同角度划分出很多种,我们最常用到的就是线性回归,它又可以根据自变量的多少划分为一元线性回归和多元线性回归。
在我们这个问题里,只关心发量和年龄的联系,也就是只有一个自变量,那么适用的也就是一元线性回归。
如上述散点图所示,在直角坐标系下,任意直线都可以用y = a·x + b的方程表示出来。而实际上这些点并没有严格的分布在某一条直线上,某年龄下,真实的发量和直线上的“理论发量”会有一个差距——残差,所以我们要做的就是找到一条最佳的直线,它要满足这样的条件:样本中所有因变量观测值与通过这条直线预测得到的预测值的残差平方和最小。
这就是“最小二乘法”。

由此,我们进行以下推导:

至此,公式的变形就完成了,从最后的式子可以看到最后两项

与a、b无关,属于常数项,我们只需要

就可以得到最小得残差平方和,因此:

并且,我们可以通过决策系数来衡量上诉模型的拟合优度:

它的取值范围是[0,1],越接近于1,模型拟合就越好。其中TSS(total sum of squares)为所有样本数据与均值的差异,是方差的m倍数 (TSS/m 为方差),RSS(residual sum of squares)为所有样本数据误差平方和。
由决策系数的公式可以看出,当预测值与真实值相同的时候,RSS = 0 ,决策系数R2=1,模型最理想。
扯了这么多公式和推导,看起来好像很复杂,但起始我们并不需要记住这么多公式和名词,只要清楚其基本原理就好,因为大多数计算和建模的时候,都是有机器完成的,比如上面丑了吧唧的散点图和拟合方程就是由excel制作的,同时,R2也可以直接在图中显示出来。
貌似有些跑题了,我们还是回到“头发”上来。通过这样一个回归模型,我们可以看到成年人的发量是随着年龄的增加而日趋稀有的,并且可以预知自己在某个年级还会剩下多少。回归,就是这样一个作用,它会告诉你两个变量之间的定量关系,y会随着x的变化而变化,并且可以根据x的取值来预测y的取值。
但是回归以及相关,只是描述一种数理统计上的关系,而并非因果关系。正如发量和年龄,头发减少,并不是因为年龄的增加,而是生理、心理、生活习惯等多重因素影响的后果。生理缺陷或年龄增长固不可逆转,但我们可以通过健康饮食、改善作息、锻炼身体,培养良好的生活习惯来提高头发留存率。
最后,愿世上再也没有脱发的困扰,祝所有数据人大“发”特“发”。