辛普森悖论及其在数据分析中的应用

摘要: 辛普森悖论(Simpson\x26#39;s Paradox)指的是在探究两种变量相关性时,有时会出现在分组比较中都占优势的一方,在总评中反而不占优。辛普森悖论的成因是无效细分,或者说是样本代表性有问题。

01-21 11:48 飞鸿青云 首页 飞鸿青云

在数据分析中,常常会遇到一些陷阱,陷入似是而非的泥沼中。辛普森悖论(Simpson's Paradox)就是其中之一,此悖论指的是在探究两种变量相关性时,有时会出现在分组比较中都占优势的一方,在总评中反而不占优。辛普森悖论的成因是无效细分,或者说是样本代表性有问题。

听着挺理论然并卵的,但在实践中很有用。

举一个实践中的例子,现考察不同操作系统移动网站的转化率,如表0iOSUV5000,转化率4.0%;安卓总UV10000,转化率5.5%。能导出什么结论呢?安卓大法好?!

转化-0

iOS小计

安卓小计

UV

5000

10000

转化数

200

550

转化率

4.0%

5.5%

且慢,无细分不分析,将设备细分下:iOS平板总UV1500,转化率6.7%iOS手机总UV3500,转化率2.9%;安卓平板总UV8000,转化率6.3%,安卓手机总UV2000,转化率2.5%。细分完一对比,又傻眼了,分明iOS才应是真爱!


再且慢,虽然iOS更可爱,但从表0-1也可以看出,主要结论不在于是iOS还是安卓,而是平板与手机!

于是基于设备而非操作系统进行汇总,得到表1才是真正有意义的,从中得到正确的解读是:

1.平板的转化高,应该优先平板!

2.各设备都iOS转化高,设备内再优先iOS


上例中,设备类型是一个混淆变量:数据按设备类型细分时,子群体具有完全无法相比的统计特性,所以上表0、表0-1是不能用来说明问题的。分析这两个表的问题,为什么会有安卓转化高这个错觉呢?因为样本偏差了,安卓样本中平板的比例高达80%iOS样本中平板的比例仅30%,而平板的转化高!本质还是有点伪相关的意思!

这种样本属性上的巨大差别,导致按这个样本去作操作系统维度的分析是误导的。

为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。比如上例中,就可以按安卓的平板比例构建iOS样本以消除偏差(当然实践中不能这样构建不存在的样本,只能说原样本有偏差),这样就能得到不矛盾的结论了(但这个结论指导性还是有限的,没有抓住设备这个西瓜而只捡了操作系统这个芝麻)!


辛普森悖论值得深思,至少可以在有效细分、样本代表性部分给人带来启发。我最近得到的启发就是,数据分析要看趋势、分布、对比,如表
0这种笼而统之的分析是没有多大参考意义,反而常带来误导。又比如免费产品中,ARPU值代表的是实际不存在的平均用户(代表性弱),远不如ARPPUpaying user)代表性强;对于具有明显差异的多渠道销售,各渠道的购买特征远比整体特征有意义。

附一道思考题:对这个表象的释因对吗?

表象

学校院系女——某大学历史系和地理系招生,共有1313女报名。

History 1/5 < 2/8,历史系5男报名录取1男,8女报名录取2女,男生率取率低;

Geography 6/8 < 4/5,地理系8男报名录取6男,5女报名录取4女,男生录取率低;

University 7/13 >6/13,学校合计男生录取率7/13,女生录取率6/13,男生率取率高。

而按系计,每个系的女生的录取率却都高于男生录取率。

释因

描述的录取率其实没有意义,偷换了概念:混用了校方角度和报考者角度的录取率。专业术语是因为“混淆变量”,随着自变量的改变而改变。

从校方来看:历史系招收一男二女,1/32/3,地理系招收六男四女,3/52/5;总录取比例为7/136/13,介于两系之间,不矛盾。1/52/86/84/5是什么鬼?!那是报考者的角度!

从报考者来看:1/5男和2/8女进了历史系,剩下4/5男和6/8女进了地理系;小计应该是3/13人进了历史系,剩下10/13人进了地理系!7/136/13是什么鬼?!那是校方的角度!






首页 - 飞鸿青云 的更多文章: