业务数据分析时候如何避免陷入辛普森悖论?-蜗牛派

业务数据分析时候如何避免陷入辛普森悖论?

令狐冲虽然从小在华山勤学苦练,但武功造诣却一直平平无奇,自机缘巧合在思过崖上碰见风清扬,练得其真传独孤九剑,从此便独步武林……

数据分析之辛普森悖论

在我们数据分析的领域,也有独孤九剑这样的武功秘籍,就是六字箴言:细分、对比、溯源。也正是因为在分析业务数据的时候,总是用到分组对比的方法,所以我们一不小心就可能会陷入统计学的陷阱 — 辛普森悖论

实际案例分享

我们先来看工作中一个实际的例子,相信做电商的朋友都非常清楚一个指标:1分钟响应率,指的是买家咨询了货品问题,卖家能否在1分钟内及时响应。因为我是做房产电商相关的,相信大家在找房,联系中介小哥哥的过程中,都用过两种途径的方式:400和IM(电话联系和线上发消息联系)。我们在分析两家门店A和B的1分钟响应率数据的时候,发现了这样的情况:

数据分析之辛普森悖论

无论是400还是IM的方式,门店A两个渠道的响应率都低于门店B,但是总体来看,门店A的表现却是优于门店B的!

这就是辛普森悖论即在某个条件下的两组数据,分别讨论时都会满足某种趋势,可是一旦合并考虑,却可能导致相反的结论。是英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出来的。

读到这里,你可能就会思考这是为什么呢?

我们重新再看一下分组数据,发现门店B虽然每个渠道的响应率都较高,但是内部来看400的量级比IM的多,360条和40条,所以门店B主要受到400响应率的影响更大。同理,门店A受到IM响应的影响较大一些。那如果我们拿门店A的IM响应和门店B的400响应来比较,就和最终的结论一致了!这么理解似乎有点道理。我们看一下数学上的证明:

数据分析之辛普森悖论

从上面这幅图就可以很清楚证明辛普森悖论的存在,当然,并不是分组一定会出现这样的情况,每个类别高,总体也高的情况也是存在的。(我们通过移动图中线条的位置,很容易就能达到这个要求)。

那回到这个工作场景,我们最终如何评估门店A和B的表现呢,根据实际经验,我们会从整体性的表现,认为门店A是优于门店B的,当具体到门店内部,就会根据不同的渠道表现,告诉门店下一步的提升点在哪里,当然多说一句,提升空间不仅要从率的现状出发,还要考虑渠道本身的天花板,比如说假设门店B的IM响应率很低,我们也没有提升的必要,因为40条的量级对整体的影响较小,当下还是要投入精力在360条的400响应上。

混淆变量

我们再看一个生活场景中的例子:假设小明得了肾结石,医生给他推荐两套治疗方案,A是开口手术(创口比较大),B是微创手术,两种治疗方案的历史数据如下:

数据分析之辛普森悖论

我们咋一看,方案B的成功率更高,可能就建议小明选择微创手术治疗了。但我们回想一下平时生了病,医生开药的时候都会考虑我们的病情严重程度,所以在这里分析治疗方案A和B的时候,我们也忽略了这点(当然,我们不是医生,不太能第一反应这么专业,但是我们在分析数据的时候,也要有这种警惕思维,是不是有个关键变量我们还没有考虑进来,被整体的数据蒙蔽了)。

再接着,医生给了一份详细的数据:

数据分析之辛普森悖论

在肾结石的治疗当中,主要根据结石的大小来判断病情的程度,小结石病情比大结石轻,因此无论选择哪种治疗方案,康复率都比大结石高。然而,当你患了小结石时,考虑到病情比较轻,医生会倾向选择方案B(微创)。而如果患了大结石,医生会倾向选择方案A(创口比较大),疗效也更好。虽然无论病情严重与否,方案A都比方案B治疗效果好。但是,选择方案A的病人通常是大结石,因此整体康复率比方案B差一些。

肾结石的大小 (病情严重程度) 在这里是一个混淆变量,它同时影响着自变量(治疗方案)和因变量(康复率)。从汇总数据中,我们并不能看到混淆变量的存在。

混淆变量是一个基于因果关系的概念,不能完全由对统计数据的相关分析得出。相关关系是一种无向关系,而因果关系则具有方向性。例如有三个变量 X、Y、Z,如果是 Z 影响 X,Z 影响 Y,则 Z 为混淆变量。X 和 Y 之间的相关性可能部分来自于二者对 Z 的共同依赖。例如 X = 服药,Y = 康复,Z = 年龄、性别等。某些疾病的发病率和康复率都和年龄、性别有关。检验药物是否有效必须考虑到这些因素的影响,最好进行分组实验。

——百度百科

我们要怎样才能避免辛普森悖论呢?

辛普森悖论的存在,让我们不可能光用统计数字来推导准确的因果关系。我们看到的数据很可能不是事实的全貌。我们不能只满足于数据本身,我们必须关注整个数据的生成过程,考虑因果模型,对数据负责。当我们理解了数据产生的机制,我们就能站在更高的角度,找到其他潜在影响因素。

分享到:更多 ()
Copyright © 2015-2024 woniupai.net 蜗牛派 版权所有
皖ICP备18016507号-1 | 本站内容采用创作共用版权 CC BY-NC-ND/2.5/CN 许可协议