互联网技术 / 互联网资讯 · 2023年12月21日 0

常见效应和定律在数据分析中的应用

马太效应

马太效应出自圣经《新约&Middot;马太福音》里有一则寓言:凡有的,还要加倍给他叫他多余;没有的,连他所有的也要夺过来。中国也有类似的古语,看过83版射雕英雄传的同学应该对九阴真经里面天之道,损有余而补不足这句话印象深了,这句话出自老子的《道德经》,完整的古语为天之道,损有余而补不足;人之道则不然,损不足以奉有余,意思是:自然的法则,是损减有余来补充不足。人类社会世俗的作法却不然,而是损减贫穷不足来供奉富贵有余。这两句古语比较直观地表述了马太效应,通俗地解释为强的越强,弱的越弱。

马太效应在业务中非常常见。比如在推荐算法中,被判定为质量较好的用户所得到的资源就越多,这种情况也会形成反馈,得到的资源越多越会被判定为质量较好的用户,从而加剧这种效应。

虹吸效应

有些同学小时候可能做过这样的事情,把一根软管子一头插入水槽里面,用嘴把水吸出来,然后把软管子的另一头放地比水槽里水面低,那么水就能源源不断地流出来,其中的道理就是虹吸效应:液态分子间存在引力与位能差能,使液体会由压力大的一边流向压力小的一边。在业务中的虹吸效应指的是,某一主体将资源吸引过去,从而使得自身相比其他主体更加有吸引力,并导致其他主体营养不良的现象。

这与马太效应有相似之处但是并不相同,如果说马太效应通俗理解为强者越强,弱者越弱,那么虹吸效应的通俗解释为大树地下不长草。强者越强不一定是以牺牲弱者为代价,而虹吸就像一块干海绵,把周边的资源吸干,导致周边没有资源可用甚至寸草不生。

比如,在劳动力市场,每年985,211毕业的本科研究生数量是有限的,大公司用诱人的薪资待遇吸引人才,导致这部分人才大部分流向大公司,小公司则相对较难招聘到这部分毕业生,这也是一种虹吸现象。再比如,在渠道投放时,假如渠道投放的总体预算是固定的,假如增加某一厂商渠道A的费用使此渠道的ECPM值上涨,进而导致渠道A的成本下降,渠道投放人员就有可能把其他渠道的预算转移到A,久而久之A渠道的预算占比会越来越高,其他渠道预算占比越来越低,长尾的小渠道可能会停止投放。

幸存者偏差

幸存者偏差讲的目光聚焦于幸存下来的群体具备的某些特征,但是忽略了未幸存下来的群体是否也是具备相同的特征。这里幸存的概念,其实更合理的说法应该是筛选。

在二战中统计学家沃德教授曾收到美国军方邀请,为降低飞机被击落的概率提出建议。经过观察发现机翼是被击中最多的地方,而机尾被击中概率比较小。当时军方的指挥官认为应该加强机翼的防御,但是沃德教授的结论是要加强机尾的防御。原因在于样本仅统计了返航的飞机,机翼被集中多次依然能够返航说明机翼并非是致命的地方。机尾被打中的飞机,会导致引擎受损而无法返航。

辛普森悖论

辛普森悖论指的是,当对比AB两个群体的数据,并将数据拆分成多个维度时,A组在各个维度下的表现均好于B,整体A组的表现却并不一定好于B。

举一个栗子,对比AB两个竞品的留存,将留存拆分成新用户和老用户两部分,竞品A新老用户的留存均高于竞品B,但是竞品A的整体留存却低于竞品B。出现这种情况的原因在于两点,第一是两个竞品新老用户的占比不一致;第二是竞品A老用户的留存高于竞品B新用户的留存。如果竞品A老用户占比高于竞品B,那么竞品B在老用户留存累计的优势就有可能抹平竞品B新用户留存积累的劣势,使得整体留存高于A。

本福特定律

本福特定律,是说一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成(30.1%),这个定律至今没有经过一个严格的证明,他就像是大自然赋予我们的一个监控指标,当一组数据不符合本福特定律时,就有理由怀疑数据是否造假。所以此定律经常用在检测上市公司财报是否造假以及选举中是否有舞弊现象。

帕累托定律

这个名字大家可能并不熟悉,但是一定听过二八定律,管理学家帕累托通过研究大量事实发现:社会上20%的人占有80%的社会财富。后来经过丰富与发展这个定律表述为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。比如活跃用户中仅有20%的付费用户,付费用户中20%的用户贡献了80%的收入等等。当然20%与80%只是一个统计数据,其实质讲的是在因和果、努力和收获之间,普遍存在着不平衡关系,即不平衡关系存在的确定性和可预测性。