嗨,你可能听说过MA-E3-8.7,它是用来分析两个变量之间相关性的,不过虽然能帮助我们发现关系,也有一些明显的缺点。让我们聊聊这些局限性吧。首先是相关性不等于因果性 (Causality)。不管是在学校学的还是在公司用到的,大家都知道两者不是一回事。比如,你把冰淇淋销量和鲨鱼袭击数据放在一起分析,会发现有很强的正相关。但是,这个结果真的意味着冰淇淋卖得多鲨鱼就凶猛吗?逻辑上显然不通啊。实际上,这两者都受到同一个隐藏的因素影响——天气或者季节。当天气炎热的时候,冰淇淋销量增加,同时人们也更愿意去海边游泳,结果就导致鲨鱼攻击事件增加。所以说,“同增同减”的特征才让数据呈现出正相关,这种没有因果关系的相关性我们叫它Spurious Correlation。其实还有时候因为数据的随机波动也会导致这种伪相关。数学告诉我们两者有相关性,但并不代表它们之间有真正的关系。比如Spurious Correlations这个网站上就有很多这样的例子,感兴趣可以去看看。根本原因是你的数据是从复杂世界中获得的,不是实验室里那种严格控制变量得到的结果。 第二个局限性是不能盲目外推 (Extrapolation)。也就是说,我们在使用模型的时候要小心,因为事物变化规律可能改变。比如在实验室环境下细菌增长符合指数模型,可是如果不考虑边界条件直接推断未来情况就会出现错误。例如需钠弧菌在营养充足时每10分钟就繁殖一代,如果一直这样发展下去只需22小时就会遍布全球。当然这是不可能的事情因为现实中资源有限或者天敌会出现等等因素会限制它们的增长速度。 第三个局限性就是皮尔逊相关系数只能捕捉线性关系。用r来衡量的时候要注意它只能描述直线关系这是最基本的限制了。计算出r=0并不代表两者没有关系,可能只是没有线性关系而已还有可能有复杂的非线性模型。所以在使用r的时候一定要注意这一点。 其实很多统计学工具都有这些局限和缺点。我们需要根据实际情况灵活运用才能真正解决问题。这个章节介绍到这里结束了不过统计工具最大的价值就是帮助我们解决现实问题。所以希望你能从日常生活中挑选一个课题来试试亲手收集数据并运用本章学过的分析方法建立数学模型来解决你关心的问题吧!