费城加菲猫2021-08-01 16:25:44

最近一段时间以来,常常看到有许多人对统计数据准确性的质疑, 特别是和新冠疫情有关的报道,比如各种疫苗的有效率,新冠病毒的感染率,新冠肺炎的死亡率,治疗新冠肺炎药物的有效率,等等。还有一个大众关心问题,就是对许多所谓的“民调”数据准确性的质疑,因为媒体报道的民调数据往往和个人自身的感受不一样。甚至有朋友问本猫,是不是做统计的都是骗子?这对本猫的感受伤害很大, 因为本猫就是一个做统计的人。

事实上,统计学是一门关于数据的收集,整理和分析的科学,这门科学的目标就是尽可能准确地描述观察到的现象的本质,以判断观察到的现象到底是真实存在(大概率的存在),还是仅仅是随机的闪现(小概率的存在)。如果一个科学家声称自己有所新的科学发现,但它其实仅仅是随机出现的事件而已,这就称作“虚假发现”或“假阳性”(false positive)。

怎样从随机事件中区分出真正的效应其实是一个很古老的问题。哲学家们为此已经争论了数个世纪,统计学家亦然,并得到了更加丰富的成果。这一问题的关键在于对归纳推理和演绎推理的区分。很大部分科学家进行是一项归纳推理的活动:观察大量的现象,并试图从中归纳出一般性原理。但是,归纳永远都不可能是完全确定的,因为会有很多因素影响到观察到的自然现象和社会现象。然而,演绎推理要更容易些:先假定某个一般性原理是正确,依此推断应该发生什么,然后将其与你实际观察到的进行对照。如果推断结果和观察到的结果显著的不一致,那就可以认为,那个一般性原理是不正确的。

统计学家是运用演绎推理来分析数据的专家。但问题是,在很多的情况下,演绎论证并不能直接回答科学家想解决的问题。一个科学家真正在乎的是,当声称某一效应不是随机结果而是真正存在时,出错的可能性是多少。这是归纳推理的问题,所以很困难。为了处理这个问题,到20世纪早期,形成了这样一种惯例——将问题转化为仅运用演绎推理的问题,从而避免归纳。20世纪20年代,统计学家罗纳德·费舍尔(Ronald Fisher)提倡用统计显著性检验来实现这一点。这完全是演绎推理的方法,所以避开了归纳推理存在的哲学性问题。

一般来说,p值小于0.05(或0.01)就被统称为“统计显著”(statistically significant),这是一个在生物医学文献中无处不在的术语,现在人们用它来表示效应真实存在,而非仅仅是随机现象。2005年,斯坦福大学的流行病学家 Ioannidis JP 针对生物医学某些领域的研究结果发表了论文《为什么大多数已发表的研究成果是错误的》(Why Most Published Research Findings Are False,PLoS Med 2(8): e124. https://doi.org/10.1371/journal.pmed.0020124),引起了一场风暴。Ioannidis的观点已被随后的研究进一步证实。例如,最近有研究者重复了100项实验心理学的不同研究结果,发现仅有38%的结果重复了原来的结论。对于脑成像研究和认知神经科学来说,情况大概至少与此一样糟糕。

统计显著性检验计算的是一个条件概率:在没有真实效应的条件下,观察到我们所看见的现象(甚至更加极端的现象),这样的概率有多大?这并不是断言真实效应不存在,而是在计算如果没有真实效应的话,可能会出现什么情况。“没有真实效应”的假定被称为零假设(null hypothesis),在零假设成立的条件下,发生我们观察到的现象的概率则被称为p值。显然,p值越小,零假设成立的可能性就越小,这也就意味着存在真实效应的可能性更大。但是,我们真正感兴趣的,并非是在效应不存在时观测到现象的概率(p值),而是在观测到现象时效应存在的概率(也就是假说成立的概率)。而这是个归纳推理的问题。事实上,在一般情况下,我们无法从p值(也就是犯“假阳性”错误的概率)的大小来判断出“在观察到的现象的条件下,假说成立(真阳性)”的概率。混淆这两个条件概率问题,是人们常常错误解释统计数据的根本原因,这被称为条件概率倒置错误(error of the transposed conditional)。

考虑一个新药研发的例子,说“如果新研发的药物和安慰剂没有区别,那么我们观察到这种现象的概率很小”(这正是p值告诉你的) 没什么实际用处。真正有用的是需要知道“如果新研发的药物和安慰剂真的是有区别,那么我们观察到这种现象的概率是否还是会很小”。这又把我们带回了归纳推理。也就是说,表示统计显著的p值是一个正确的答案,却回答了一个错误的问题。

再来看一个新药研发的例子。想象我们要测验1000种不同的化合物来分辨出哪些有效, 哪些无效,一次测验一种。假设这些化合物中有10%是有效的就算走运了。所以我们不妨假设先验概率是10%。假如我们在一次测验后得到一个“刚好显著”的结果,即p=0.047,于是我们以此为证据宣称发现这种化合物是有用的。但事实上,这一宣称出错的概率,并非通常认为的5%,而是76%。这一数值高得离谱。错误率这么高的原因是检测中本来无效却检出假阳性的数量,超过了真正有效而检出真阳性的数量。

还有一类“统计陷阱”,是在于逻辑上的错误。看到有个关于养生的文章说,调查了140多位健康的高龄老人,发现他们大部分都喜欢喝粥(p值<0.05),于是就得出”统计显著”的结论,多喝粥可以使人健康长寿。这是一个明显的“统计陷阱”的例子。喜欢喝粥是因为他们年纪大了,消化功能退化而导致的,这根本无法确定喜欢喝粥是他们高龄健康的原因。这是一个类似于“围着枪眼画出靶子”的笑话,但是现在许多科学家就是这么干的。

当代的科学家,包括很多科学杂志的编辑,大多数都是p值的粉丝,他们只相信p,不考虑其他。结果出现了p值滥用(p-value abuse)现象。但事实上,费舍尔在1926年就说过,p=0.05是“显著性的低标准”,而只有当重复实验“在这一显著水平上几乎不失败”时,一项科学事实才应被视作在实验上建立了起来。所以,在统计学家眼里,p值的滥用就是在用统计数据对广大的媒体受众“耍流氓”。如果有人是故意为之,那是统计上的灾祸。

现在是自媒体时代,很多没有任何统计知识的人也在做媒体,包括在主流媒体上,很多人由于缺乏统计学方面的知识,对数据的采集分析和解释都是非常任性的,最常见的就是“幸存者偏差”(survival bias)。在分析资料时,幸存者偏差所指的就是过度关注“幸存”的资料(可以被观察到的人事物),而忽略了可能无法观察到的资料,导致了错误的认知与结论。

真正在统计学意义上的结论,精髓在于(大概率的)可重复性。而“幸存者”往往都是一种无法复制的存在,在生活中也有许多“幸存者偏差”的例子。 比如说,某公司采用了某种新的营销策略,使得营收增长了200%,被广为报道。但是也有多少公司尝试了同样的策略,却是以失败收场。又有某明星吃了某种减肥药,一星期就瘦了10公斤。但是又有多少比例的人吃这种减肥药是无效的呢?特别是许多鸡汤类的励志书籍常常说只要吃苦耐劳,有创意就会成功,并以马云,马化腾,比尔盖茨,马斯克为例子,但事实上还有一大堆拥有同样特质的失败者默默无闻而从来都不被人们提起。

许多科学工作者常常挂在嘴边的一句话就是“数据会说话”,但是不同的数据分析方法显示的结果会让我们得到错误的结论。最有名的例子就是“辛普森悖论”(Simpson's paradox):在某些条件下的多组数据于分别讨论时都会满足某种性质(例如:A 优于B),但若是直接将数据合并在一起讨论时却可能导致相反的结论(例如:B 优于 A)。因此,若是实验设计在一开始能采用随机分层的设计就能有效降低潜在变数的影响,降低辛普森悖论发生的可能。若是无法采取随机分派的情况,则需要尽可能地思考是否有忽略了潜在的影响因子(但现实生活中很难全面的考量到所有潜在影响),并且透过分层的手段观察结果的变化。

在一切的科学研究活动中,科学家们会运用逻辑法则坚持不懈从获得的数据中试图得出结论。这个过程就是依据从总体的一个样本所取得的信息来对总体做出一些结论。用“在前提为真的条件下,结论为真”的概率作为这种归纳论证可信度的度量,就涉及到统计推断。正是由于这个观点,统计推断是处于一切实验科学的中心。值得注意的是,统计推断是建立在一个数学模型的假定上的。没有这些模型的知识,统计推断只是一个相当狭隘的课题。




更多我的博客文章>>>