[文集] [专题] [检索] [独立评论] [海阔天空] [矛盾江湖] [全版论坛]

独立评论

作者: 录娄脥路脠芒   脫脙赂脜脗脢脥鲁录脝脢玫脫茂脳梅鲁枚碌脛露脧脩脭驴脡脰陇脦卤脗冒拢驴 2022-08-01 01:06:35  [点击:3049]
马克·吐温的名言“There are three kinds of lies: lies, damned lies, and statistics”意在讽刺盗用统计名义进行造假、欺骗、忽悠大众的恶劣行为。人们经常引用这句话置疑(被歪曲的)统计结果的客观性。作为科学哲学的彻底外行,俺这里粗浅地探究一把:在概率统计的框架中作出的断言或陈述是否具有可证伪性。希望这一讨论能够抛砖引玉。

直觉上,统计推断应当是可证伪的。毕竟,概率论或统计学不仅仅是数学,而且也是俺们这个充满着不确定性的世界应当遵从的科学规律。既然是科学规律,卡尔·波普尔的判据就该生效。

那么问题来了。如果气象预报说,“明天下午三点到五点,上海地区的降雨概率为30%”,该断言可证伪吗?

假如俺居住在上海,无论明日下午是否遭遇雨水,俺似乎都无法推翻上述气象预报的断言。倘若俺淋着了雨,须怨不得气象站,也只能怪俺自己——明知有百分之三十的中招机会,出门时却偷懒不带伞,又偏偏不走运赶上了雨。另一方面,如果明天下午没有雨,那俺就更没有理由抱怨气象局了,毕竟30%算不得很大的概率。换言之,这个推翻不了的预报几乎丧失了可证伪性。

更严重的是,由于明日午后的下雨事件并不像掷硬币那样可以重复验证,俺甚至无法理解降雨概率为“30%”究竟意味着什么。莫非“30%”指的是某种较为主观的“置信度”?记得老早前在网上读过一个段子,说气象局的十个资深专家开会,其中有三位断定明天有雨,另外七位判定无雨,结果气象局就预报了 30% 的降雨概率-_-

可以肯定,俺们谈论的“降雨概率”一定有个科学上可操作的定义,否则气象局可以关张了,让算卦的上场就成。如果俺们根据往年的气象记录了解到,上海地区在气温、气压、湿度等等气象参数取某个特定值的条件下,历史上的降雨频度为30%。进一步,如果这套气象参数值刚好与明天下午的预估值吻合,那么气象局作出的预报“降雨概率为30%”就有了操作层面的定义。一旦定义具有可操作性,歧义自然消除了,统计学上的推断才提供了有意义的信息。这里俺们学到的是:为了不被马克·吐温所讽刺的用统计制造的谎言忽悠,俺们不仅要了解概率值,还需要理解这些数值的操作定义。

最后俺用一个概率问题的实际计算来结束本帖。再一次假定俺在上海,不仅淋了雨,还不幸赶上了五月份的疫情暴发-_- 当时全上海每日新增的确诊病例在 2.5 万人左右,感染率约为 2.5 万/2500 万=0.1%=0.001。那些日子不得不天天做核酸。查看医学文献,得知核酸检测的假阳性率为 1%(即100个未受感染的健康测试者当中有一例被错报为阳性),而假阴性率为 30%(100个感染者做核酸,有30人未被检测出阳性)。试问:如果某天俺的核酸结果为阳性,俺被确诊为患者的几率是多少?

俺们用字母 \(A\) 表示确诊感染了新冠这一事件,而用字母 \(B\) 表示核酸检测呈阳性的事件。进一步,用逻辑上的非记号 \(\neg A\) 和 \(\neg B\) 分别表示事件 \(A, B\) 并未发生。正如上一段落的估算,俺们已知疫情暴发时感染率的先验值约为 \(P(A)=0.001\),核酸检测的假阳性率和假阴性率分别由条件概率 \(P(B|\neg A)=0.01\) 及 \(P(\neg B|A)=0.3\) 给出。根据贝叶斯公式,核酸呈阳性的人被确诊的几率为
\[
P(A|B)=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\neg A)P(\neg A)}
\]
注意到 \(P(B|A)=1-P(\neg B|A)=0.7\),俺们有
\[
P(A|B)=\frac{0.7\times 0.001}{0.7\times 0.001+0.01\times (1-0.001)}\approx 0.0655\approx 6.6\%
\]
换句话说,尽管俺的核酸阳性,手机里有红码,俺被实际感染的几率不超过百分之七,够低的。

看来这次核酸检测的结果没啥意义,俺可以放心地喝酒去了-_-

加跟贴

笔名:     新网友请先注册笔名 密码:
主题: 进文集
内容: