[文集] [专题] [检索] [独立评论] [海阔天空] [矛盾江湖] [全版论坛]

独立评论

作者: 鸡头肉   用概率统计术语作出的断言可证伪吗? 2022-08-01 01:06:35  [点击:1095]
马克·吐温的名言“There are three kinds of lies: lies, damned lies, and statistics”意在讽刺盗用统计名义进行造假、欺骗、忽悠大众的恶劣行为。人们经常引用这句话置疑(被歪曲的)统计结果的客观性。作为科学哲学的彻底外行,俺这里粗浅地探究一把:在概率统计的框架中作出的断言或陈述是否具有可证伪性。希望这一讨论能够抛砖引玉。

直觉上,统计推断应当是可证伪的。毕竟,概率论或统计学不仅仅是数学,而且也是俺们这个充满着不确定性的世界应当遵从的科学规律。既然是科学规律,卡尔·波普尔的判据就该生效。

那么问题来了。如果气象预报说,“明天下午三点到五点,上海地区的降雨概率为30%”,该断言可证伪吗?

假如俺居住在上海,无论明日下午是否遭遇雨水,俺似乎都无法推翻上述气象预报的断言。倘若俺淋着了雨,须怨不得气象站,也只能怪俺自己——明知有百分之三十的中招机会,出门时却偷懒不带伞,又偏偏不走运赶上了雨。另一方面,如果明天下午没有雨,那俺就更没有理由抱怨气象局了,毕竟30%算不得很大的概率。换言之,这个推翻不了的预报几乎丧失了可证伪性。

更严重的是,由于明日午后的下雨事件并不像掷硬币那样可以重复验证,俺甚至无法理解降雨概率为“30%”究竟意味着什么。莫非“30%”指的是某种较为主观的“置信度”?记得老早前在网上读过一个段子,说气象局的十个资深专家开会,其中有三位断定明天有雨,另外七位判定无雨,结果气象局就预报了 30% 的降雨概率-_-

可以肯定,俺们谈论的“降雨概率”一定有个科学上可操作的定义,否则气象局可以关张了,让算卦的上场就成。如果俺们根据往年的气象记录了解到,上海地区在气温、气压、湿度等等气象参数取某个特定值的条件下,历史上的降雨频度为30%。进一步,如果这套气象参数值刚好与明天下午的预估值吻合,那么气象局作出的预报“降雨概率为30%”就有了操作层面的定义。一旦定义具有可操作性,歧义自然消除了,统计学上的推断才提供了有意义的信息。这里俺们学到的是:为了不被马克·吐温所讽刺的用统计制造的谎言忽悠,俺们不仅要了解概率值,还需要理解这些数值的操作定义。

最后俺用一个概率问题的实际计算来结束本帖。再一次假定俺在上海,不仅淋了雨,还不幸赶上了五月份的疫情暴发-_- 当时全上海每日新增的确诊病例在 2.5 万人左右,感染率约为 2.5 万/2500 万=0.1%=0.001。那些日子不得不天天做核酸。查看医学文献,得知核酸检测的假阳性率为 1%(即100个未受感染的健康测试者当中有一例被错报为阳性),而假阴性率为 30%(100个感染者做核酸,有30人未被检测出阳性)。试问:如果某天俺的核酸结果为阳性,俺被确诊为患者的几率是多少?

俺们用字母 \(A\) 表示确诊感染了新冠这一事件,而用字母 \(B\) 表示核酸检测呈阳性的事件。进一步,用逻辑上的非记号 \(\neg A\) 和 \(\neg B\) 分别表示事件 \(A, B\) 并未发生。正如上一段落的估算,俺们已知疫情暴发时感染率的先验值约为 \(P(A)=0.001\),核酸检测的假阳性率和假阴性率分别由条件概率 \(P(B|\neg A)=0.01\) 及 \(P(\neg B|A)=0.3\) 给出。根据贝叶斯公式,核酸呈阳性的人被确诊的几率为
\[
P(A|B)=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\neg A)P(\neg A)}
\]
注意到 \(P(B|A)=1-P(\neg B|A)=0.7\),俺们有
\[
P(A|B)=\frac{0.7\times 0.001}{0.7\times 0.001+0.01\times (1-0.001)}\approx 0.0655\approx 6.6\%
\]
换句话说,尽管俺的核酸阳性,手机里有红码,俺被实际感染的几率不超过百分之七,够低的。

看来这次核酸检测的结果没啥意义,俺可以放心地喝酒去了-_-

加跟贴

笔名:     新网友请先注册笔名 密码:
主题: 进文集
内容: