[文集] [专题] [检索] [独立评论] [海阔天空] [矛盾江湖] [全版论坛]

独立评论

作者: 鸡头肉   由“均值”引发的一个佯谬 2022-08-08 10:20:20  [点击:839]
这周的新闻煞是热闹。热闹过后,俺继续钻个牛角尖,回到概率的形而上理解这一小众话题。

首先对一周之前的讨论稍做回顾。为了探究气象预报中“降水概率”的可操作含义,锄奸队和陆七网友各自提出了一个有趣而实用的方案。锄兄建议随机取样某一地点在历史上的 \(N\) 次预报;设各次预报的降水概率为 \(p_j,~j=1,2,\cdots, N\),它们的平均值由下式给出:
\[
\bar{p}=\frac{1}{N}\sum_{j=1}^{N}p_j
\label{av}
\tag{1}
\]
如果在这 \(N\) 次记录中,该地点实际下雨的次数为 \(n\),那么通过比较预测的均值 \eqref{av} 和实际观测到的下雨频度 \(n/N\),俺们即可“证实”或“证伪”预报所依据的模型,至少可以对该气象模型的可靠性作出评判。

在锄兄所考虑的序列 \(\{p_j~|~1\le j\le N\}\) 中,不同的脚标 \(j\) 对应着历史上不同时刻所做的采样,因此可认为 \(j\) 是(离散化的)时间变量。均值 \eqref{av} 是对时间序列的平均,其中各次预测的概率介于 0 和 1 之间,\(0\le p_j\le 1\)。另一方面,经查看该地实际的下雨记录,俺们可读出这些概率的“终极后验值”,它们只能取 0 或 1:\(p_j=0\) 表示实际记录到未下雨,而 \(p_j=1\) 表示实际记录到了下雨。因此,观测前描述不确定性的先验概率 \(p_j\) 在观测之后尘埃落定,取得了具有确定性的后验值 0 或 1,这个现象有些类似于量子理论中的“波包塌缩”。若把实际观测到的后验值 \(p_j=0,1\) 代入 \eqref{av},即得 \(n/N\),这个后验的观测均值与先验的预报值平均 \(\bar{p}\) 之差别反应了气象模型的预报精准度。

俺故意用如此啰嗦的方式重新表述锄兄的方案,目的是为了将这一方案与陆七兄的方案作比较。陆兄考虑的并非同一地点不同时刻的记录,而是同一时刻不同地点的记录。假定俺们把所关注的某一地区(如上海)网格化,将其划分成 \(N\) 个等面积的小区块,这些区块的面积是如此之小,以至于不会出现“东边日出西边雨”之奇景,换言之在某个给定的时刻,由离散量 \(j=1,2,\cdots, N\) 标记的区块要么整块都下雨,即 \(p_j\) 的终极后验值为 1,要么整块都不下雨,相应的终极后验值为 \(p_j=0\)。在这里,不同的脚标 \(j\) 对应着不同区块所处的地点,因而是(离散化)的空间变量。如果俺们把上述观测到的终极后验值 \(p_j\) 代入 \eqref{av},得出的将是陆七兄所说的“下雨的面积与总面积之比”\(n/N\),其中 \(N\) 为网格化产生的区块总数,\(n\) 为其中发生下雨的区块数。当然,若在实际观测前作预报,人们将按照某个气象模型计算地点 \(j\) 处的下雨概率的先验值 \(p_j\),得出的结果通常会呈现不确定性,故 \(0\le p_j\le 1\) (陆七兄未必认同俺的这一推广解释,他可能认为用气象模型计算出的先验值 \(p_j\) 也只能取 0 或 1;但这个细小的区别并不影响本帖的讨论)。当俺们评估所用的气象模型是好是坏时,仍需要将先验值 \(p_j\) 按 \eqref{av} 式平均,并将所得的 \(\bar{p}\) 与后验值 \(n/N\) 进行比较。

容易看到锄兄和陆兄的方案颇为类似,区别在于一个是对时间序列作平均,另一个则是对空间序列作平均。至于能否“以时间换空间”,在这两个方案之间建起一座等价性桥梁,答案很可能依赖于俺们是否能够提出一个适当的“遍历性假设”(ergodic hypothesis) 并证明之。这个有趣的问题较为复杂,远远超出了本帖的讨论范围。俺在这里要做的脑筋操简单得多,仅仅涉及均值 \eqref{av} 本身。

注意到 \eqref{av} 式给出的是普通的算术平均。现在的问题是:在前面的分析中,俺们为何不用更一般的加权平均
\[
\bar{p}=\frac{\mu_1 p_1+\mu_2 p_2+\cdots+\mu_N p_N}{\mu_1+\mu_2+\cdots+\mu_N}~~~~~~~~~(\mu_j\ge 0)
\label{wav}
\tag{2}
\]
来代替 \eqref{av}?为了理解此问题,不妨定量地引进第 \(j\) 次预测的“可信度”\(\nu_j=\mu_j/(\mu_1+\cdots+\mu_N)\),这是一个如同概率那样介于 0 和 1 之间的数,总和为 \(\sum_{j=1}^N \nu_j=1\)。需要强调的是,可信度 \(\nu_j\) 的高低是由预报或记录过程中的偶然(意外)因素产生的,跟测量仪器的系统误差或气象模型的精准度无关。极端的例子是,工作人员如果在计算或测量 \(p_j\) 时处于醉酒状态,出现了大量的误操作,则将大大压低 \(p_j\) 值的可信度 \(\nu_j\)。为了排除上述偶发原因带来的偏差,一个自然的办法是放弃算术平均而采用 \eqref{wav} 式,或等价地使用
\[
\bar{p}=\nu_1 p_1+\nu_2 p_2+\cdots+\nu_N p_N~~~\left\{
\begin{array}{l}
\nu_1,\nu_2,\cdots,\nu_N\ge 0
\\
\nu_1+\nu_2+\cdots+\nu_N=1
\end{array}\right.
\label{nav}
\tag{3}
\]
这相当于说,并非每次预测或观测对均值都有同等重要的贡献,那些十分不靠谱的结果应得到适当的过滤。

上述建议看起来很理想,问题是当俺们试图实施该建议时,还需要获得各次操作的可信度 \(\nu_j\) 的确切值,进而需要了解该气象局完整的工作信息。通常这是做不到的,所以俺们不得不像锄兄那样,尽量依靠随机取样等手段,给自己蒙上一层“无知之幕”,以便下式定义的香农熵
\[
S=-\sum_{j=1}^N\nu_j\log\nu_j
\label{shannon}
\tag{4}
\]
达到极大值。根据常识,一个系统的熵越大,丢失的信息量就越多。

因可信度始终满足约束方程 \(\nu_1+\nu_2+\cdots+\nu_N=1\),计算 \eqref{shannon} 的极值时可应用熟知的拉格朗日乘子法:
\[
\begin{array}{l}
\displaystyle
f(\nu_1,\cdots,\nu_N)=-\sum_{j=1}^N \nu_j\log\nu_j+\lambda\cdot \left(\sum_{j=1}^N\nu_j-1\right)
\\
\displaystyle
\frac{\partial f}{\partial \nu_j}=-1-\log\nu_j+\lambda=0~\Rightarrow~\nu_j=e^{\lambda-1}
\\
\displaystyle
\frac{\partial f}{\partial \lambda}=\sum_{j=1}^N\nu_j-1=0~\Rightarrow~N\cdot e^{\lambda-1}=1~\Rightarrow~\lambda=1+\log\left(\frac{1}{N}\right)~\Rightarrow~\nu_j=\frac{1}{N}
\\
\displaystyle
\left[\frac{\partial^2 f}{\partial \nu^2_j}\right]_{\nu_j=1/N}=-N<0
\end{array}
\]
上式显示,香农熵在 \(\nu_1=\nu_2=\cdots=\nu_N=1/N\) 处达到极大值 \(\log N\)。将极值点 \(\nu_j=1/N\) 代入 \eqref{nav},加权平均就退化成为算术平均 \eqref{av}。换言之,躲在无知之幕后面的俺们使用算术平均作为讨论的基础是说得过去的。

故事到此并未结束。由于信息的不完全,俺们在计算平均 \eqref{nav} 之时不得不先验地假定权重因子 \(\nu_j\) 都等于相同的 \(1/N\)。这一“平权”(或“等几率”)假设与香农熵的推论一致,也符合“无知之幕”的直觉。但正如概率论中一个关于均值的详谬所揭示的那样,俺们在运用该“直觉”时应保持适当的谨慎,否则容易引起混乱。事实上,在了解到更多的信息之后,先验的概率假定往往需要修正。这正是贝叶斯分析的基本精神。

上段提及的有关均值的佯谬也许不如辛普森悖论那样著名,它在文献中甚至连公认的名称都没有,但该佯谬业已引起越来越多作者的兴趣。这一问题最早可能出自 Christensen 和 Utts 三十年前在《美国统计学家》(The American Statistician) 季刊上发表的一篇论文(俺并非这方面的专家,文献朔源很可能出错),它的一个版本如下:设想某商场搞促销活动,已购物的顾客在离开商场前可去店家老板那里抽奖。老板为每个抽奖的顾客准备了两个外观相同的红包,并告知顾客,其中一个红包放置的金额是另一个的两倍,但未透露具体的数额。抽奖规则是:顾客可取走两个红包中的任意一个;在打开并查看了其中的钱数之后,这位顾客还能再有一次选择:她既可以听取胡平兄的“见好就收”建议,保留抽到的红包离开商场,也可以继续赌一把,把红包及其中的钱悉数归还,换取老板手里的另一只红包(顾客只有这一次交易的机会,交易后不得反悔)。现在,令人纠结的问题是:抽奖者为了自己的收益最大化,她究竟应该见好就收呢,还是应跟老板做一次交易更换红包?

假定顾客打开了抽到的红包,发现其中含有 \(x\) 元。这时她开始盘算:老板手里另一只红包中所含的钱数,有 \(\nu_1=\frac{1}{2}\) 的几率为 \(2x\) 元,同时有 \(\nu_2=\frac{1}{2}\) 的几率为 \(x/2\) 元,如果把另一只红包换到手,那么能领走的金额期望值应按算术平均公式计算:
\[
E:=\nu_1\cdot 2x+\nu_2\cdot \frac{x}{2}=\frac{1}{2}\cdot 2x+\frac{1}{2}\cdot \frac{x}{2}=\frac{5}{4}x
\label{cp}
\tag{5}
\]
该期望值大于手中已领到的 \(x\) 元!经过一番激烈的思想斗争,抽奖者决定不被“见好就收”策略所忽悠,毅然决然地从老板那里更换了红包。

这位顾客的思考过程看起来挺合理,得出的结论却是荒谬的:从两个外观相同的红包中随机取走一个,顾客取走的和留在老板那里的红包地位完全对等,凭什么取走一个后再更换另一个就能得出更大的获益预期呢?

解决上述佯谬的诀窍,在于顾客打开了第一个红包并查看到其中的金额数为 \(x\) 元后,将获得一份额外的信息。此时,抽奖者可利用有关的信息,对权重因子的先验假设 \(\nu_1=\nu_2=\frac{1}{2}\) 作出修正,使最后的结果更为可靠(换句话说,她应该做一点点贝叶斯分析)。为了说明 \(\nu_1, \nu_2\) 的确依赖于观测到的 \(x\),让俺们考虑一个极端的情形:假定商场老板的总资产(或身价)为 \(M\) 元,如果抽奖者在第一个红包中观察到 \(x>M/2\),那么她立马可以断定 \(\nu_1=0,\nu_2=1\),即另一个红包含 \(x/2\) 元的几率为 1,而含 \(2x\) 元的几率为 0(老板设立的奖金数不可能超过他自己的资产)。俺们还可以设想不那么极端的情形:倘若这位顾客碰巧是老板太太的闺蜜,早些天跟老板娘闲聊时得知老板这个月举办抽奖活动的预算为900元。当这位顾客抽到了500元的红包时,遵从“见好就收”的建议显然是明智的,否则她只能收获 250-_-

上面的考虑给出一个笼统的提示:如果抽奖者在第一个红包中观察到足够大的金额 \(x\),则应该保留此红包,否则,她应当进行交易,领取另一个红包。这显然符合胡平兄的“见坏就上、见好就收”的原则。问题是这个建议和胡平兄的原则一样华而不实——在抽奖者得知进一步的信息(如老板的身价或者老板搞抽奖活动的预算,等等)之前,是无法确定 \(x\) 究竟达到何值时才算“足够大”。

考虑一个简化到几乎平庸的模型。第一个红包的金额数可能大于另一个——该情形出现时记以 \(C=H\);同样,第一个红包的金额数也可能小于另一个——该情形出现时记以 \(C=L\)。当俺们打开第一个红包,在观察到其中钱数为 \(x\) 元的条件下,\eqref{cp} 中的权重 \(\nu_1\) 应由条件概率 \(P(C=L|x)\) 确定,而 \(\nu_2\) 应由条件概率 \(P(C=H|x)\) 确定。于是 \eqref{cp} 可表成
\[
E=\left(2P(C=L|x)+\frac{1}{2}P(C=H|x)\right)x
\label{Eav}
\tag{6}
\]
引进比值 \(\lambda=P(x|C=L)/P(x|C=H)\),注意到 \(P(C=L)=P(C=H)=\frac{1}{2}\),根据贝叶斯定理,俺们有
\[
\begin{array}{l}
\displaystyle
P(C=L|x)=\frac{P(x|C=L)P(C=L)}{P(x|C=L)P(C=L)+P(x|C=H)P(C=H)}=\frac{P(x|C=L)}{P(x|C=L)+P(x|C=H)}=\frac{\lambda}{1+\lambda}
\\
\displaystyle
P(C=H|x)=\frac{P(x|C=H)P(C=H)}{P(x|C=L)P(C=L)+P(x|C=H)P(C=H)}=\frac{1}{1+\lambda}
\end{array}
\]
将上式代入 \eqref{Eav} 得
\[
E=\frac{1+4\lambda}{1+\lambda}\cdot\frac{x}{2}
\label{Gav}
\tag{7}
\]
取 \(\lambda=1\) 相当于先验地采用了等几率假设 \(P(C=L|x)=P(C=H|x)=\frac{1}{2}\),此时的期望值 \eqref{Gav} 退化为佯谬出现的情形 \eqref{cp}。为了避免出现佯谬,俺们的模型必须排除 \(\lambda=1\)。在“最低阶近似”下,假定 \(P(x|C=L), P(x|C=H)\) 均来自阶梯式的均匀密度分布
\[
\begin{array}{l}
\displaystyle
\rho(x|C=L)=\left\{
\begin{array}{ll}
\displaystyle
\frac{1}{X_{\max}-X_{\min}}, & x\in [X_{\min},X_{\max}]
\\
\displaystyle
0, & x\notin [X_{\min},X_{\max}]
\end{array}\right.
\\
\rho(x|C=H)==\left\{
\begin{array}{ll}
\displaystyle
\frac{1}{2X_{\max}-2X_{\min}}, & x\in [2X_{\min},2X_{\max}]
\\
\displaystyle
0, & x\notin [2X_{\min},2X_{\max}]
\end{array}\right.
\end{array}
\]
其中 \(X_{\min}\) 和 \(X_{\max}\) 是预先设定的有限数。假定商场老板颇有商业头脑,俺们在模型中可将 \(X_{\min}\) 合理地设成为比零大一点的某个正数,如 \(X_{\min}=5\)(否则,预设 \(X_{\min}=0\) 相当于假定老板不近人情地抠门);又假定老板设立的抽奖活动有一定的刺激性,俺们可合理预设 \(X_{\max}\) 之值起码比 \(X_{\min}\) 大两倍,例如 \(X_{\max}=20\)。在这种设置下,概率密度 \(\rho(x|C=L), \rho(x|C=H)\) 的非零区间就有了非空的交叠,\([X_{\min},X_{\max}]\cap [2X_{\min},2X_{\max}]=[2X_{\min},X_{\max}]\)。由此可得
\[
\lambda=\frac{\rho(x|C=L)dx}{\rho(x|C=H)dx}=\left\{
\begin{array}{ll}
\mbox{未定值}~0/0, & x< X_{\min}
\\
\infty, & X_{\min}\le x <2 X_{\min}
\\
2, & 2 X_{\min}\le x\le X_{\max}
\\
0, & X_{\max} < x\le 2X_{\max}
\\
\mbox{未定值}~0/0, & x> 2X_{\max}
\end{array}\right.
\]
这个最低阶近似下的平庸模型已经排除了佯谬出现的可能性 \(\lambda=1\)。根据这一模型,当抽奖者观察到第一个红包所含的金额“很小”,即 \(X_{\min}\le x < 2 X_{\min}\) 时,可把相应的 \(\lambda=\infty\) 代入贝叶斯均值 \eqref{Gav},得出另一只红包的金额期望值为
\[
E=4\cdot\frac{x}{2}=2x>x
\]
如果第一只红包中的金额数“较小”,亦即 \(2 X_{\min}\le x\le X_{\max}\) 时,可把相应的 \(\lambda=2\) 代入贝叶斯均值 \eqref{Gav},俺们将类似地得出另一只红包的金额期望值:
\[
E=\frac{9}{3}\cdot\frac{x}{2}=\frac{3}{2}x>x
\]
在这两种“小 \(x\)”的情形,由于交换红包所产生的收益预期均大于不作交易,抽奖者应当遵循“见坏就上”,在老板那里更换红包-_-

另一方面,如果第一只红包中的金额数“较大”,即 \(x\) 满足 \(X_{\max} < x\le 2X_{\max}\),那么在 \eqref{Gav} 中代入相应的 \(\lambda=0\),立得另一只红包所含的金额期望值
\[
E=\frac{x}{2}<x
\]
在此“大 \(x\)”的情形,交换红包所产生的收益预期小于不作交易,因此抽奖者应该“见好就收”,保留手中的红包。

这样,通过上述简化模型的贝叶斯分析,俺们避免了红包悖论的出现,并且准定量地看到胡平兄的“见好就收”原理并非一无是处。当然,这个玩具模型离现实世界还是有距离的,本帖的讨论并不能赋予胡平兄任何豁免权,使该同志不被批评或指责-_-
最后编辑时间: 2022-08-08 11:21:29

加跟贴

笔名:     新网友请先注册笔名 密码:
主题: 进文集
内容: