现在假设你是一个赌徒,跟人打赌抛硬币猜正反面。猜到了就赢一万,猜错了了就输一万。
规则是这样:随机挑选一枚银币,然后试抛一次。之后下注,然后抛硬币看结果。
你如果是这个赌徒,你应该怎么下注?
收益的数学期望又是如何呢?
让我们把这个问题留到后面……我们先给硬币建一个模型。
一, 一些基本概念
理想的情况下,一个硬币两面朝上的概率应该相同。我们现在用一个参数:均匀性,来表示这个硬币两面朝上的概率。
理想情况下,一枚硬币的均匀性为 50%。这意味着正面朝上或者是反面朝上的概率都是百分之五十。
用一个二维图表来表达很多个硬币的密度的分布情况。这样我们就可以考虑另外一个概率:我们拿到一个硬币,他的均匀性位于某个均匀性区间的概率。
图一:某种粗糙制造工艺下,硬币的均匀性分布:
注意,图中的面积代表了概率。曲线和 x 轴组成的用的面积应该被归一化为 1。这表示随机取一枚硬币,它的均匀性总是一定会处于 0% 到 100% 之间的某处。
图二:取一枚硬币,其均匀性处于 30% 和 40% 之间的概率,在图表上的示意。
我们可以看到,图中蓝色部分的面积处以总面积(这就是归一化的过程)表示了我们随机取一枚硬币,均匀性处于 30% 和 40% 之间的概率。
需要说明的是,为了讨论问题的方便,对于某个批次的硬币。由于它们已经被生产出来,所以我们假设他有固定的均匀性分布。
图三:理想国生产的理想硬币的均匀性分布。
上图表示在理想国生产的理想硬币的均匀性分布,由于在理想国,生产的每个硬币其均匀性都是 50%,而其他均匀性的可能是 0。所以均匀性图像从一个二维图像,变窄变窄变窄,最后变成了一根竖线。
没有底边长的矩形……就意味着这是在真实的世界里不可能发生的事情。
真实世界里,更有可能出现的分布更可能像下图这个样子:
图四:真实世界中硬币密度的正态分布
真实世界中的硬币更有可能服从如上图所示的正态分布。有很大的可能是,硬币的均匀性总是分布在理想值附近。可是,总是有这样或者那样的原因,使得其中一些硬币,没有办法达到理想的情况。最后的结果,就是其中某些硬币就会偏离理想值。
图形分布的样子,其宽窄情况,取决于各种因素,总的来说,会取决于制造这些硬币所使用的工艺,技术,制造员的心情,还有他女朋友的心情,etc.
(当然,除开制造的部分,这个世界上还有许多未可知的事儿,像是这个:http://www.zhihu.com/question/21634580/answer/28674977 也就会导致一些不按正态分布分布的硬币)
上面铺垫了这么多,好像下笔千言,离题万里的样子……接下来我们要切题一些。
二,实验结果能告诉我们什么
所以接下来,我们要说这个:抛一个硬币 100 次,得到了一个正面,反面次数的实验数据,我们能从这个数据里面看到什么呢?
为了讨论方便,我们要先做一个假设,假设我们是从一个均匀性为均匀分布的硬币里拿出了一枚硬币,来做的这 100 次实验。
我们能通过实验的结果,确定硬币的均匀性到底是什么样吗?
答案是不能,因为我们虽然做了这么多次实验,可是实验有随机性。因为这些随机性,我们不能得到确定的硬币均匀性。
这并不代表我们对硬币的情况是一无所知的。
事实上,我们可以倒着推导:我们做实验的这枚硬币,其均匀性处于某一区间的可能性。
这里注意两个不同的概念……我们不能得到这枚硬币的真实均匀性是多少,可是我们可以得到这枚硬币均匀性大约是多少的可能性。
没有做实验以前,我们会有一个概念,我们拿到的这个硬币,它处于任一均匀性的概率是相等的。
假设我们只做了一次实验,得到一个向上的结果。那么我们将如何猜测这玫硬币会是什么样的均匀性呢?
如果已知硬币来自均匀分布的样本池,那么当第一次实验结束以后,硬币可能的均匀性会是下图这个样子:
图五:得到了一次实验数据之后的样品均匀性的可能分布。
可以看到,硬币的均匀性的可能性分布的一端,直接下降到 0,而其可能性随着其分布作线性变化。
可以发现,硬币的均匀性为 0 的概率没有了。
均匀性为 10% 到 20% 的可能性,当然是有的,只不过比均匀性在 80% 到 90% 的可能性小多了。
这也符合预期,不是吗?
而硬币均匀性为 100% 的概率密度会最高。(如果在此有疑问,请倒回去看前文,我们做了一个(不那么符合实际情况的)假设,假设硬币的均匀性符合均匀的分布。)
到目前,我们可以看到,一次实验以后,我们可以大概对硬币的真实均匀性有一个粗略的了解。
但我们甚至都不能去猜测这个硬币的真实均匀性会是如何。我们得到的这个概率分布,实在是非常的宽泛,分辨率极低。
为了有一个更准确的猜测,我们试着再进行一次实验。
假设这次的实验结果跟第一次实验相反,硬币反面朝上,那么这个实验结果会告诉我们什么呢?
概率密度会正比于 u*(1-u)
其中 u 表示 x 轴上的变量:均匀性。
图六:两次实验以后,一正一反两次实验结果所暗示我们的,手中这枚硬币可能的均匀性的概率分布。
既然得到了一正一反两次结果,很容易会想到,硬币的均匀性在 50 的可能性应该是挺大的。跟我们的猜想相符,在 50% 处,我们看到了最高的概率密度。
而且,我们看到了跟图五相比,更为“集中”的分布。我们看到概率密度在靠近 50% 的地方,更为陡峭的突起。
这意味着,要是我们靠两次的实验结果来猜硬币的均匀性,我们有更高的概率接近真实值。
所以,更多次的实验,会让我们得到更加陡峭,更加集中的概率图像,使得我们更能猜到一个更精确的范围,并且有更大的可能性猜得准确。
是这样的吗?
假如我们做了十次实验,其中五次朝上,五次朝下。那么硬币可能的均匀性的概率分布将是正比于 u^5*(1-u)^5
如下图所示
图七,十次实验,五次朝上,五次朝下以后,硬币均匀性的可能性的概率分布图
我们可以看到,一个更加细长的分布…其中心值位于 50%。
这并不是说硬币的均匀性不可能是在 10% 到 11%,只是这种可能性,只有硬币的均匀性在 50% 到 51% 之间的可能性的万分之六。
随着实验次数的增加,我们会发现,这个突起会越来越强,越来越窄。如果这里我们引入另一个术语“方差”来表示分布图像的集中程度,我们会发现,随着实验次数的增加,方差会变的越来越小。这里不加证明地提一个猜测,方差的大小会反比与实验的次数。
而这样的结果,除了在均值处的突起更明显以外,还有另外一个结果,就是在偏离突起的地方,概率密度会迅速地下落。
上面是均匀的硬币的情况。假如我们做了 1000 次实验,结果是 250 次朝上,750 次朝下,我们做实验用的硬币的可能的均匀性分布会是怎样呢?
均匀性为 u 处的概率密度将正比于 u^25*(1-u)^75
注意这个分布的最高概率点在 1/4 处,符合预期。
三,把第一部分和第二部分揉到一起。
以上讨论了两个部分,一是实际世界里,硬币均匀性的可能的分布。二是我们能从实验的结果里,倒着得到被实验物体的相关信息…虽然是以概率的形式,但随着实验次数的增加,不确定性会变得越来越小……即使无法完全消除。
但是我们基于第二点的讨论,是建立在硬币的均匀性是均匀分布的条件下的。实际情况当然不会是这个样子,而应该像第一部分提到的那样,服从一个中心值在 50% 的正态分布。
现在问题来了,假如我们的样品池里的样品不再是均匀分布的,通过实验,我们还能倒着去研究它的均匀性的可能的情况吗?
答案很简单,是可以的。我们只需要把样品池的概率曲线,乘以在均匀样本的假设下,通过实验反推到的样品可能的均匀性的概率曲线就行了。
假如我们从服从均值为 0.5 的正态分布的硬币池中拿出一枚硬币,用它做了 1 次试验,试验的结果多半不会影响我们的想法:我们还是会认为这个硬币还是正常硬币的可能性大。
假如做了十次试验,结果有 3 次上,七次下,我们会想,嗯,也许这是枚均匀性朝零偏离的硬币,但是还好吧,一个正常硬币也有很大概率如此。
可是我们要是一万次的结果都是如此,也许就说明这枚硬币本身有很大概率就是不均匀的。
这些都可以用上面说的两个概率相乘来看到:我们先假定硬币服从中心值为 0.5,方差为 0.02 的正态分布。
a 试验 100 次得到四分之一朝朝上的情况下,硬币可能的均匀性概率分布
b 一千次试验,1/4 朝上的情况下,硬币均匀性的概率分布
c 三千次试验,1/4 朝上,硬币的均匀性概率分布
有没有发现图形在朝左移?
好了,回到题主的问题,现在我们做了一亿次的实验,正面都是朝上的。那么,在样本空间服从均匀分布的情况下,硬币均匀性为 1 的概率密度,将是为 50% 处的概率密度的 2 的一亿次方。这是一个相当吓人的数字。大约应该是 1 的后面三千万个 0。
而我们这个世界上有多少枚硬币呢?假设我们的硬币总价值是 100 亿,就算我们有一千亿个硬币吧,也不过是 1 的后面十来个 0。
这么多个硬币里面,应该有个把个两面都是正面的吧?
所以,样本空间里,两面都是正面的可能是大于一千亿分之一的。
假设其他的都是好硬币……那么我们现在把两个概率函数相乘再做归一化。得到的结果将还是:
图八:考虑真实情况以后的一亿次投币之后的硬币均匀性概率分布。
图略,就是在 x=1 处等于一,然后小于 1 一点就快速下降......给不了图的原因是 Matlab 似乎处理不了 x^100000000 这么变态的函数。
所以这就是说
有 99.9999…% 的概率,你拿到了一枚均匀性为 1 的硬币。
虽然你拿到的是个好的硬币的概率依然存在。但是无论如何,我会相信下一次你抛这枚硬币,还是正面朝上。
我赌十块钱再加一顿中饭。
好了,这就结尾了。
关于本答案开始的那个问题,答案是……应该 follow 试抛一次的结果。
谢谢
于半夜调时差中。