楠木軒

知乎日報:一枚硬幣扔了一億次都是正面朝上再扔一次反面朝上的概率是多少?

由 戚國慶 發佈於 經典

  現在假設你是一個賭徒,跟人打賭拋硬幣猜正反面。猜到了就贏一萬,猜錯了了就輸一萬。

  規則是這樣:隨機挑選一枚銀幣,然後試拋一次。之後下注,然後拋硬幣看結果。

  你如果是這個賭徒,你應該怎麼下注?

  收益的數學期望又是如何呢?

  讓我們把這個問題留到後面……我們先給硬幣建一個模型。

  一, 一些基本概念

  理想的情況下,一個硬幣兩面朝上的概率應該相同。我們現在用一個參數:均勻性,來表示這個硬幣兩面朝上的概率。

  理想情況下,一枚硬幣的均勻性為 50%。這意味着正面朝上或者是反面朝上的概率都是百分之五十。

  用一個二維圖表來表達很多個硬幣的密度的分佈情況。這樣我們就可以考慮另外一個概率:我們拿到一個硬幣,他的均勻性位於某個均勻性區間的概率。

  圖一:某種粗糙製造工藝下,硬幣的均勻性分佈:

  注意,圖中的面積代表了概率。曲線和 x 軸組成的用的面積應該被歸一化為 1。這表示隨機取一枚硬幣,它的均勻性總是一定會處於 0% 到 100% 之間的某處。

  圖二:取一枚硬幣,其均勻性處於 30% 和 40% 之間的概率,在圖表上的示意。

  我們可以看到,圖中藍色部分的面積處以總面積(這就是歸一化的過程)表示了我們隨機取一枚硬幣,均勻性處於 30% 和 40% 之間的概率。

  需要説明的是,為了討論問題的方便,對於某個批次的硬幣。由於它們已經被生產出來,所以我們假設他有固定的均勻性分佈。

  圖三:理想國生產的理想硬幣的均勻性分佈。

  上圖表示在理想國生產的理想硬幣的均勻性分佈,由於在理想國,生產的每個硬幣其均勻性都是 50%,而其他均勻性的可能是 0。所以均勻性圖像從一個二維圖像,變窄變窄變窄,最後變成了一根豎線。

  沒有底邊長的矩形……就意味着這是在真實的世界裏不可能發生的事情。

  真實世界裏,更有可能出現的分佈更可能像下圖這個樣子:

  圖四:真實世界中硬幣密度的正態分佈

  真實世界中的硬幣更有可能服從如上圖所示的正態分佈。有很大的可能是,硬幣的均勻性總是分佈在理想值附近。可是,總是有這樣或者那樣的原因,使得其中一些硬幣,沒有辦法達到理想的情況。最後的結果,就是其中某些硬幣就會偏離理想值。

  圖形分佈的樣子,其寬窄情況,取決於各種因素,總的來説,會取決於製造這些硬幣所使用的工藝,技術,製造員的心情,還有他女朋友的心情,etc.

  (當然,除開製造的部分,這個世界上還有許多未可知的事兒,像是這個:http://www.zhihu.com/question/21634580/answer/28674977 也就會導致一些不按正態分佈分佈的硬幣)

  上面鋪墊了這麼多,好像下筆千言,離題萬里的樣子……接下來我們要切題一些。

  二,實驗結果能告訴我們什麼

  所以接下來,我們要説這個:拋一個硬幣 100 次,得到了一個正面,反面次數的實驗數據,我們能從這個數據裏面看到什麼呢?

  為了討論方便,我們要先做一個假設,假設我們是從一個均勻性為均勻分佈的硬幣裏拿出了一枚硬幣,來做的這 100 次實驗。

  我們能通過實驗的結果,確定硬幣的均勻性到底是什麼樣嗎?

  答案是不能,因為我們雖然做了這麼多次實驗,可是實驗有隨機性。因為這些隨機性,我們不能得到確定的硬幣均勻性。

  這並不代表我們對硬幣的情況是一無所知的。

  事實上,我們可以倒着推導:我們做實驗的這枚硬幣,其均勻性處於某一區間的可能性。

  這裏注意兩個不同的概念……我們不能得到這枚硬幣的真實均勻性是多少,可是我們可以得到這枚硬幣均勻性大約是多少的可能性。

  沒有做實驗以前,我們會有一個概念,我們拿到的這個硬幣,它處於任一均勻性的概率是相等的。

  假設我們只做了一次實驗,得到一個向上的結果。那麼我們將如何猜測這玫硬幣會是什麼樣的均勻性呢?

  如果已知硬幣來自均勻分佈的樣本池,那麼當第一次實驗結束以後,硬幣可能的均勻性會是下圖這個樣子:

  圖五:得到了一次實驗數據之後的樣品均勻性的可能分佈。

  可以看到,硬幣的均勻性的可能性分佈的一端,直接下降到 0,而其可能性隨着其分佈作線性變化。

  可以發現,硬幣的均勻性為 0 的概率沒有了。

  均勻性為 10% 到 20% 的可能性,當然是有的,只不過比均勻性在 80% 到 90% 的可能性小多了。

  這也符合預期,不是嗎?

  而硬幣均勻性為 100% 的概率密度會最高。(如果在此有疑問,請倒回去看前文,我們做了一個(不那麼符合實際情況的)假設,假設硬幣的均勻性符合均勻的分佈。)

  到目前,我們可以看到,一次實驗以後,我們可以大概對硬幣的真實均勻性有一個粗略的瞭解。

  但我們甚至都不能去猜測這個硬幣的真實均勻性會是如何。我們得到的這個概率分佈,實在是非常的寬泛,分辨率極低。

  為了有一個更準確的猜測,我們試着再進行一次實驗。

  假設這次的實驗結果跟第一次實驗相反,硬幣反面朝上,那麼這個實驗結果會告訴我們什麼呢?

  概率密度會正比於 u*(1-u)

  其中 u 表示 x 軸上的變量:均勻性。

  圖六:兩次實驗以後,一正一反兩次實驗結果所暗示我們的,手中這枚硬幣可能的均勻性的概率分佈。

  既然得到了一正一反兩次結果,很容易會想到,硬幣的均勻性在 50 的可能性應該是挺大的。跟我們的猜想相符,在 50% 處,我們看到了最高的概率密度。

  而且,我們看到了跟圖五相比,更為“集中”的分佈。我們看到概率密度在靠近 50% 的地方,更為陡峭的突起。

  這意味着,要是我們靠兩次的實驗結果來猜硬幣的均勻性,我們有更高的概率接近真實值。

  所以,更多次的實驗,會讓我們得到更加陡峭,更加集中的概率圖像,使得我們更能猜到一個更精確的範圍,並且有更大的可能性猜得準確。

  是這樣的嗎?

  假如我們做了十次實驗,其中五次朝上,五次朝下。那麼硬幣可能的均勻性的概率分佈將是正比於 u^5*(1-u)^5

  如下圖所示

  圖七,十次實驗,五次朝上,五次朝下以後,硬幣均勻性的可能性的概率分佈圖

  我們可以看到,一個更加細長的分佈…其中心值位於 50%。

  這並不是説硬幣的均勻性不可能是在 10% 到 11%,只是這種可能性,只有硬幣的均勻性在 50% 到 51% 之間的可能性的萬分之六。

  隨着實驗次數的增加,我們會發現,這個突起會越來越強,越來越窄。如果這裏我們引入另一個術語“方差”來表示分佈圖像的集中程度,我們會發現,隨着實驗次數的增加,方差會變的越來越小。這裏不加證明地提一個猜測,方差的大小會反比與實驗的次數。

  而這樣的結果,除了在均值處的突起更明顯以外,還有另外一個結果,就是在偏離突起的地方,概率密度會迅速地下落。

  上面是均勻的硬幣的情況。假如我們做了 1000 次實驗,結果是 250 次朝上,750 次朝下,我們做實驗用的硬幣的可能的均勻性分佈會是怎樣呢?

  均勻性為 u 處的概率密度將正比於 u^25*(1-u)^75

  注意這個分佈的最高概率點在 1/4 處,符合預期。

  三,把第一部分和第二部分揉到一起。

  以上討論了兩個部分,一是實際世界裏,硬幣均勻性的可能的分佈。二是我們能從實驗的結果裏,倒着得到被實驗物體的相關信息…雖然是以概率的形式,但隨着實驗次數的增加,不確定性會變得越來越小……即使無法完全消除。

  但是我們基於第二點的討論,是建立在硬幣的均勻性是均勻分佈的條件下的。實際情況當然不會是這個樣子,而應該像第一部分提到的那樣,服從一箇中心值在 50% 的正態分佈。

  現在問題來了,假如我們的樣品池裏的樣品不再是均勻分佈的,通過實驗,我們還能倒着去研究它的均勻性的可能的情況嗎?

  答案很簡單,是可以的。我們只需要把樣品池的概率曲線,乘以在均勻樣本的假設下,通過實驗反推到的樣品可能的均勻性的概率曲線就行了。

  假如我們從服從均值為 0.5 的正態分佈的硬幣池中拿出一枚硬幣,用它做了 1 次試驗,試驗的結果多半不會影響我們的想法:我們還是會認為這個硬幣還是正常硬幣的可能性大。

  假如做了十次試驗,結果有 3 次上,七次下,我們會想,嗯,也許這是枚均勻性朝零偏離的硬幣,但是還好吧,一個正常硬幣也有很大概率如此。

  可是我們要是一萬次的結果都是如此,也許就説明這枚硬幣本身有很大概率就是不均勻的。

  這些都可以用上面説的兩個概率相乘來看到:我們先假定硬幣服從中心值為 0.5,方差為 0.02 的正態分佈。

  a 試驗 100 次得到四分之一朝朝上的情況下,硬幣可能的均勻性概率分佈

  b 一千次試驗,1/4 朝上的情況下,硬幣均勻性的概率分佈

  c 三千次試驗,1/4 朝上,硬幣的均勻性概率分佈

  有沒有發現圖形在朝左移?

  好了,回到題主的問題,現在我們做了一億次的實驗,正面都是朝上的。那麼,在樣本空間服從均勻分佈的情況下,硬幣均勻性為 1 的概率密度,將是為 50% 處的概率密度的 2 的一億次方。這是一個相當嚇人的數字。大約應該是 1 的後面三千萬個 0。

  而我們這個世界上有多少枚硬幣呢?假設我們的硬幣總價值是 100 億,就算我們有一千億個硬幣吧,也不過是 1 的後面十來個 0。

  這麼多個硬幣裏面,應該有個把個兩面都是正面的吧?

  所以,樣本空間裏,兩面都是正面的可能是大於一千億分之一的。

  假設其他的都是好硬幣……那麼我們現在把兩個概率函數相乘再做歸一化。得到的結果將還是:

  圖八:考慮真實情況以後的一億次投幣之後的硬幣均勻性概率分佈。

  圖略,就是在 x=1 處等於一,然後小於 1 一點就快速下降......給不了圖的原因是 Matlab 似乎處理不了 x^100000000 這麼變態的函數。

  所以這就是説

  有 99.9999…% 的概率,你拿到了一枚均勻性為 1 的硬幣。

  雖然你拿到的是個好的硬幣的概率依然存在。但是無論如何,我會相信下一次你拋這枚硬幣,還是正面朝上。

  我賭十塊錢再加一頓中飯。

  好了,這就結尾了。

  關於本答案開始的那個問題,答案是……應該 follow 試拋一次的結果。

  謝謝

  於半夜調時差中。