從美國大選預測分析,聊聊數據分析的7個段位

編輯導讀:美國大選進入倒計時,網友們都在熱火朝天地討論誰會是最後勝出的人選,他們有的憑靠“第六感”預測,有的拿出數據圖力證……本文作者通過對這些預測方案的梳理,對他們數據分析的段位進行了“點評”,一起來看看~

從美國大選預測分析,聊聊數據分析的7個段位

2020年美國大選馬上就要揭曉結果了,最近大選預測的文章好多。看了幾篇,發現預測大選的方法和數據分析挺像。

總結了幾種預測,差不多是青銅到王者都有,一起看看這些分析都有哪些類型。

01 青銅

青銅級的分析選手會説:美國大選不在乎到底誰最後贏得了總統。不管是特朗普還是拜登,對華的政策都是巴拉巴拉巴拉巴拉,他們都會延續巴拉巴拉巴拉。

這些分析如果拿到中美關係的發展趨勢下,沒什麼問題。但是在預測美國大選誰會當選的問題下,這個問題就顯得很奇怪了,因為他們連問題都沒搞清楚。

我們問的是誰會當選?你回答的是誰當選都一樣。

當然,他們這麼寫更多的是給熱血讀者看的。在這個層面上,回答的其實很好。

對於數據分析來説,這種直接青銅級,完全答非所問。

02 白銀

白銀級選手會這麼説:此次美國大選,雙方都有機會。

民主黨的拜登為什麼會贏?因為大家都煩特朗普、民調佔優巴拉巴拉,説一些拜登能當選的原因。

然後話鋒一轉,再説特朗普也不是沒有機會。特朗普在2016年就創造了奇蹟,這次的民調依然不能作為證據,然後再説特朗普可能當選的原因。

總結來説,這類預測是説兩邊都有機會。

白銀級的這個回答呢,至少會圍繞問題回答。雖然沒有正面回答,但至少他告訴了我,兩邊各自的優勢和缺點,還是帶來一些信息的,所以算是白銀級。

03 黃金

黃金級別的選手:會明確的告訴你預測到底是特朗普還是拜登贏。

有些支持特朗普,會把支持特朗普的證據擺出來,比如紅脖子的支持,民調的不靠譜,美國的割裂等等。

有些支持拜登,會説特朗普疫情的糟糕表現,民調的結果,辯論的良好表現等等。

這些分析確實給了一個明確的答案,也給出了些理由,似乎沒什麼問題。

但是支撐他們結論的理由往往都是觀點,而不是事實。這些觀點,要深究下去有很多邏輯問題。

所以這種分析啊最多算黃金級。

04 鉑金

鉑金選手會用事實來證明觀點。

我昨天看到篇文章説特朗普一定能贏。給的理由是什麼呢?他用了谷歌的搜索指數,特朗普的搜索指數一直要比拜登的更高。

而且他還分析得很細,考慮到美國選舉的選舉人制度,必須把州的情況考慮進來。於是他把每個州的數據都畫出來了,結論依然是支持特朗普能贏。

鉑金選手已經開始有數據的意識,會用事實來證明他的結論。但是這個谷歌指數跟投票之間到底有沒有必然的關聯?這個沒有給出證明,邏輯上有一定的漏洞。

這篇文章本來還收藏了,準備寫文章的時候截個圖,結果今天已經被刪了。

總的來説已經開始有數據分析的思維了,就是細節沒做好,給個鉑金。

05 鑽石

來到鑽石組,這個級別開始靠譜起來了。

鑽石選手呢,會列舉目前提前投票的數據,列出各個州不同的投票人數,以及目前的投票比例。依靠這些數據算出最終的選舉人票,然後給出了一個結論,目前是誰更有優勢。

這種分析已經開始進入數據分析的範疇了,相比鉑金選手好的地方是鑽石選手用的數據更可靠,直接反應結果,而不是關聯度不高的搜索數據。

不過鑽石選手沒有繼續深挖,他只是表明了現狀,給出了目前暫時的投票結果,算是歸納法。要想更精確,得用演繹法,也就是後續會如何演化,推算出最終的獲勝者。

06 星耀

星耀組的選手開始深入選舉的機制,從機制上進行推演。

星耀選手從選舉的機制入手,分析兩個候選人肯定能拿的票有哪些,肯定丟的票有哪些,然後各自需要爭取的有哪些。然後再分析搖擺州目前現狀是什麼樣的,誰的贏面更大。

星耀選手相比鑽石選手呢在數據上更加深挖了他從選舉制機制入手。

對特朗普和拜登分別分析他們兩者的得票情況:哪些州是肯定能拿到的,哪些州是肯定拿不到的。然後結合目前的提前投票的數據,計算出各自能得到的票數,這樣分析的結果一般是特朗普落選。

這還沒完。

然後再列舉出如果特朗普最終獲勝,存在哪幾種可能性。哪幾個州要翻紅才能讓特朗普獲勝,分別的組合是那些。

最後彙總給出結論,基本可以肯定是拜登獲勝,特朗普有小概率能翻盤,如果翻盤的話會是哪幾種情況。

這樣的分析已經非常全面了。

給個星耀,怕他驕傲。

07 王者

那麼最終王者的分析是什麼樣的呢?

前段時間知乎上的數據帝chenqin做了一個分析。很可惜,那個知乎問題已經刪掉了,所以現在已經無法追溯原貼了。

我大概説明一下:

首先,用數據預測大選,原來的做法是民調的數據。在過去民調數據預測是基本可信的,最終結果基本不會錯。但是為啥原來的這套方法不管用了呢?

因為2016年的大選,特朗普民調落後,最終卻贏得了大選。這給很多玄學的“美國觀察家”提供了豐富的豐富的創作土壤。

chenqin把各州的民調數據結果和最終的投票結果做了一個迴歸,發現民調結果和最終的選舉結果高度擬合,這也可以證明民調確實可以預測大選,而且可信度非常高。

但是擬合度再高,也會有誤差,這個誤差在3%左右。也就是説優勢的一方必須在民調上有4%的領先,才能確定結果。而2016年的民調,希拉里領先特朗普只有2.3%,最終這個誤差導致了希拉里的失敗。

從美國大選預測分析,聊聊數據分析的7個段位

這其中美國的選舉人票制度放大了這個誤差。(美國的選舉制度,比如佛羅里達州一共29張選舉人票,投共和黨的票數只要比民主黨多一票,那麼共和黨拿全部的29張選舉人票。)

那今年的民調結果差距如何呢?

從美國大選預測分析,聊聊數據分析的7個段位

拜登領先8%。

所以從這個數據上來看,拜登贏定了。

這個分析為什麼是王者級。

因為不用看提前投票的情況,根據歷史數據和投票前的民調數據直接預測了結果,時效性最強。

總結

當然最終的結果沒有出來,一切都有變數。至於究竟誰當選,不是這次話題的重點。

附:還有一個數據大神nate sliver的大選預測,他的方法屬於數據建模,不是特別偏分析。而且16年的時候翻車的很厲害,我個人不太喜歡。

#專欄作家#

三元方差,公眾號:三元方差(sanyuanfangcha),人人都是產品經理專欄作家。專注用數據驅動業務增長,擅長數據分析、用户增長。喜歡閲讀、思考和創作。

本文原創發佈於人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基於CC0協議

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2486 字。

轉載請註明: 從美國大選預測分析,聊聊數據分析的7個段位 - 楠木軒