歸因分析指南v1.0

歸因是一個跨領域的方法，在數據分析、深度學習、廣告營銷、心理學、投資都有相關的理論研究。趁週末時間，完成了歸因指南的第一個版本（以後還會不斷迭代的），分享給大家。

- 什麼是歸因 attribution

漢語上理解，指的是觀察者對他人的行為過程或自己的行為過程所進行的因果解釋和推論。歸因——因果解釋和推論。

attribution

psychology : the interpretive process by which people make judgments about the causes of their own behavior and the behavior of others

歸因最早源於心理學：人們對自己的行為起因和他人的行為進行推斷的解釋過程。

歸因分析是一種可以跨領域使用的方法（技術），能幫助我們看清影響結果的關鍵因素，從而不會輕易被表象所迷惑。從心理學到消費者行為，再到人力資源管理、績效評估和團隊領導力，基金股票投資決策，甚至延伸到互聯網廣告的效果優化（計算廣告）。

- 邊界與誤區

現實中的因果關係是複雜、難於預測的，比如天氣、股票市場、一場疫情的傳播，往往在一定時段裏是難於預測的，著名的理論蝴蝶效應就解釋了這種混沌現象：一個微小的變化能影響事物的發展，這就是為什麼天氣或者是股票市場會有崩盤和不可預測的自然災害。

人類的思維往往具有將事情複雜化的傾向，大家在討論的時候，是不是有同感，我們的思維可以隨時地漫無邊界地發散，而遠離議題本身。這裏分享下查理·芒格的見解：我熱衷於把事情簡單化，如果事情太麻煩了，我就跳過去換一個。而巴菲特也有類似的説法：失敗的原因是因為我們擁有了那些偉大和複雜的系統，但我們要做的僅僅是迴歸簡單。

把問題簡單化，往往能用幾句話簡單描述的就是最佳答案。

理想的歸因（這裏引用宋星在數字營銷的一些觀點）指的是全面歸因，希望能夠窮盡這些所有對人決定購買施加的所有外部因素。這裏包括了線上、線下，還有我們預想不到的其他因素（夢境之類的）。明顯，目前技術手段是做不到的。

退一步，全面歸因做不到，那麼，線上全面歸因，全是數字化，能否實現呢？

現實狀態下的歸因，是指我們忽略那些不可能去了解的外部影響因素，而只看那些我們能掌握的因素。基於此，就有了線上全域歸因、線上局部歸因。

線上局部歸因，我們目前的技術手段所實現的基本都是指的是線上的局部歸因，是忽略了我們所不能掌握的因素的一種歸因分析手段。

- 數字營銷領域的歸因

在數字營銷領域，一般我們會稱為營銷歸因模型，共有六種常見的歸因模型：首次互動、最後一次互動、最後一次非直接點擊、線性、時間衰減和基於位置。

每種分析模型都有其優缺點。通過分析每個歸因模型，我們可以更好地瞭解每個營銷渠道的投資回報率。不一定有“最佳”歸因模型，但我們可以選擇一種作為報告和分析的主要歸因模型。

- 最終互動歸因

這是大多數平台（Google Analytics）中的默認歸因模型。最終互動歸因(最終點擊)，此模型會將100％的功勞歸功於您的企業與潛在客户進行轉化之前的最後一次互動。

優點，最終互動歸因是最簡單的實施和評估方法，通常也是最準確的。用户可以從多個設備訪問，清除Cookie或使用多個瀏覽器，這使得跟蹤他們的整個旅程變得困難，但是，我們始終可以在用户轉換之前確定它們的最後一次交互。

缺點是該模型忽略了最終交互之前發生的所有事情。如果您的購買週期短，則此模型可能非常適合您。如果轉換前接觸點不多，則僅跟蹤最後一個接觸點就可以使您對最有效的渠道有所瞭解。

- 首次互動模型

首次互動與最終互動類似，因為它為一次點擊/互動提供了100％的功勞。首次互動（首次點擊）將所有功勞歸功於與客户的首次互動。例如，如果用户首先在Pinterest上找到您的業務，則Pinterest會獲得互動後發生的任何銷售的所有功勞；如果客户在Pinterest上找到您，然後在一週後點擊展示廣告，然後直接轉到您的網站，這個功勞都是Pinterest的。

- 最終非直接點擊

最終非直接點擊模型比標準的最終點擊模型更有幫助。最終非直接點擊仍然將100％的值分配給單個互動。直接訪問是指任何人通過手動輸入您的網址或單擊添加了書籤的鏈接直接進入您的網站。

- 線性歸因

使用線性歸因模型，將功勞平均分配給客户與企業之間的所有互動。例如，客户在Instagram上找到您，訂閲您的電子郵件，然後單擊了電子郵件裏的鏈接。過了一週他們直接前往您的網站並消費了$ 120。在這種情況下有3個接觸點。每個接觸點可獲得33％的功勞。

線性歸因對所有事物都給予同等的重視。該模型不會突出顯示最有效的策略。如果您想要一個簡單明瞭的歸因模型，並且可以輕鬆地向客户解釋，那麼線性歸因可能是您的理想選擇。

- 時間衰減歸因

顧名思義，時間衰減歸因考慮了時間維度的因素，第一次互動獲得的功勞較少，而最後一次互動獲得的功勞最大。當您要處理特別長的銷售週期時，您可能需要使用時間衰減歸因模型。

- 基於排名的歸因

基於排名的歸因模型（U形歸因）在潛在客户與您的品牌的首次互動以及轉化為潛在客户的兩點各分配40％的功勞，其餘20％則分佈在中間發生的任何其他交互作用之間。

例如，如果潛在客户首先通過Google搜索與您的公司聯繫，查看您的Facebook頁面，然後註冊您的電子郵件時事通訊，則第一次（google）和第三次接觸（電子郵件）都會獲得40％的功勞，而Facebook訪問會獲得剩下的20％。

- 自定義歸因模型

通過給你認為的最重要的任何接觸點賦予自定義權重的一種歸因模型。

- 投資決策領域的歸因分析

歸因分析，一種評估工具，用於根據特定基準來解釋和分析投資組合的績效。它用於識別公司或基金經理積極投資決策的超額收益來源。

基準決定歸因分析的結果，核心思路：將特定投資組合產生的回報與已進行基準評估的投資回報進行比較。

- 分配影響

指通過將投資組合權重分配給特定的細分市場而產生的收益。比如，投資組合A，分配給IT行業20％，分配給房地產行業50％，分配給零售行業30％。比較的時候，是將分配權重與基準投資組合進行比較：

A(20%,50%,30%)

Baseline(15%,45%,45%)

Ps：本文baseline的設定僅為了解釋清楚概念本身而假設的。

如果投資組合的行業高於基準水平，則被視為超重

如果投資組合的行業權重低於基準，則被視為減持

理想情況下，投資決策者的目標是將較高的權重放在表現良好的行業（即，對該行業加重），而將較低的權重放在那些投資不良的行業（即，對該行業進行低估）。

此影響，考察的是如何分配權重。

- 選擇影響

指選擇一個細分市場中的特定股票對投資組合總回報的影響。

當來自特定細分市場的投資組合收益大於來自同一細分市場的基準收益時，就會產生正選擇效應。

當來自特定細分市場的投資組合收益低於來自同一細分市場的基準收益時，就會產生負選擇效應。

此影響，評估個體對整體的決定性影響有多大。

- 相互作用影響

把分配和選擇綜合起來，就是相互作用影響，由於相互作用影響是分配和選擇的數學結果，而不是主動做出的投資決策，因此不容易歸因於相互作用影響。

此影響，有點像1+1>2的情況，不容易把為什麼大於2的影響因素歸因到某個1。

我們進一步抽象下：

我們把行業記為H，

投資組合記為A，

權重記為w，

分配效果記為A（w1 * H1，w2 * H2，w3 * H3）

基準記為H1base，Abase

分配影響記為Ea

選擇影響記為Es

相互作用影響記為Ei

Ea比較的是：

W1,w2,w3

W1base,w2base,w3base

Es比較的是:

H1/H1base

Ei比較的是:

Ei=wa*Ea + ws*Es

wa跟ws的權重大小。

- 用於解釋深度學習模型的歸因

Axiomatic Attribution for Deep Networks

歸因也用於分析深度學習模型所學習到的特徵，對於預測結果的貢獻度。上圖是用於分析一個翻譯模型，單詞對於輸入輸出的貢獻程度。

上圖是用於文本分類模型的歸因分析，我們可以直觀地瞭解到模型所學習到的、對於分類有關鍵作用的單詞。

- 產品案例

Adobe Analytics

這不僅是歸因，而是一場洞察革命。

It’s not just attribution.It’s an insight revolution.

通過歸因，您可以瞭解整個客户旅程中不同的互動如何影響轉化。傳統歸因歸因於特定事件和任意事件，而最佳歸因則使用機器學習和高級統計模型來了解每次觸摸的精確影響。

- 功能1 營銷歸因

Marketing Attribution

多種基於規則和算法的歸因方法可對客户行為進行可靠的分析，並根據客户的實際互動模式為每個渠道提供最合適的模型。

1 多種歸因模型，每種模型有其假設及適用的場景；

2 合理地根據具體業務選擇適合的歸因模型；

Mix, match, or compare attribution models in your analysis

3 可視化的重要性

可視化圖表的選擇代表了所想要展示的規律，往往圖就是結論。

- 功能2 預測分析

Predictive analytics.

Predicting the future is what data was made for.

數據的存在價值就是為了預測未來。

當我們收集了大量的客户數據，但是在許多情況下，我們並沒有充分利用這一切收集而來的數據，因為我們依賴從手動挖掘到的很小比例的見解。

預測分析旨在幫助我們挖掘尚未開發的數據潛力。這些數據中隱藏着一些模式，這些模式可以揭示有意義的客户見解。預測功能依靠機器學習和高級統計模型來自動挖掘大量數據，以尋找大多數分析師根本沒有時間尋找的那些模式。

- 什麼是洞察？

Insight

我們首先需要發現有趣的模式interesting patterns，如何定義有趣？如下圖所示，數據的趨勢不穩定，就代表是有趣的：

為了把Insight自動挖掘出來，需要把所有可能的有趣模式分類出來，有趣的模式包括12種：Attribution貢獻、Outstanding No. 1 第一名、Outstanding Top 2 第二名、Outstanding Last 最後一位、Evenness 均勻度、Change Point 轉折點、Outlier 離羣值、Seasonality 季節性、Trend 趨勢、2D Clustering 聚類、Correlation 相關性、Cross-Measure Correlation 交叉測量相關。

可以分成3類，單點洞察、單形狀洞察、複合洞察。

結合圖表，我們看幾個示例：

Outstanding No. 1

Outstanding Last

Attribution

Evenness

Change Point

Outlier

Trend

Seasonality

Correlation

Cross-Measure Correlation

2D Clustering

當把洞察的種類羅列完之後，就可以嘗試使用機器學習來自動發現各種有價值的洞察啦~

- 產品案例

Amazon Attribution

亞馬遜為品牌和零售商推出的工具。該工具將幫助賣家瞭解亞馬遜產品流量從何而來，從而更好地調整自己的營銷策略。

Measure度量，賣家可以通過Amazon Attribution對各個廣告渠道進行分析，來了解廣告渠道的有效性。

Optimize優化，賣家可以根據自己的需求，通過Amazon Attribution報告的各個廣告渠道的有效性來進行不斷地優化（in-flight optimization）。

Plan計劃，賣家可以通過Amazon Attribution查看各廣告渠道的有效性和洞察相關的亞馬遜細分受眾羣，來規劃未來的營銷策略。

度量-優化-計劃，這是一個產品的最小閉環。

- 算法歸因

也稱為數據驅動歸因，英文是Data-Driven Attribution，簡稱DDA。Google於2013年推出了Google Analytics Premium的數據驅動歸因模型，並於2014年在AdWords中發佈了該模型。

數據驅動歸因是一種基於機器學習的歸因模型，與基於規則的歸因模型不同，數據驅動歸因使用所有可用的路徑數據，包括路徑長度，曝光順序和廣告素材，來了解特定營銷接觸點的存在如何影響用户轉化的可能性以更好地將功勞分配給任何接觸點。

算法歸因本質上是一個分類問題，理論上能用於分類的算法都可以用於算法歸因的。常用的算法有馬爾科夫鏈、沙普利值、生存分析和Harsanyi Dividend。

谷歌系的產品用的是基於Shapley值，如Google Attribution 360，Google Analytics 360，DoubleClick和AdWords。算法歸因相比基礎的模型如First Touch，Last Touch，Linear等有着優勢，算法歸因考慮到了更多渠道間的互動。

- 辛普森悖論VS歸因分析

Simpson's paradox

當人們嘗試探究兩種變量（比如新生錄取率與性別）是否具有相關性的時候，會分別對之進行分組研究。然而，在分組比較中都佔優勢的一方，在總評中有時反而是失勢的一方。

簡單來説，同一組數據，整體的趨勢和分組後的趨勢完全不同。從統計學家的觀點來看，出現辛普森悖論的原因是因為這些數據中潛藏着一個魔鬼——潛在變量lurking variable。

最著名的辛普森悖論的實例，就是1973年加利福尼亞大學伯克利分校性別歧視案的例子。如果只看整體錄取率，那麼男生的錄取率是44%，女生的是35%。而如果拆開來看，在6個院系的4個裏，女生的錄取率大於男生。如果按照這樣的分類，女生實際上比男生的錄取率還高一點點。在這個案例中，辛普森悖論出現的原因是，女生更願意申請那些競爭壓力很大的院系（比如英語系），但是男生卻更願意申請那些相對容易進的院系（比如工程學系）。這不就是歸因所要挖掘的洞見嗎？

不少統計學家認為，辛普森悖論的存在，提醒我們不可能光用統計數字來推導準確的因果關係。因為數據可以用各種各樣的方式分類，然後再進行比較，所以理論上潛在變量無窮無盡，你總是可以用某個潛在變量得到某種結論。

我們能做的，就是仔細地研究分析各種影響因素，把各種分類方式（不同模型）對比研究分析。

以上為全文，總結下：

歸因是描述因果關係的一種分析方法，我們需要明確影響因素，在影響因素的範圍下進行歸因分析。

各個領域的應用，需要結合業務具體的情況，設定一些基本的假設，例如數字營銷有點擊歸因等模型，投資決策有分配、選擇、相互作用的模型。

產品上，不僅僅是歸因，還要解決洞察問題。洞察實際上就是有趣的結論，我們可以使用機器學習自動挖掘到有趣的結論（結合洞察分類）

產品最小閉環：度量-優化-計劃。

歸因除了基於規則的實現，還有機器學習的實現方式，稱為算法歸因。

歸因也可以從辛普森悖論裏獲得結論。

參考文獻：

https://agencyanalytics.com/blog/marketing-attribution-models

https://zhuanlan.zhihu.com/p/90165817

https://arxiv.org/pdf/1703.01365.pdf

https://www.microsoft.com/en-us/research/uploads/prod/2016/12/Insight-Types-Specification.pdf

https://www.microsoft.com/en-us/research/uploads/prod/2019/05/QuickInsights-camera-ready-final.pdf

相關鏈接、更多資料查閲

⤵️️

「 Mix+人工智能」專刊

每期由mixlab社區精選。收錄人工智能的相關內容，包括AI產品、AI技術、AI場景、AI投資事件、AI的思維方式等，MIX的主題包括：AR、VR、計算設計、計算廣告、智能設計、智能寫作、虛擬偶像等。

智能時代，人與人之間的差距，體現在AI使用能力上

To Be Continued

……