楠木軒

在數據分析中,我們需要掌握這4種思維模式

由 司徒元基 發佈於 科技

編輯導語:對很多產品經理而言,做數據分析好像就是數據採集然後進行分析這麼簡單;實際上,數據分析是一個嚴格的工作流程,數據分析思維可以有效地幫助我們優化賬户,同時也能提高我們的工作效率。本文作者就教你數據分析的思維。

面對數據異常,我們經常會出現“好像是A原因引起的?”、“貌似和B原因也相關?”、“有可能是C操作不當”的主觀臆測。

或者,拿到一個分析議題,分析“11月銷售數據下降的原因”,是先從產品層面,還是渠道層面着手的茫然無措。

顯然,這樣的思維是亂的。

做數據分析,首先你得具備看待一個事物的邏輯化思維,其次用數據去證明他。

我們會經常聽説兩種推理模式,一種是歸納,一種是演繹;這是麥肯錫思維當中很經典的兩個方法,工作中所有的問題,都可以用歸納或者演繹的形式進行拆分,我喜歡把這個過程稱為“解構”。

這兩種思維模式能夠幫助數據分析師完成原始的業務邏輯積累,在此基礎上快速定位業務問題,提升分析效率。

一、結構化思維

歸納其實就是把複雜問題分解成多種單一因素的過程,並且將這些因素加以歸納和整理,使之條理化、綱領化;這個過程猶如抽絲剝繭,將一團亂麻理地條條順順。

如何練習結構化思維,這其中會運用一個很重要工具,那就是金字塔模型。

根據《金字塔原理》:“任何事情都可以歸納出中心論點,由中心論點出發,可由三至七個論據支撐,每個一級論點可以衍生出其他的分論點。”如此發散開來,就可以形成以下的金字塔結構思考方式。

但是在你還沒有掌握這種結構化思維方式時,直接用這種思考方式是有一定難度的。這時候就可以採用金字塔原理中的MECE法則去思考結構。

具體的操作方式是:

他的原則是論點之間相互獨立,不重疊;論據窮盡劃分,不遺漏。

舉個例子:現在有一個線下銷售的產品,我們發現8月的銷售額度下降,和去年同比下降了20%。我想先觀察時間趨勢下的波動,看是突然暴跌還是逐漸下降;再按照不同地區的數據看一下差異,有沒有地區性的因素影響;我也準備問幾個銷售員,看一下現在的市場環境怎麼樣,聽説有幾家競爭對手也縮水了,是不是這個原因。

用結構化思維梳理,就是:

用這種方式思考,能確保思考的點成體系,邏輯嚴謹,要素相互之間不凌亂不打架,思考的點都窮盡。

長期練習這種方法,不僅更容易找到邏輯結構,也更容易培養你的結構化思維。

二、假説演繹思維

以情況為起點的推理方法是歸納推理,以規則為起點的推理方法可以稱之為演繹推理。

比如:某自營電商網站,現在想將商品提價,讓你分析下銷售額會有怎樣的變化?

首先可以確定銷量會下降,那麼下降多少?

這裏就要假設商品流量情況,提價後轉化率的變化情況,然後根據歷史數據彙總出銷量下降的情況,從而得出銷售額的變化情況。

具體的變化情況都可以根據過往的數據來擬合,統計學上也有一些科學的預測模型,後面講數理統計知識時會有涉及。

假設先行就是以假設作為思考的起點,先提出問題,然後用MECE原則梳理關聯因素間的結構關係。

小結:歸納和演繹的思維是數據分析初期必備的,面試考察邏輯思維無非也是這兩點。

實際情況中可針對不同的項目要求進行組合應用,在經過一定階段的訓練後,可以幫助提升業務熟悉程度;完成業務的初始積累後,後續的分析過程中就可以逐步減少拓展推理的層級及組合,逐步提升問題原因定位的效率。

三、指標化思維

上述的分析思維,幫助我們去定性問題,接下來我們要介入數據的方式,去定量分析,首要掌握指標化的思維。

假設有一家電商公司,我們想要了解網站運營的情況如何?運營人員向我們描述:我們的網站的流量很高啊,比淘寶差一點,比京東好一點,每天都有大量的新用户,老用户下單也很活躍啊。

那我就疑惑了,流量高是多少?大量的新用户怎麼衡量?一個手機註冊了算新用户還是新下單的用户?下單活躍又是怎麼個活躍法?

這樣的問題相信只能憑運營人員的經驗來判斷,而經驗帶來的“後果”往往是拍腦袋式的決策。

如果用指標化的思維,應該用PV和UV去衡量流量,新用户下單數和佔比去評價網站的拉新,新老買家佔比等指標去衡量用户活躍。

很明顯,指標就是用來定義、評價和衡量業務的一個標準。

比如網站相關用户訪問量、停留時長、跳出率等,銷售相關銷售量、銷售額、客單價等,應該很好理解。

指標的設定有兩個經驗:

  1. “有總比沒有強”,對於要監控的事物,能有指標的儘量要有指標。
  2. “一個好的指標應該是用來衡量具體且可量化的事物”,比如:用户訪問量、停留時長、跳出率等。

下面這張圖,解釋了什麼是指標化,這就是有無數據分析思維的差異,也是典型的數據化運營。

1. 指標體系

有指標是否就夠了呢?

指標按照結構化思維可以形成一個體系,如銷售分析指標體系、生產指標體系、電商行業指標體系。

一家企業建立的數據分析體系通常細分到了具體可執行的部分,可以根據設定的某個指標異常變化,相應立即執行相應的方案,來保證運營的正常進行。

2. 建立指標體系的思路

向上:可以按業務職能結構劃分,映射出更多維度,比如渠道,運營,產品等相關模塊;將相關指標映射到主要模塊,通過簡單快速的溝通,快速定位問題原因。

向下:可以按因果結構劃分,也就是指標分解,利用公式的方法。比如營收=日活*付費率*arpu等指標因果關係進行劃分;通過定位指標波動、定位最細指標、輔助維度下轉,能夠清楚的問題原因;

就像枝丫一樣,從主幹不斷延伸枝丫,將業務用指標評價量化,逐漸形成一個健全的數據分析體系。

四、維度分析思維

最後,站在分析的角度講一下維度思維。

當你有了指標,可以着手進行分析,數據分析大體可以分三類:

  1. 利用維度分析數據;
  2. 使用統計學知識如數據分佈假設檢驗;
  3. 使用機器學習。這裏我們主要了解維度分析法;

維度是觀察數據的角度,例如“時間”、“地區”、“產品”。

在具體分析中,我們可以把它認為是分析事物的角度;時間是一種角度、地區是一種角度、產品也是一種角度,所以它們都能算維度。

當我們有了維度後,就能夠通過不同的維度組合,形成數據模型;數據模型不是一個高深的概念,它就是一個多維立方體。

這個概念最早來源於商業智能OLAP技術,數據按照事實表(Fact Table)和維表(Dimension Table)的形式存在。

  • 事實表用來記錄具體事件,比如銷量、銷售額、售價、折扣等具體的數值信息。
  • 維度表是對事實表中事件的要素的描述信息,比如時間、城市、品牌、機型等。

這是一個最簡單的星形模型的實例:

事實表裏面主要包含兩方面的信息:維和度量。

  • 維的具體描述信息記錄在維表,事實表中的維屬性只是一個關聯到維表的鍵,並不記錄具體信息;
  • 度量一般都會記錄事件的相應數值,比如這裏的產品的銷售數量、銷售額等。

維表中的信息一般是可以分層的,比如時間維的年月日、地域維的省市縣等;這類分層的信息就是為了滿足事實表中的度量可以在不同的粒度上完成聚合,比如2016年商品的銷售額,來自上海市的銷售額等。

下圖舉例一個簡化的分析模型,分別由產品、城市、時間這三個維度組成,實際數據分析中,維度遠不止三個。

在數庫中,可能是這樣兩張表:

我們可以將品牌作為維度,分析手機的銷量情況,也可以將時間作為維度,分析每一年手機市場的份額情況。

多維分析操作包括:鑽取(Drill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(Pivot)。

  • 鑽取(Drill-down):在維的不同層次間的變化,從上層降到下一層,或者説是將彙總數據拆分到更細節的數據;比如通過對2018年華為的總銷售數據進行鑽取來查看各個手機型號的銷售數據。
  • 上卷(Roll-up):鑽取的逆操作,即從細粒度數據向高層的聚合;如將江蘇省、上海市和浙江省的銷售數據進行彙總來查看江浙滬地區的銷售數據。
  • 切片(Slice):選擇維中特定的值進行分析;比如只選擇蘋果手機的銷售數據,或2017年的手機銷售數據。
  • 切塊(Dice):選擇維中特定區間的數據進行分析;比如選擇2016年2017年的銷售數據。
  • 旋轉(Pivot):即維的位置的互換,就像是二維表的行列轉換;如圖中通過旋轉實現產品維和地域維的互換。

為什麼這邊花那麼多筆墨去講維度和度量呢?

  • 一者是我們在梳理分析思路時,常常會按照幾個大的維度類去劃分層級、多面分析,如時間維、地域維、產品維,幫助我們成為“多面分析手”。
  • 另一方面,BI商業智能在操作也基於維度一説,熟悉維度和數據模型的原理,能更好的理解這個工具。

好了,花了一天的時間整理了數據分析的思維,大家慢慢消化。

作者:李啓方,公眾號:數據分析不是個事兒

本文由 @李啓方 原創發佈於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議