數據分析中,在選取某種圖表進行分析之前,調研是非常重要的。文章結合實際案例對柱狀圖設計中需要調研的3個關鍵展開了梳理分析,希望能夠給你一些參考。
現在有一個簡單的產品方案:為了分析某店鋪客服團隊中人工客服和機器人客服的接待量,提出用“柱形圖”來強化表達“接待人數”這個數據量,突出對比客服之間的數據差異包括人工客服對比、人工與機器人客服對比
這個產品方案有問題嗎?乍一看似乎沒有問題,用“柱形圖”來強化表達數據量,更好的突出差異對比,是對柱形圖的正確打開方式。
但是我們通過調研抽樣數據後可以發現,機器人客服的接待能力遠高於人工客服,“服務助手”的接待人數是單個人工客服的10倍左右,圖形化表達後得到的柱形圖由於機器人客服的數據量和人工客服的差異懸殊,導致沒有辦法從圖表中讀出人工客服之間的差異對比
通過這個設計方案,我意識到了我們在決策是否選取某種圖表前,需要進行調研,用調研結果來驗證猜想,避免錯誤的產品設計方案。
想一想,如果上面的產品方案沒有在決策前進行調研,直接引入了柱形圖,不僅一定程度上造成了研發資源的浪費,還會讓用户產生懷疑“這個柱形圖想表達什麼,又有什麼作用”,甚至對產品產生了不信任感
既然調研如此重要,那麼需要調研什麼呢?想通過柱形圖為例,和大家一起討論需要調研什麼的問題。
需要對數據組進行調研,那我們調研的理論基礎是什麼呢?既然以柱形圖為例,調研的理論基礎就是數據組能被柱形圖圖形化表達,我們可以對柱形圖進行拆解,看看組成“水平軸、垂直軸、單位刻度”分別需要哪些條件,之後去調研業務場景下的數據組是否滿足這些條件
柱形圖的水平軸是由兩個或兩個以上不同時間或不同條件的類別組成的,就需要我們去調研業務數據的類別情況,根據調研結果去判斷該業務場景下能不能形成柱形圖的水平軸。
業務數據類別情況
情況1:業務數據中只有1個類別的數據,這種情況下“柱形圖”表達出來的數據是孤立的,不具備對比性,在實際業務場景中沒有應用價值
情況1實例
觀察某淘寶店鋪客服團隊“近7日客服接待人數”,收集到了整個店鋪客服團隊的“近7日客服接待人數”彙總數據:2131。分析業務數據可以發現只有1個類別就是“客服”,形成的柱形圖也就只存在1個孤立的矩形,沒有數據分析和實際應用的價值
情況2:業務數據中存在多個類別的數據,類與類之間只存在唯一變量。這種情況滿足了組成“柱形圖水平軸”的條件,用柱形圖表達數據後,水平軸代表了業務數據中不同的類別,也能拿來對不同的類別進行對比
情況2實例
這次收集到的業務數據是店鋪下每個客服“近7日接待人數”彙總數據,分別是客服1是364、客服3是488、客服5是429、客服2是393、客服7是457。調研數據類別,存在多個類別具體表現為5個不同的客服名稱,同時5個不同的客服名稱只存在唯一變量名字不同。圖形化表達後,柱形圖水平軸的點代表了1個客服名稱,能用來觀察客服團隊裏不同客服的接待人數量,強化對比客服接待人數差異
情況3:業務數據中存在多個類別的數據,類與類之間多個變量。雖然滿足了“兩個或兩個以上類別”的條件,但如果將存在多個變量的類別組成柱形圖的水平軸,圖形化表達後的柱形圖也是沒有應用價值的,多個類別的變量導致無法進行數據對比。所以當多個類別存在多個變量時,我們需要將同一個變量的類別劃分成一組,再用柱形圖來表達
情況3實例
我們對業務數據進行更深的數據收集,收集到了具體每個客服“近7日接待人數”的每一天的明細數據
近7日客服接待人數明細:
分析業務數據發現案例中的類別是存在2個變量的,變量1是客服的名字,變量2是近7日中的日期。如果我們把“今日客服1的接待人數,昨日客服2的接待人數,前日客服3的接待人數” 作為組成柱形圖的不同類別,就是犯了將“多個類別多個變量”的錯誤,“今日客服1”和“昨日客服2”兩者時間也不一致,客服個體也不一致,失去了不同類別之間的對比性,得到的柱形圖也就沒有應用價值了
瞭解完3種數據類別情況後,可以得出一個結論,用“柱形圖”來表達業務數據時,數據組中類與類之間只能存在唯一的變量,當存在多個變量時,就不適用於柱形圖來表達
垂直軸表達度量,是業務數據量在柱形圖上具體的參考數值,通過矩形參照垂直軸讀出的數值就是業務數據量的表達。業務數據量的範圍會影響垂直軸的邊界,所以需要我們調研業務數據量的範圍
業務數據量範圍情況
情況1:數據量範圍很大,當業務數據中存在某個極大值,柱形圖需要能展示下全部的量,影響了垂直軸的上邊界,上邊界的度量需要很大,導致圖形化表達只能觀察出代表“極大值”的矩形,無法觀察出其餘矩形之間的差異。本文開頭產品方案中的調研,就是一個典型的案例,通過調研後發現受極大值影響柱形圖沒有實際應用價值
情況2:數據量範圍很小,當業務數據中所有數據都只在一個窄幅範圍內波動,圖形化表達後的矩形高度差異值很小,這種情況下會影響垂直軸的下邊界,因為垂直軸下邊界的起始值從0出發的話,將會很難觀察到矩形的差異。所以需要通過調整柱形圖垂直軸下邊界的起始值,通過修正起始位置來增強差異值的表達
情況2實例
團隊招了1個新的客服同學:客服8,客服8接待能力非常穩定,近7日的接待人數為82,80,78,84,82,81,79,現在想觀察客服8近7日的接待人數量和變化情況。
調研客服8接待人數這組數據,發現接待人數在79到84這個窄幅內波動,需要我們對度量起始單位進行修正,從下面兩張圖的對比中很容易就能發現,刻度不變的前提下,度量起始值從70開始,比從0開始更能反映出數據量的差異值的對比
瞭解完數據量範圍情況,可以得出一個結論,業務數據量範圍會影響垂直軸的邊界,數據量差異範圍很大時,極大值的數據量會影響柱形圖的上邊界;當數據量差異範圍很小時,窄幅範圍內的數據量波動,會影響柱形圖的下邊界的起始位置
單位刻度對柱形圖表達出來的差異程度有較大的影響,單位刻度1和單位刻度100的兩個柱形圖表達相同的數據量差異是不同的,明顯的,刻度1的柱形圖更能突出對比數據量與數據量之間的差異。
只考慮單位刻度的情況下,單位刻度越小,柱形圖表達出來的數據信息更細緻,不同類別之間的數據量差異越明顯。但是現實情況下,頁面佈局不是無限制的,不可能無限制的放大柱形圖,所以需要調研業務數據的組距。
組距經驗公式是組距 = 全距 / 組數,組距會收到全距和組數的影響,我們對組距的調研也就轉化成了對全距和組數關係的調研
首先我們可以通過一系列數學公式完成對數據組距調研
運用統計學上的Sturges經驗公式,用來研究分組數k關於樣本量n的組距關係
其次,將確定後的組距引入柱形圖中,判斷下是否會收到圖形固定大小的影響,根據結果人為對組距進行調整,若引入組距後,圖形上邊屆無法顯示最大值,則需要增大組距;若引入組距後,圖形上邊界距離最大值還有很大距離,則需要縮小組距。
通過以柱形圖為例對數據組的調研,可以知道,在設計圖表前需要對圖表構成進行拆分,將圖表每一個組成部分所需要滿足的條件作為調研的理論依據,以此為基礎去調研業務數據是否滿足這些條件,從而避免錯誤的產品方案。
作者:晌午,微信公眾號:晌午自習室
本文由 @晌午 原創發佈於人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基於CC0協議