以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

本文選取了英國某電商平台的年銷售數據,從7個方面進行拆解和分析,完成了從數據清洗到可視化的一整套流程。

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

數據對於互聯網 的商業模式存在巨大的價值,在業務中我們遇到的瓶頸往往通過數據分析,可以發現問題以及解決問題的對策。

本文對英國某電商平台的年銷售數據進行分析:

一、報告梗概1. 報告背景及目的

報告對在取數區間內的某電商平台內的所有交易記錄進行了分析,平台主要銷售獨特的全時禮品,公司的許多客户都是批發商。為了更好地瞭解平台的經營狀況,對銷售數據進行分析,提出優化平台運營的策略,從而為平台創造更多價值。

1. 數據來源及説明

數據來源於UCI加州大學歐文分校機器學習庫,是一個跨國數據集,其中包含2010年12月1日至2011年12月9日之間在英國註冊的非商店在線零售的所有交易。

數據集含有8個字段,其含義如下:

  1. InvoiceNo: 6位的發票號,系統為每筆交易自動分配的6為不同的數字序列,如果是以c開頭則表明該訂單被取消。
  2. StockCode: 產品編號,每一種不同類別的商品對應不同的編號。
  3. Description: 對產品類別的描述。
  4. Quantity: 每次交易的某種產品的購買數量。
  5. InvoiceDate: 每筆交易產生時的日期時間。
  6. UnitPrice: 產品的單價,單位是英鎊。
  7. CustomerID: 5位編碼的客户id,每個客户的id都不相同。
  8. Country: 客户來源的國家。
二、數據預處理情況1. 重複值處理

整個數據集有541909條數據,其中完全重複的數據有5268條,剔除後剩下536641條交易數據。

2. 缺失值處理

Description和CustomerID兩個字段即商品描述和客户ID有缺失值,其中Descriptio缺失1454條,佔總數據量的0.27%;CustomerID缺失135037行,佔總數據量的25.2%。

因為商品描述是文本類型數據、對於本分析的結果不重要且缺失值佔比非常小,所以不對其進行充填。

對於CustomerID,缺失量佔到了總數居的四分之一且其本身對分析結果有重要意義,必須對其填充。在已驗證當前CustomerID中沒有0值的前提下,充填方式選擇為用0代替缺失的CustomerID值。至此,缺失值處理完畢。

3. 異常值處理

基於業務常識,商品單價和商品數量應為正數,查看數據時發現這兩種類型的異常值。

取出來查看後,發現由兩種原因造成:

  1. 訂單被取消即發票號以C開頭的記錄(共11761條);
  2. 壞賬數據即發票號以A開頭的記錄(共2條)。

對於被取消的訂單:由於沒有發生實質交易,對平台的交易數據不存在影響故直接刪除,但後續可以針對這部分數據可以嘗試分析挖掘取消背後的原因;

對於壞賬:數據量極小,且壞賬金額也極其微小,在此也選擇直接刪除。

處理完異常值後,總的有效數據量為524878條。

4. 新增字段

為方便後續的時間序列分析,新增交易時間date字段(具體到日)和交易月份month字段;為方便後續的金額分析,新增交易金額SumCost字段(交易金額等於商品數量乘以商品單價)。

至此,數據預處理完成,截取部分有效數據如下所示:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做
三、訂單分析1. 描述性分析

在訂單層面,描述性的統計信息如下圖:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

平台在此期間總共有19960筆有效訂單,每筆平均購買279件商品,筆均消費533英鎊,這兩者都超過了各自的中位數水平。

説明訂單總體差異很大,尤其是筆均消費超過了Q3分位數。

最大的一筆訂單中購買了將近81000件商品,最大的單筆消費也高達168469——説明平台用户以批發商為主且存在購買力極強的客户。

2. 訂單商品數量分佈

剔除離羣值,篩選出購買商品件數小於2000的訂單繪製商品數量分佈圖如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

分佈圖呈現典型的長尾分佈,大部分訂單內的商品數量在250以內,大額數量訂單稀少。

3. 訂單金額分佈

剔除離羣值,篩選出單筆金額小於1000英鎊的訂單繪製金額分佈圖如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

分佈圖有長尾趨勢,金額主要分佈在400英鎊以內,説明絕大部分客户在該平台上的消費金額預算為400英鎊以內,在350英鎊左右出現了最多的訂單數。

4. 分析小結

平台在2010年12月1日至2011年12月9日一年多的時間中產生有效交易19960筆,總銷售額為8,887,209英鎊,平均每日交易54筆,筆均購買量279件商品,筆均消費533英鎊。

存在少數重要價值客户,此類用户購買力極強。作為批發型平台,要着重保持此類用户,用户維護、運營營銷資源要向這些客户傾斜。

四、客户分析

在缺失值處理時,對於客户id缺失的數據,直接用0填充了空值,因此在客户層面分析的時候剔除了這部分數據。

1. 描述性分析

在客户層面,描述性統計信息如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

在4338個有效客户ID中:

  • 平均每個客户消費4次,超過中位數,至少有25%的客户消費1次之後就流失了;
  • 客均購買1187件商品,超過Q3分位數,最大的客户購買量達到了近197000件;
  • 客均消費2048英鎊,超過Q3分位數,最大的客户消費額達到280206。
2. 客户消費金額分佈

剔除離羣值,篩選出消費金額在6000英鎊以下的客户繪製消費額分佈圖如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

分佈圖呈現明顯的長尾狀,大部分客户的消費額在1000英鎊以內,消費200英鎊左右的客户最多。

3. 客户貢獻程度

二八定律普遍存在於銷售市場,因此繪製出每個客户的消費額佔總銷售額的佔比圖如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

可以看出消費額前1000名的客户貢獻了80%的銷售額,也就是説平台所有客户中前20%的客户提供了80%的銷售總額。

4. 消費額與購買量的關係

客户的消費額與購買量的關係可以對平台促銷策略進行指導,左圖繪製了所有的數據(包含離羣值),右圖為篩選出消費額5000英鎊以下的數據:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

由圖可知:消費額與客户的購買量成正比關係,且存在少數購買量和消費額數目都很巨大的客户。

在消費額小於5000英鎊以內的客户,其消費額與購買量呈強正比關係;在3000件商品範圍內,每向客户多銷售1000件商品,銷售額大概可以增加一倍。

5. 分析小結

平台的客户在這一年中平均會消費4次,客均購買1187件商品,客均消費2048英鎊。

但是值得注意的是有四分之一以上的客户只消費了一次就直接流失掉了,如果能夠保持這些客户,保守估計年銷售額可以增加2,400,000到3,000,000英鎊,接近全年銷售額的三分之一。

平台的經營要注重新客的留存率,對於長時間沒有復購的客户要積極聯繫,採取相應的喚回措施。

五、商品分析

平台對每個客户的報價並不一樣。在處理時,採取平均的方法,即:該件商品的銷售總額除以該件商品的銷售數量來定義每件商品的單價。

1. 價格分佈
以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

剔除離羣值後,發現平台商品價格大部分低於3英鎊。

2. 價格-銷量關係
以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

在價格方面符合價格越低,銷量越大的規律。

價格低於3英鎊的商品的銷量明顯高於別的商品,在5英鎊的價格內出現了萬級別的銷量,驗證了平台低價走量的批發商式銷售模式。

此外,存在兩件單價超過6000英鎊的商品,分別是價格為6880英鎊的AMAZONFEE商品和價格為11062英鎊的B商品,這兩者的銷量分別為2件和1件,説明平台在高價商品上沒有競爭優勢。

而高價商品所需的運維成本往往高於其他商品很多,建議平台專注單價20英鎊以內的商品,繼續提高低價商品的銷量來獲取更多收益。

3. 詞雲分析

對商品的描述一欄做詞雲分析,從可視化結果中發現:平台銷售的商品屬於小禮品類,其中鬧鐘類商品居多。

4. 分析小結

平台當前的定位是低價走量批發商式平台,這個銷售模式得到了驗證,應該繼續堅持這個模式。對於超高價商品,平台的銷售額貢獻甚微,卻要花費較高的銷售成本,因此平台的利益點可以專注在低價商品的高銷量上。

六、時間序列分析1. 銷售額-時間關係

統計各月的交易量、銷量以及銷售額如圖所示:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做
以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

顯然:11月和12月的成交量最多,兩者超過了全年交易量的四分之一,商品的出貨量和銷售額也是這兩個月最多。

縱觀全年:銷量、銷售額、訂單量呈現出相同趨勢,從1月起銷售額緩慢上升,至4月出現一個驟降後,從5月開始又緩慢下跌,隨後至年底期間銷量上升趨勢明顯。

2. 分析小結

11月銷售的驟增與萬聖節、雙十一全球購的促銷活動緊密相關,12月的銷售在萬聖節的餘温以及聖誕節的氛圍中隨較之11月有所降低但仍高於全年平均水平。

年初銷量驟降的原因是前面兩個月的促銷極大地釋放了客户的購買慾望,且年初的節日少,批發商的採購意願並不強烈。4月份出現驟降,而後銷售額穩定在600,000到800,000之間。從8月開始,批發商們開始備貨準備年底的傾銷,成穩定上升趨勢。

因此,平台在9月和10月應該為後續的節日活動造勢,加大營銷成本的投入,同時增加庫存,為後續促銷銷量做保證。

11月和12月要注意加大運維力度,防止線上銷售渠道的崩潰而造成損失;年後1月和2月可以借情人節相關話題再次激發用户的購買慾望,促進淡季的銷售。

七、地區分析1. 用户來源分佈
以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

作為英國的電商平台,其用户九成以上是本土用户。排在後面的三個地區也都屬於歐洲,分別是:德國、法國、愛爾蘭。

2. 銷售額-地區分佈
以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

因為龐大的本土用户基數,平台的銷售額九成以上是來自於本土市場,隨後是歐洲的荷蘭、愛爾蘭、德國和法國。在歐洲市場以外,澳大利亞市場佔據銷售額第一名。

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

雖然英國的銷售額佔據了九成以上,但客均消費上英國只算中等水平。而海外市場中,愛爾蘭的客均消費表現十分搶眼——達到80000英鎊以上。達到10000英鎊以上的國家還有荷蘭、新加坡和澳大利亞。

3. 分析小結
  • 從銷售總額來看:得力於本土優勢,英國的本土用户貢獻了平台90%以上的銷售額;因為地理位置方便,英國隨後的銷售額也主要來源於歐洲國家。
  • 從客均消費額來看:愛爾蘭表現搶眼,購買力極強,隨後是表現優秀的荷蘭、新加坡、澳大利亞——這些國家都是高福利國家,客户資金充沛,消費意願強烈。
  • 從大方向上來看:平台要關注歐洲市場尤其是本土市場的動向,緊跟市場動態。
  • 從客均購買力上來看,平台應與上述購買力強的客户主動保持聯繫,提供銷售經理專人服務或優惠政策等。在這些地區也可以適時地做一些宣傳推廣,多吸收優質客户來提高海外市場的收益。
八、客户分類1. 生命週期

計算客户從第一次消費到最後一次消費的天數,即為客户的生命週期,其描述性統計信息和分佈如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做
以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

根據以上信息可以看出:至少有四分之一的客户沒有留存,但也有四分之一的客户生命週期達到8個月,兩極分化嚴重。

2. RFM模型客户分類

Recency代表最近一次消費,Frequency代表消費頻次,Monetary代表消費金額。

這個用户劃分模型十分經典,但具體的劃分準則往往不能很好的把握,在此用K-means聚類方法自動將客户羣體按RFM準則分為八大類,即如下圖所示:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

在聚類之前首先觀察F和M的關係,剔除掉明顯的離羣值,在數據集中區域進行聚類,因此畫出F-M散點關係圖如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

可以看出:數據主要集中在左下角f<50和m<20000的區域,因此聚類模型所選擇的數據為此區域的數據。

在聚類時有必要結合業務知識手動設置初始中心,否則算法得出的結果偏差會比較大。

在此,選定數據集中估計的八個中心為初始中心點,對數據進行歸一化,多次調試後得出RFM模型聚類圖如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

其中每一種顏色代表一類用户,方形數據標記代表每一類的數據中心。

上圖為聚類效果還不錯的一個調試後的模型,可以看到每類數據的中心分佈在整個空間裏比較均勻,即:每一類的中心分別屬於三維空間座標裏的每一個象限。——這是判斷一個RFM模型效果好壞的重要標準。

得出八類客户的RFM均值如下:

以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做

通過無監督學習算法K-means可以自動挖掘客户數據之間的關係,劃分出客户類型,比傳統的簡單均值法劃分更有依據。

但往往真實的客户數據並不規整,需要結合業務知識手動調參,即使調試多次,模型也可能仍然不能完美適配,這時要根據經驗進行取捨。

模型建立完成後,再回去看離羣值,發現離羣值客户通常都是對銷售額貢獻度很大的羣體,所以一定不能忽略這類客户羣。

對於已經劃分好的客户羣體,對每一類採取不同的營銷策略,可以實現精準營銷,將本增益的效果。

九、分析總結

1)電商平台在2010年12月1日至2011年12月9日期間發生有效訂單19960筆,筆單價533.17英鎊,筆均購買商品279件,用户羣體以批發商為主。訂單交易額和商品數量的均值都超過Q3分位數,説明訂單差異大,存在購買力極強的客户對銷售額做出了巨大貢獻。

2)客均購買商品1187件,客單價4338英鎊,均超過Q3分位數。但客户羣體中流失了至少25%的新客,客户平均生命週期為130天,一半的客户生命週期低於93天,25%的客户生命週期超過250天。

客户的生命週期分化嚴重,流失客户和忠誠客户都佔到四分之一以上。平台可以把忠誠客户維持的經驗應用到新客中,提高初次購買體驗來增加新客留存率。按客均消費計算,這部分新客留存帶來的收益可以增加約30%。

3)平台售賣的商品價格基本在20英鎊以內,且呈現價格越低銷量越高的趨勢。銷售量最多的產品是鬧鐘類的禮品,在5英鎊左右的商品出現萬級別的銷量。對於平台出售的2種特高價商品(6000英鎊以上)銷量僅為3件,且購買高價商品的客户沒有留存,建議下架特高價商品以減少高價商品的運維成本。

4)基於本土優勢,90%以上的客户來源與英國本土,其次是歐洲國家。但從客均消費來看:英國只算中等水平,而海外市場中,愛爾蘭的客均消費表現十分搶眼,達到80000英鎊以上。

達到10000英鎊以上的國家還有荷蘭、新加坡和澳大利亞。對於這些購買力極強的海外客户,應積極保持聯繫,在該地區做宣傳推廣,獲取更多優質客户;予以國際物流支持,增加優質客户粘性。

5)根據RFM模型,建立了客户分類標準,銷售情況符合二八定律:25%的客户貢獻了80%的銷售額。因此建議用户運營部門根據模型劃分結果,對客户進行差異化運營和營銷,將資源更多地投入到重要客户中去。

本文由 @歐泡Paul 原創發佈於人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基於CC0協議

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 4404 字。

轉載請註明: 以英國某電商平台的年銷售數據為例,講講從數據清洗到可視化的整個流程怎麼做 - 楠木軒