出品 | 智東西公開課講師 | 黃雅 圖普科技產品和零售線負責人
導讀:
圖普科技產品和零售線負責人黃雅去年9月曾在智東西公開課進行了計算機視覺應用合輯第四講的直播講解,主題為《基於ReID的顧客熱區分析及線下商超應用》。
在本次講解中,黃雅老師從計算機視覺給零售行業帶來的變化入手,介紹了圖普在零售場景下的ReID和行人追蹤方法,最後從ReID的難點、解決方案及實際應用案例等方面,進行了深入講解。
本文為此次專場主講環節的圖文整理:
正文:
大家好,我是黃雅,今天我要分享的主題為《基於ReID的顧客熱區分析及線下商超應用》,我們會分為4個部分:
1、零售行業的變化帶來的機遇與挑戰2、圖普ReID技術的實踐演化之路3、REID技術實現顧客熱區的難點及解決思路4、如何利用顧客熱區最佳化線下商超運營
零售行業的變化帶來的機遇與挑戰
自2016年底計算機視覺進入到零售領域,我們發現線下零售行業具備大體量的門店和海量的攝像頭,因此產生大量資料,這是一個堪比公共安防的傳統存量市場。這些存量市場具有被人工智慧開發的巨大的潛力,同時人工智慧也會擴充套件零售行業裡面很多新的場景。傳統零售經過了三個時代,由基於場地、基於粗放式運營、基於各種各樣品牌的亂戰階段,逐漸走向品牌的精細化,線下精細化運營的階段。我們認為這是一個很好的切入時機,投入到零售場景去做更多的服務。
從頂層來講,新零售以人為核心,透過一些數字化技術重構人、貨、場。這三要素以客戶體驗的升級為嚮導,基於資料實現精細化運營,最後把銷售做得更好。基於相關技術,能夠做出很多類似於老客戶提醒、客流統計、客戶畫像、店內互動、商品的轉化率分析、商品陳列和品類組合、庫存的最佳化、熱力圖分析、顧客的行為分析以及顧客軌跡追蹤等,產生出一系列的賦能效果。看到上圖右上角是在客戶場景裡做的一個真實的顧客追蹤與軌跡分析的例子,接下來是基於人、貨、場的賦能技術,對存量的門店進行劃分,給出很多合理化的建議,這都對傳統零售有很大的幫助。
在一個具體的分析場景裡,把顧客從過店,到進店瀏覽商品,到上手試穿產生購買意願,以及離店整個行為,透過數字化技術串聯起來。在這樣的整體體驗和轉換漏斗裡,每個節點都可以精細化的分析顧客行為與意願,推出相應的改造和最佳化,達到提升整個零售業績的目的。這裡麵包括了一系列的定製化服務體驗的提升、商品的品類組合和柔性的供應鏈、運營分析的提效以及資料資產的相關沉澱。
顧客熱力技術是基於區域績效和員工績效的場的分析,在區域分析裡面它的本質是場的價值,上面疊加商品和陳列的價值,在疊加流量的價值,讓三個層面的價值最大化,這樣可以讓銷售達到最高的情況,比如不同區域裡的流量轉換的價值是完全不同的,但在真實情況下,往往場、商品和流量的價值是沒有辦法洞察和完全匹配的,所以基於區域分析的技術,實際本質希望透過這些資料的洞察,給零售商、品牌商一個很高頻化的能力,讓三個維度的價值都能夠最大化的疊加在一起。簡單說就是最好的位置,放最好的商品,用最好的陳列吸引最好的流量,達到最高的銷售額。
圖普ReID技術的實踐演化之路
首先主要從兩個方面開展,第一個是ReID技術,它是為每個檢測到的行人分配正確的ID,我們在Market1501測試集上已經取得了非常好的成績,業界平均水平在92%左右,我們取得了97.5%/96%(Rank-1/mAP)的成績。第二個是基於行人重識別技術做的行人追蹤,不僅了包括單攝像頭的追蹤,也有多攝像頭的追蹤,在跨越不同攝像頭之間的追蹤跟識別,也取得了較好的成績。
行人重識別的流程可以拆分為三部分,第一階段是本地化檢測,包括行人檢測、姿態預測;第二階段是識別,行人的ID識別,根據特徵做屬性的識別和聚類;第三階段是不同ID之間的追蹤。行人重識別簡單來說是一個搜尋問題,它是在一個很大的行人特徵庫裡面去查詢一個感興趣的人,把它聚到一起。檢測系統是用深度學習技術去抽取檢測到的行人,然後把人的特徵抽取出來,進行相似度比較,最後判斷這一系列的特徵是否為同一個人。
基於前面的行人檢測與行人重識別技術,行人追蹤本身是一個關聯性的問題,把單一攝像頭下的不同幀和多攝像頭下的不同幀透過統一的ID關聯起來,在特徵技術裡面會投入兩個先驗認知去提升效能,一個是我們預期大部分人行走速度不會很快,那在兩個相鄰的正中間,檢測框在物理位置上會比較接近,這是一種空間的近似。第二個是行人在執行中不太可能頻繁的改變方向,所以我們可以做用線性的運動模型,比如用卡爾曼濾波去模擬一個人的活動、動作預測,這在一個人被遮擋時非常有用。
除了之前的行人檢測、行人重識別、行人追蹤之外,也會針對人身體的關鍵幀進行姿態層面的識別。因為有了關鍵幀,即使沒有臉部特徵,也可以知道人的眼睛、肩膀、腰、手臂的大致位置,以決定它的方向和朝向性資訊。那具備這樣的超長資訊之後,很多時候是可以預判兩個人的某個部位之間的相關距離,這些相關距離對於雙方的關係的判斷,或者某些物體拿起的判斷會有很大的幫助。
行人重識別也就是跨攝像頭追蹤,同一個人從進店到各個位置,然後被遮擋,它整條路徑都被追蹤起來,之後給它一個統一的ID,其實透過行人特徵進行停留時長的預判,才是零售場景裡面顧客停留時長判斷的正確方式,而不是用人臉,因為人臉攝像頭在佈置時很難達到客戶移動到哪個位置都有相應的覆蓋,所以用人臉計算在購物的某個階段裡的時長是不夠準確的。
模型的應用還包括戶外選址,使用追蹤來獲得行人的軌跡,然後應用進一步的分析性別、年齡等。ReID最常規的應用是熱力圖技術,透過追蹤熱力特徵把顧客、店員區分出來,然後在場地裡面投影。我們針對於行人身份的風格,實際上可以組合多種技術,包括識別追蹤以及區分導購和顧客。根據姿態識別和朝向,決定身體特徵相關的位置和距離,同時基於人臉攝像頭,比如收銀臺上或櫃檯上人臉攝像頭的抓拍,將這三者進行關聯,實際上可以比較精準的分析出導購在崗、離崗的時間,以及服務的深度,包括服務的時長、服務的質量,這些都可以透過導購與顧客之間的互動時間、關鍵位置的距離的遠近來做初步預判,而且能達到較好的準確度。
前面都是行人技術的直接應用,下面是行人技術去輔助做人臉識別,大家知道因為光照遮擋和角度的情況,會有一些人臉沒辦法被演算法進行聚類,這些人如果丟失掉,會影響整體客流量的精準統計,所以會引入Video-Face技術,透過半生的身體特徵去追蹤聚類,把那些人臉資訊沒法識別的客戶也精準識別出來,這些客戶和人臉識別出來的客戶進行並集,實現店內的完整的資料。
前面介紹了大致的時間路徑,這裡面有很多相關問題,第一個是遮擋和誤解;第二個是行人姿態的差異很大;第三個是一個極端照明條件下會影響模型的穩健性。
圖普ReID技術的實踐演化之路
第一個問題就是密集人群的遮擋,在大型商超裡經常可以看到,如上圖左邊所示是沃爾瑪,可以看到有大量的遮擋,包括人跟人之間的遮擋,人和物之間的遮擋。右邊幾個女孩子在一起去拍照,中間女孩子把她的手從左邊一個女孩子那邊伸出,實際上在傳統的處理檢測時,如果標註中間那個女孩子,會引入到大量的左邊黑人女孩的特徵,會影響程式本身的健康性,所以對這型別方法的解決方案,首先約定一些標註技術,比如我們透過紅框標出核心的特徵點,丟棄其他部分,同時也會透過檢測模型、人工標註的迭代互動,不斷提高模型的承載能力。
第二個問題是多角度,左圖的上面一部分是人工標註測試集,在這裡面是有標註錯誤的,很多的衣服上的顏色圖案不一樣,明顯是兩個人。但因為特別像,所以把它合併到一起。下面是公開資料集裡面的一些錯誤,也看到其實是兩個人,這裡面有很多問題,一個是細粒度識別問題,就是兩個形態很相似的人可能是因為身上衣服,比如白色T恤衫只有圖案上的差異,或者鞋子上面有沒有蝴蝶結之類;第二個是最常見的光線問題,在不同的室內、室外,不同的光線下造成的差異;第三個問題是遮擋,遮擋是無時無刻不在發生的;第四個問題是影象大小調整後的尺寸變化。
上圖左邊是多角度與圖片拉伸的問題,這個人在同一個場景,同一個攝像頭,在同一個時間上面,因為攝像頭不是垂直向下的,它是有一個斜角。在這個環境下,即使同一個人在相同的時間裡,角度變化會造成檢測框的長、寬會有巨大的差異,需要用一些規劃技術把它拉到同樣的長框裡面去處理,這樣就給演算法帶來很大的挑戰。中間是行人特徵的細微變化,看到左邊的女生查了頭髮,戴著眼鏡,之後散著頭髮,沒帶眼鏡,其實是她們是一個人,但是這種差異也會對模型造成困擾。最右邊是不同的人,他們的衣服顏色、穿著都是極度相似的,那怎麼去處理?對於這些問題,首先是不斷去堆積資料提升程式的魯棒性。接下來透過一些綜合因素,比如朝向分析、關鍵點,細粒度分類的方法來提升模型的處理能力。
下面是行人重識別常用的最佳化方法,首先是資料準備,在人工標註下不斷的最佳化、清洗資料的質量。
第二是會透過資料增強技術,比如說排重、增加隨機的高斯模糊、擦除、背景分割與替換,以防止某些干擾性因素造成模型過擬合。
第三是用ResNet做全域性特徵提取,把特徵去分不同的層,然後去進行聚合。
第四是成本最佳化,比如模型蒸餾的方法,因為我們會執行一些輕量級的網路,但輕量級網路的效能不夠強,需要透過一個重量級的網路不斷進行迭代訓練,來提升整體的效能。
因為抽取了身體特徵,理論上是可以分析顧客的屬性,基於ReID技術,可以做年齡、性別識別,還包括朝向、包包、鞋子,帽子的一系列分析。相較於人臉識別,存在很大的困難,首先以中性著裝識別難度大;第二是包包的遮擋,顏色的相似,很難分辨它與衣服上圖案的差別;第三個是年齡,年齡最大問題是在零售場景裡面,資料是有聚合效應的,幼齡段和老年段的資料是明顯不足的,很容易造成模型的過擬合的問題。同時,出於成本層面考慮,在訓練時是透過一個訓練模型去提取不同的特徵,不同特徵的訓練,梯度的深度在不同時間是不一樣,這會造成模型會對某型別的屬性分析的特別到位,但是對於其他特徵效果會比較差。
上圖所示看下具體的案例,首先左邊是特徵不明顯,女性化的男人,男性化的女人,女人穿的像女漢子一樣很中性化。右邊是奇怪的揹包造型,有些放在後面被遮擋的很厲害,有些造型跟傳統的包看上去是不太一樣,還有一些跟衣服的顏色非常相似,對於這種情況,除了提升模型本身能力之外,更多的是有一個比較好的運營團隊,他們會持續的在真實的客戶應用場景裡面觀察跟實踐,發現很多的誤判,然後把它們去搜集出來,之後重新的訓練,不停的重複這個過程。針對屬性層面,還會用到注意力機制,我們會要求模型去關注,比如揹包在人身體的中部或背部的位置,在訓練時,模型會根據調參自動化的聚焦在某個點上,這樣也可以顯著的提升模型對於某些特定的屬性的識別能力。
接著為年齡問題,行人重識別的特徵裡最核心的除了性別之外就是年齡,因為中國的零售已經發展到品牌精準匹配年齡的階段,甚至很多頭部的零售企業已經能做到在不同的店型中,甚至在不同店的區域裡都匹配不同的年齡。
我們可以看下左邊的圖是一個3C店裡面,他的年齡是集中在20~40歲之間,他是比較聚焦的,在低齡段裡面是基本上沒有的。右邊這張圖是一個運動品牌,可以看到它是有點符合正態分佈的,但是它的年齡段是偏年輕。
基於差異性,怎麼樣在模型中讓它去很好的支撐,同時也面臨資料收集的問題,可以看到高齡段跟低齡段在所有的學界測試集或公開測試集裡都很難找到,而且年齡有一個很嚴重的問題,就是它的人為因素太大,大家都知道人工智慧是人工 智慧,由人先透過標註來教模型,讓模型知道這個人是多少歲,是什麼顏值,他是誰?這樣有時不同人根據經驗判斷有不同的標註,會顯著造成模型的過擬合的現象。解決方案就是在一個特定年齡段裡,根據正態分佈的情況,給不同年齡段去釋放一個機率,假設在21~25歲的年齡段裡面標註這個人,我們會根據正態分佈在先給出一個機率,可能他是5歲的機率很低,他可能是在22歲或30歲這個年齡段裡機率高些,這樣我們會在裡面增加一個人為的影響因素去訓練它。
實際上並不是讓所有的品牌、門店、客戶都用一個模型,我們可以組合不同模型,比如運動品牌偏年輕,它的模型對於年輕的準確度就會更好一點,或者還有一部分是壯年類的產品為核心,那麼我們會把這部分的模型換上去,這個過程是動態可以設定的。
下面是梯度歸一化,基於前面提到在一個訓練中有很多不同的屬性特徵,包括性別、年齡及身上的標識特徵,那每個任務訓練時,它的訓練速率和權重都會不同,造成模型會出現過擬合的情況。我們的解決方案是透過初始引數去調整下降速度,讓同一個訓練中的每個屬性按照自己的需要去投入更多的訓練主導,這種解決方案既能節省成本,又不會造成一個特性很strong,其他屬性很weak的情況。
上圖是行人追蹤的一些問題,它主體是一個遮擋的問題,看下左邊有很多種遮擋,遮擋首先關係不同,有人和人之間的遮擋,人和物體之間的遮擋,還有可能是同一個攝像頭在人的移動的不同視角下的變化,這導致了檢測的突變及漏框。我們回顧下整個過程是先要檢測出人,再給每個人分一個ID,然後把相似的ID全部都關聯在一起,整個流程再把這些ID的特徵抽取出來,識別出一些屬性。在這個過程中,檢測對於物體的誤判是比較好解決的。解決方案是透過標註失敗案例,對模型進行增強的重複訓練。對於說其他問題,首先還是會用這些資料增加模型的魯棒性,所以資料是非常重要的。第二會透過時間和空間的關係去預測,因為人跟物體的遮擋是一個固定的,但如果說能夠知道多個人在一起,就能判斷遮擋是人或物體,甚至如果知道它的朝向資訊,可以在這裡面去疊加很多的時間、空間演算法去解決相互關係的問題,即使模型本身不夠強大去判斷這個人,也可以透過這種增補的方法,把整個流程串聯起來。
上圖是行人追蹤的完整解決方案,左邊看到是一個容易場景,在容易場景裡面可以把增率降的很低,即使如此也可以透過關鍵點、時空的疊加,把效果做到很好的狀態,這是一個成本考量。
右邊的話是一個真實場景,它是深圳羅湖口岸過境的畫面,過境時候人很多,遮擋很嚴重,穿行速度很快,對於情況沒有特別好的解決方案。首先,很好的模型是必須的,其次是把這個影片流完整影象都傳遞過來,透過大量的抽幀找到人物之間遮擋,把不好的圖片都給去掉,捕捉到一個非常好的姿態,然後對它進行計算,同樣也要運用到對於這個人的相關性,時空跟周邊人的關係的一些疊加演算法,去最終反映出這個人的軌跡。基於這幾個技術的疊加,最終看到的效果還是非常理想的。
我們都希望有一個通用的模型,在每個場景裡都能很好的去解決問題。但事實上只能在一些特定的場景裡,透過資料增強疊加和其他的演算法方式去提升整體的效果,而在其他地方會表現得非常的普通。從這個角度上來看,這是現在人工智慧領域的一些困境,我們只有聚焦才能在某些點上做的好,但我們很希望在未來能有更通用的模型去解決所遇到的各種問題。
如何利用顧客熱區最佳化線下商超運營
下面是真實的一些應用場景,第一個是熱力圖技術,在熱力圖技術裡可以對人進行排重,對人的方向性進行圈定,同時可以劃分出這個人,所以我們的熱力圖是分層次的,它可以有多個維度,首先是基於人數的多少去分析,第二可以基於這個人的停留時長去分析,第三個會區分這個區域裡面所有人的一個朝向。熱力圖中紅色的區域代表的密度高、數值大,綠色相對少一點,這個圖是針對區域性場的來劃分的。很多時候會發現人數多,不代表這個地方關注的人會多,所以我們有三種不同的檢視方便零售商去切換,然後做出相應的綜合性決策。
上圖是基於行人追蹤技術做的單店單攝像頭下的軌跡追蹤,可以看下地上有很多黃色的線,這些線是在一段時間內整個場內移動的顧客,他排除了所有的干擾因素,包括方向性資訊和他們最多走的一個路線,顏色的深淺決定了這個人數的多少,方向就是他們要走的路徑。基於路徑的分析,零售商可以很容易看出他的陳列和動線設計,可以容易看出顧客實際上走的路線符不符合他的預期,可以輔助他們儘快對店內進行調整。
接著看下訪客分佈和停留時長分佈的差異,上圖是在真實超市裡的不同的區域。首先,本質上不同區域裡的客戶密度會有差異,但停留時長可以看到左上角的圖,在L型的摺疊區域裡面人次最多的,它呈現出一個極大的熱力圖,但是在左邊右上的地方,基於時長來分析,那個區域並不是停留時間最長的,反而靠右邊一點的區域是更長的,這些細節的差異可以方便零售商去很精細化的調優商品陳列、組合,改善相關的業績。
實際上在零售實踐裡面,原有品類的位置輕微的陳列改變,都會對銷售額造成一個立竿見影的變化,更別說是針對到店的客群的畫像去做精細化匹配,這裡面的想象空間是非常大的。我們可以簡單看下,前面的這種朝向熱力圖的上面這張圖是正常的,他的精品的客戶是有400多位,平均停留時長是在十幾秒鐘,男女比例明顯看到女性的比例會更高,因為是個促銷區,女性肯定是更喜歡待在這個地方的,包括一系列的年齡分佈。
但是下面還有一個聚焦模式,針對於大的區域可以象徵到任何一個方格一個寬度裡面有多少人,我們可以看到下面這張圖明顯只有兩個人,它平均停留時間會很長,它基本到了半分鐘,男女比例可能是趨於均衡,因為數字非常的小,所以會呈現出一半的情況,但是基於聚焦模式的這種雙向切換的理解和調優,就能達到一個非常精細的程度。
下面是場的效率和商品效率的一個匹配,在店裡面有多條通道,有主有次,在不同的通道里面,可以看左邊這個圖,淺色的柱子是精品的客流,它是透過ReID去排除去計算的,可以明顯看到A通道是一個主通道,他直接對著門,所以它的人是最多的,看一下它的銷售情況,紅色的是銷售的絕對值數字,它也是最高的。
但我們發現對於客流的轉換上來講,它卻不是最高的,大概就是15個點左右,我們發現通道c通道的客流不是很多,甚至排在倒數,但是它的轉化率卻非常高,這個現象在零售門店裡面是很普遍的。針對這個案例,我們做過研究,由於這個地方是商品的價值比較高,利潤各方面都很好,同時它有兩臺美容儀,基本上顧客到這個位置上經過一個體驗之後,對商品有一個更深刻的認識,所以轉化率會偏高一點,基於這樣的情況,我們是否能夠做出相應的調整來充分釋放這個位置或者說這種模式的商業價值。
現在有更多的零售會做很大的型別店,比如說運動品牌店、大型的超市、商業地產,它需要有多個攝像頭做分析,透過一種叫全服熱力圖的技術,把多個攝像頭下的行人資料、識別分析關聯起來,然後透過投影技術垂直地投放到整個的CAD圖上面,這樣無論是總部也好,還是督查也好,還是門店的運營層也好,可以一瞬間看到客戶的客流在不同的時間段間整個場地的分佈。
下面是場的效率和商品效率的一個匹配,在店裡面有多條通道,有主有次,在不同的通道里面,可以看左邊這個圖,淺色的柱子是精品的客流,它是透過ReID去排除去計算的,可以明顯看到A通道是一個主通道,他直接對著門,所以它的人是最多的,看一下它的銷售情況,紅色的是銷售的絕對值數字,它也是最高的。
但我們發現對於客流的轉換上來講,它卻不是最高的,大概就是15個點左右,我們發現通道c通道的客流不是很多,甚至排在倒數,但是它的轉化率卻非常高,這個現象在零售門店裡面是很普遍的。針對這個案例,我們做過研究,由於這個地方是商品的價值比較高,利潤各方面都很好,同時它有兩臺美容儀,基本上顧客到這個位置上經過一個體驗之後,對商品有一個更深刻的認識,所以轉化率會偏高一點,基於這樣的情況,我們是否能夠做出相應的調整來充分釋放這個位置或者說這種模式的商業價值。
現在有更多的零售會做很大的型別店,比如說運動品牌店、大型的超市、商業地產,它需要有多個攝像頭做分析,透過一種叫全服熱力圖的技術,把多個攝像頭下的行人資料、識別分析關聯起來,然後透過投影技術垂直地投放到整個的CAD圖上面,這樣無論是總部也好,還是督查也好,還是門店的運營層也好,可以一瞬間看到客戶的客流在不同的時間段間整個場地的分佈。
下面是選址的一個真實應用場景,我們上圖的左下角,周邊經停了很多人全部都被精準的抓取識別出來,不眠不休,不分白天黑夜,然後完成這樣一個工作,以前這些工作全部是由人完成的,而且現在還會有很多人在做這樣的工作,來幫助推動佔GDP將近百分之四五十的零售行業。
把人臉技術與姿態技術相關聯,用來分析員工在崗、離崗、接待效率,這在實際場景中效果也非常好。最後是我們實踐的頭部客戶,有OPPO手機、名創優品、有贊、愛回收,還有一些優秀的運動品牌像李寧,還有像天虹這樣的一些集團,可以說現在的行人重識別技術相較於人臉識別技術在零售的成熟度還是偏低的,所以,許多頭部客戶願意嘗試,願意去用我們的技術,我們才能夠不斷的最佳化、迭代。