編者按:本文系投稿稿件,作者趙衡,來源:TalkingData,版權歸原作者所有。
引言在聊DMP的高級玩法之前,有必要簡單普及一下程序化廣告,以及DMP在其中的角色和功能。
程序化廣告是以人為本的精準廣告定向 媒體資源的自動化、數字化售賣與採購的過程。在程序化廣告投放的過程中,DMP扮演的是流量字典一樣的角色,能幫助需求方識別和判斷出流量是否屬於廣告的目標受眾,從而讓需求方可以把廣告投放給對的人羣。
本質眾所周知,大品牌廣告主的投放規模比較大,並且通常會選擇不同程度的包量投放模式,這意味着品牌活動期間,每天發生數億次查詢請求和近億次廣告曝光是常態。因此,大品牌主在選用DMP時一定有兩個最基本的要求:
1、有足夠大的設備數據體量:也就是説這本字典的詞彙量要足夠大,儘量讓每一次查詢都查有所得。如果DMP的設備數據體量不夠,就意味着大部分流量都無法被識別,如果就這樣把廣告投出去,意味着需求方不能預判這個流量是否符合目標人羣的條件,那麼投放的結果將毫無精準和高效可言;如果不投,則意味着大量的曝光機會被浪費,廣告的整體曝量和轉化率都很低,完全無法滿足品牌傳播的最基本預期。
2、有豐富且覆蓋率較高的標籤:這些標籤往往是需求方選擇目標人羣的依據,想把廣告投給什麼樣的人羣,就通過標籤篩選出各類符合要求的設備作為廣告投放的對象。因此標籤維度越豐富,目標人羣的選擇和劃分就越精細,標籤的覆蓋率越高,相同標準下篩選出來的目標受眾數量就越多,廣告的目標受眾量上限也就越高。
由此可見,為大品牌主提供DMP服務的前提,除了具備最基本的技術對接能力之外,數據的廣度和深度也不可或缺。也就是説,雖然大數據公司不一定提供DMP服務,但能提供優質DMP服務的一定是大數據公司,通過自身產品積累了龐大的數據源和流量池,並藉助強大的數據處理和計算能力,形成了豐富的標籤體系。
但近年來,眾多大品牌主的數字化轉型工作進展迅速,數據對於品牌主而言越來越透明、可用,在數據的加持下廣告效果的歸因變得可行,而通過數據賦能廣告投放提效也成為品牌主的新課題。對於長期以來消耗鉅額預算,海量消費者的營銷,擔當企業和產品形象,卻又不直接為轉化和銷量背鍋的品牌廣告而言,如果在數據智能的加持下也能“帶貨”的話,對品牌主而言都將會是“真香”的存在。畢竟一波營銷活動的受眾數量動輒上億,即使有萬分之一的轉化,也能帶來上萬筆訂單。於是,“品牌廣告效果化”成為大品牌主數據團隊的試驗田。也是在這樣的業務需求和背景下,DMP的高級玩法誕生了。
之所以稱為高級玩法,是因為DMP的身份雖然沒變,但目標受眾不再是通過標籤篩選出來的了,而是通過算法模型讓AI學習和預測出來的。甚至需求方在描述目標受眾的時候,也無需羅列人羣的各類屬性和特徵,取而代之的是明確希望實現的轉化指標,並提供少量範例樣本。
舉個直白的例子:傳統模式下,需求方會在request中註明目標受眾的特徵,如“一線城市20-30歲的女性”,DMP服務方會通過標籤篩選出符合一線城市&20-30歲&性別為女的人羣。而高級玩法下,需求方只需明確“希望將廣告投給最有可能購買產品的人羣”,DMP服務方會基於對轉化目標的理解設定正負樣本,構建二分類/多分類模型,再用模型預測出最有可能買產品的人羣。
這是一種為最大化實現轉化目標而形成的DMP服務模式,提供服務的前提除了龐大的設備體量之外,還要藉助設備儘可能多而全的行為特徵數據,並且需要有一定數量的樣本數據輸入。
比如目標是“選出最有可能購買產品的人羣”,往往需要先選擇一部分已經買過產品的人羣作為正樣本,沒買過產品的人羣作為負樣本。而之後通常需要依次進行正負樣本優化和輸入、特徵匹配、特徵降維、模型訓練和調優才這幾步才能完成模型。最後再用模型預測設備與正樣本人羣相似的程度,從而找出目標人羣。
原理以二分類模型為例,整個建模和預測的過程就像教孩子辨認汽車的過程:我們先拿出兩疊圖片,一疊裏都是轎車,另一疊裏是貨車、SUV、摩托車等非轎車。然後告訴孩子,這一疊圖片裏的是轎車,另一疊圖片裏的不是。為了幫助辨認,你可能會告訴孩子轎車都看起來比較扁、底盤也比較低;不是四個輪子的都不是轎車,帶貨箱貨斗的也不是,開車的人坐在外邊的也不是等等……然後再把兩疊圖片合在一起打亂順序,讓孩子辨認哪一張是轎車,哪一張不是。
一開始孩子很容易認錯,但在你一次次糾正、指導以及他的反覆練習後,孩子就基本具備了正確的判斷力,不怎麼出錯了。這時候你把他領到馬路邊,讓他從駛過的每一輛車中指出哪些是轎車。
如果我們把建模和模型預測中的概念和步驟,與上述例子對號入座的話。家長就是數據科學家、孩子就是AI,正樣本就是那一疊轎車的圖片,負樣本就是另外一疊其他車型的圖片。家長挑選正負樣本的過程,實際就是數據科學家準備圖片的過程。圖片中轎車的外觀、造型等諸多可見的細節就是特徵,我們告訴孩子轎車都有哪些特點的過程就是特徵匹配和降維,我們打亂圖片讓孩子一次次辨認的過程就是模型訓練,然後我們不斷糾正、指導的過程就是模型調優。而最終孩子頭腦中形成的對轎車的判斷能力,就是模型本身。之後讓孩子去路邊辨認轎車,就是模型預測的過程。而那些被孩子辨認出來的轎車,就是需求方想要的目標人羣。
例子聽起來蠻簡單的,但實際上建模和預測的過程中,有很多至關重要的細節要決策和處理好,這通常對於數據科學家的經驗和業務理解力有着很高的要求。還拿上邊這個例子來説:家長髮現孩子在剛開始練習的時候,很容易把紅色的車都認成轎車,仔細觀察後發現是因為轎車那一疊圖片裏,紅顏色的車很多。於是家長告訴孩子,車的顏色與車型是無關的,應該仔細觀察汽車形狀結構上的差異。隨後,家長把兩疊圖片中的車都P成紅色,重新打印出來,讓孩子繼續練習識別車型。那麼家長這一波指導和操作,實際就相當於數據科學家所做的特徵降維工作的一部分。
同時,樣本的數量是否足夠,設備行為特徵數據是否適合、豐富,顆粒度是否夠細等因素,也極大程度上影響着模型的預測效果。還是這個例子,如果從兩疊照片中分別只抽取兩三張照片來教孩子,如果碰巧抽中的轎車都是兩廂轎車的圖片、非轎車都是皮卡的圖片,那麼最終在馬路旁辨認的時候,孩子很可能會把SUV認成轎車,把三廂轎車認成皮卡。造成孩子把車認錯的原因主要就在於正負樣本量過小,導致只通過幾張圖片的練習,還完全不足以區分出路面上兩廂轎車和SUV的差異。
再比如,給孩子練習所使用的汽車圖片,手繪的簡圖肯定不如清晰的效果圖,清晰的效果圖又肯定不如實車的高清照片;而如果可以用足夠多的高仿汽車模型,甚至是真車來練習辨認,那麼效果顯然會更好。因為最終孩子是要上路識別真車的,而訓練時如果可以基於真車來練習,那無疑對車型的實際差異會有更全面、立體、客觀的認知和印象,最後在路邊辨認時,準確性也必然會極高。
對於孩子而言,真車比圖片增加了太多可見或可直觀感受到的元素和細節。這種圖片和真車的差異,其實就類似於特徵數據質量、維度的高與低以及顆粒度大與小的差異。
實踐前面,文章介紹了DMP高級玩法的本質和原理。大家一定很好奇,這看上去高級的玩法,效果究竟能有多少提升啊?接下來再舉個真實的案例,讓大家直觀感受到效果。
這是一個食品行業大品牌主的需求,希望在曾經被投放過廣告的人羣中找出最有可能購買產品的人羣,廣告進行二次投放,目的是為了獲得儘可能高的廣告曝光到產品購買的轉化率。
面對客户這一非常符合DMP高級玩法應用場景的需求,TalkingData選擇通過二分類模型預測找出這部分高潛人羣,並建議品牌主除歷史曝光人羣外,額外提供目標商品近半年的訂單數據。通過數據融合,從這部分購買人羣中挑選出數萬個僅在非促銷時段購買了該產品的設備作為正樣本,同時選出數萬個半年內點擊過廣告卻沒有購買目標產品的設備作為負樣本。隨後,將正負樣本與TalkingData的活躍設備庫匹配,選出最終用於建模的樣本。
再之後就是指標體系設計、特徵匹配、降維和模型訓練的過程了。這次建模所使用的特徵庫包含設備APP行為、位置、終端屬性等8大類合計20萬 個特徵,樣本匹配全部特徵後,經過稀疏特徵過濾、高相關性特徵刪除等一系列特徵降維處理後,得到1000 個有效特徵,再選擇其中最重要的200個特徵作為模型訓練和預測的依據。
建模完成後,刨除正負樣本,將所有半年內被投放過廣告且和TalkingData活躍設備庫可匹配上的設備,都用模型預測出了一個分值,這個分值的高低代表購買目標品牌產品的可能性或潛力。再把分值按照從高到低排序,選出了幾千萬潛力最高的設備,同時作為對照,又從近半年內被目標品牌廣告投放過的設備中隨機選出了等量設備。
之後,在相同的媒介渠道、用相同的創意,對這兩組設備做了廣告的二次投放,並追蹤被廣告曝光後一段時間內的產品購買數據。最終發現,通過模型預測出的高潛組在這段時間內的目標產品購買率,比隨機抽取的對照組高出3-8倍。
這個案例中,TalkingData針對品牌主旗下的四個品牌分別建模,最終獲得四組對比數字。在奉上廣告效果成倍提升的同時,AI還會帶給品牌主額外的福利。上文中提到,數據科學家通常會把AI在模型訓練中找到的最重要特徵做分享和解讀,而這些特徵,可以輔助品牌進一步瞭解目標受眾,以及調整後續營銷投放策略。
例如,藉助TalkingData在APP行為特徵方面的優勢,如果我們通過建模發現,這個品牌高潛人羣使用出行類APP的這一特徵重要性最高,那麼品牌後續移動端廣告預算就可以考慮向出行類APP傾斜,促進廣告轉化率的提升。
需要特別強調的是,樣本的選擇以及特徵的優化是最終決定模型效果的最關鍵因素,而這一關鍵因素,往往容易被經驗不足的建模人員所忽略。在前面這一案例中,品牌主希望通過模型預測出看過廣告後最有可能購買的人羣,那麼選擇曾經在看過廣告後又購買了產品的人羣作為正樣本,邏輯相對簡單明瞭。但負樣本應該從曝光後未購買人羣中選,還是從點擊廣告但未購買的人羣中選呢?
TalkingData的數據科學家堅定的選擇了後者,並且在標準的特徵過濾過程後,對相關性較高的特徵做了進一步篩查,去除了其中不合理的特徵。這才保證了模型能夠具備比較好的預測效果,而這無疑要仰仗數據科學家的經驗和判斷。如果説深厚的數據能力、豐富的特徵庫以及算力強大的AI模型部署平台是TalkingData的硬件基礎,那麼身經百戰、應對過多個行業以及業務場景需求的數據科學家,絕對是TalkingData的硬核實力。
這個實踐案例的結果,於品牌主而言無疑是一顆定心丸。對於正在為品牌廣告效果化而傷腦筋的品牌主來説,這無疑是一個最新的有力武器。如果想把廣告投給最有可能購買產品的人羣,卻又對他們缺乏瞭解,不知道選擇什麼投放渠道;如果有現成的樣本數據,想先做大規模的放大,再進行廣告投放;如果想提升品牌廣告的帶貨能力,都可以嘗試下這個DMP的高級玩法,用靠譜的AI和模型來幫助提升廣告效果。