編輯導語:有人認為,智能推薦是一個偉大創造,是信息時代必不可少的工具。與此同時,有人急切的想要拒絕智能推薦,認為這種追蹤是對個人隱私的侵犯,也有人認為智能推薦會使我們獲取的信息越來越狹窄、越來越片面從而走進信息繭房。今天這篇文章中,作者就來為我們説説智能推薦的那些事兒。
智能推薦是非常重要的數據產品,是比較早期的實現了智能化、自動化的的數據產品。在現在的科技發展中,客服智能化了麼?沒有~優惠券?定價?都還沒有智能化,只有分發實現了智能化。
字節跳動做智能推薦很厲害,對公司的業務產生了巨大的變革,所以今天我們把智能推薦這個事情來講講清楚,讓大家明白明白。
二、智能推薦的背景用户越來越多,商品越來越多,那麼用户想要找到想要找到的商品也越來越困難,讓某個或某些產品在眾多產品中脱穎而出也是特別特別的困難,簡單的來講就是供需匹配,兩者無法匹配的上,所以怎麼辦呢?如何解決這個問題呢?
三、各類方案解決的優劣所以當前有這麼幾種解決方案,分別是搜索引擎、分類目錄和智能推薦,接下來我們就簡單介紹一下這三種解決方案的優劣勢。
1. 搜索引擎需要用户主動去搜索,這個是百度乾的事兒,但是這個時候是需要用户的目的性很強才行,要知道自己想要什麼,但是很多時候我們並不知道我們想要什麼東西,我也不想去絞盡腦汁去想我要什麼,只想放鬆,那搜索可以做到麼?做不到,可能搜索出來的東西並不是可以滿足我們的東西~
2. 分類目錄在這個裏面,我們要知道我們想要的東西屬於哪一種屬性,知道了之後才能去找,如果分類屬性選擇錯了,那就在當下這個錯的目錄裏面永遠也找不到我想要的東西。而且一旦我不清楚我自己想要什麼的時候,面對紛繁複雜的分類目錄,更是無從下手~
3. 智能推薦而智能推薦呢?我不需要用户提供明確的需求,我只需要根據用户的歷史行為去建模,然後根據他們的歷史行為判斷接下來的行為和喜好,去給用户做相對應的內容、產品推薦。所以當用户沒有明確的目的的時候,也可以幫助用户發現新內容。
四、智能推薦的機制1. 人建立用户畫像,給用户打上事實標籤和模型標籤,什麼是事實標籤?就拿虛擬人物“小明”舉個例子吧!小明經常在某購物平台上購物,並已完善自己的個人信息,那麼平台就會把該信息收集,作為事實標籤。
- 姓名:小明
- 性別:男
- 身高:180cm
- 體重:70kg
- 愛好:看電影
- 職位:產品經理
- 目前所在地:上海
- 消費等級:極高(根據日常消費習慣判斷)
- 常看類型產品:高科技產品、數碼產品、大牌運動鞋
那什麼是模型標籤呢?就是系統可能會把一類人劃分為一個模型,他們的事實標籤可能會比較相似,這就是一個模型標籤。
我接着拿玉康舉例子:比如説系統給他們這一類人建的模型標籤名稱是“大款”,那可能別的某個大款看上了一個布加迪,加購併付款了,雖然孫玉康沒有看這個產品,但是可能布加迪及相關產品也會出現在孫玉康的推薦列表中。
2. 貨(內容)給內容或產品打上標籤,比如一個運動上衣,可能會有夾克、運動、長袖、外套等等各種各樣符合這個產品的標籤,並記錄這個產品的售賣數量,收藏、加購的數量等。
然後通過人貨模型,就可以知道,比如説:年輕的女孩子,喜歡口紅,包包、購物、逛街;年輕的男孩子,喜歡女孩子,喜歡手機、手錶、汽車,然後怎麼匹配呢?
3. 場就是在對應的場裏做匹配,比如説首頁、Feed流、導航欄、個人中心等等,在你想要的場景匹配上你所需要的數據。
然後我可能有了這個標籤的推薦方法,我把一個東西推給一部分人,然後這部分人很喜歡這個東西,那我就可以把這個東西推給更多類似的用户了,然後不停不停的去擴展流量,我就知道每個用户喜歡什麼東西了。
五、智能推薦系統的框架1. 數據採集怎麼去採集啊?要去做埋點,要去記錄用户的數據。
比如説一個用户打開了我們的某小程序,他註冊的信息是什麼?他是幾點打開的,幾點關閉的小程序,查看了哪些頁面,瀏覽了哪些產品,每個頁面的停留時間是多久,用的4G還是5G還是WIFI啊,在哪兒?
這時候用户數據和行為數據都知道了,那什麼是內容數據呢?比如説抖音,億萬的人在抖音產生了千億條抖音短視頻,這些都是內容數據。
2. 數據整理採集到數據之後,就要把數據做標註,數據標註的類型有:圖片標註、語音標註、文本標註、視頻標註、道路標註、行人標註、人臉106點、圖像語義分割等。
然後有些數據是重複的,需要做合併,有些事無意義的數據,影響後面的數據整理,那就做數據清洗,把它幹掉等等
3. 畫像體系有了這些數據,我們就可以生成畫像了,就知道是什麼了。
畫像有人物畫像,也有商品畫像;我們繼續來説小明,比如説:小明,26歲,性別男,愛好看電影,喜歡吃小龍蝦,商品畫像其實就是描述這個商品的內容的東西。
4. 算法引擎- 協同過濾:比如説小明喜歡《數據挖掘導論》,小紅喜歡《三個火槍手》,基於 UserCF(用户協同過濾),找到與他們偏好相似的用户,將相似用户偏好的書籍推薦給他們;還可以基於ItemCF(物品協同過濾),找到與他們當前偏好書籍相似的其他書籍,推薦給他們。
- 隱語義模型:根據用户的當前偏好信息,得到用户的興趣偏好,將該類興趣對應的物品推薦給當前用户。比如,小明喜歡的《數據挖掘導論》屬於計算機類的書籍,那我們可以將其他的計算機類書籍推薦給他;小紅喜歡的是文學類數據,可將《巴黎聖母院》等這類文字作品推薦給她,這就是隱語義模型。
此外還有聚類模型等。
5. 推薦接口由於有這些底層的數據及算法,那就可以根據這些數據通過接口,在某些場景去給他們做分發,我們繼續來説小明,不僅喜歡吃老鄉雞,還喜歡打網球,彈琴,琴棋書畫樣樣精通啊。孫總打開手機的時候,我就可以在他的用户端的各個模塊下給他推薦他喜歡的東西了。
6. 底層規則控制及配置比如説我知道孫總喜歡吃老鄉雞,可是我已經給他推送了3天了,第四天我再給他推送,估計他就吐了,那我給他推送一波小廚娘,名稱就很符合孫總的審美,他是不是就很大概率會買呀,這個就是一些規則的控制與配置,最後通過重新得到的數據去統計分析。
7. 數據採集及畫像構建有些數據用户會手動填寫,有些我們需要根據用户的行為去分析、推測,還有一些 需要我們去埋點獲取。
8. 根據數據,構建用户畫像根據各個標籤,我們可以知道這個人的用户畫像。然後根據這個人是誰,我們就可以去查找他對應的信息有哪些,我們就可以根據用户畫像中的信息去推送他喜歡的東西。
9. 算法的工作機制我們把用户畫像和商品畫像丟到了算法池子裏,過來一個一個用户請求後,我們會先調用用户畫像,讓我看看你是誰?
然後我會再看看我有哪些東西,知道了這些後,系統會按照你的需求去做召回,把東西從庫存中拿出來,比如説我從熱點裏召回了500個,從興趣中召回500個,從TOP隊列中再召回500個,從很多隊列中召回。
比如説我們召回了1500個東西后,我不可能全給你展示,還是太多了,那我就會給這1500個東西評分,排出來個123,所以就會通過協同過濾去做一個排名,用RFM模型去做排序。這是第一次排序。
然後會根據一些運營規則和玩法再去做一次排序,為什麼要做兩次排序呢?因為計算量太大了,所以要做兩次排序。排序之後,就是對每個人做一個千人千面的展示了。
六、冷啓動的問題為什麼是智能推薦系統?因為他有很多的數據去支撐你的整個系統,但是如果沒有數據該怎麼辦呢?這個時候就需要做冷啓動了,冷啓動常遇到的問題分三種:
- 用户冷啓動:主要解決的是如何給新用户做個人化推薦的問題?
- 物品冷啓動:主要解決如何將新的物品推薦給可能對它感興趣的用户這一問題;
- 系統冷啓動:主要解決如何在一個新開發的產品上(還沒有用户,也沒有用户行為,只有一些物品的信息)設計個性化推薦系統,使網站剛發佈就讓用户體驗到個性化推薦服務這一問題。
常見的冷啓動方法,如下圖:
七、智能推薦系統的指標體系然後我們評價我們的系統是不是一個NB的系統,就需要建立一個指標體系,怎麼建立這個指標體系呢?需要從三個維度來建立,第一是人的維度;第二是貨的維度,第三就是場的維度。
1. 人的維度怎麼評價一個推薦系統做的好不好呢?要看的是人均展現,就像女孩子逛街一樣,你開心你就多逛一會兒,不開心可能逛一會兒就結束了,看你吸不吸引她。
人均點擊就是她點進去這個產品查看了,閲讀時長(消費)指的就是這個東西符合他的口味,比如一本書,肯定是閲讀時間越長,越能表現這個這個書越符合人的口味,我推薦的東西,肯定是他買的越多,説明我們的系統越好。
她逛了多少家店,看了多長時間,買了多少錢,肯定是推薦系統越好,推薦的東西越符合他的品味,她逛的時間就越長。這個東西都是成正比的。那Dislike就是你不喜歡這個東西,不點擊,如果dislike率太高的話,那就説明我們的系統還是不太NB的。
所以説在對人的維度:是C端的維度,我們要考慮的是滿足用户的需求。
2. 貨的維度,比如我哪些品類被曝光了,哪些品類被賣出去了這個要看的是每個單品商品的拉新、留存、轉化能力。
為什麼要説貨的維度呢?是為了建立一個穩定的生態,比如説抖音,就那麼幾百個人火,其他人發了都不活,那麼長此下去,還會有其他人去發抖音了麼?不會了。
比如説漂亮小姐姐發啥都火,人均點擊量就是特別高,那我是一個糙老爺們兒,我沒有那麼美麗的皮囊,但是我有內涵,我在抖音上講乾貨,我的抖音沒人看,我發了幾次,一直沒人看,那我就不發了。
所以在算法上,為了生態平衡,為了生態的健康,系統也會給我一些流量,讓我的內容有點點擊率,也利於刺激我去做內容,從而擴大整個系統的生態。
所以在貨的維度上:是B端的維度,是為了要滿足生態的穩定性。
3. 場的維度、平台的推薦機制等我建了多少隊列,隊列是不是多樣的,覆蓋的內容是不是夠廣,內容時效性是不是夠強,不能説都2020年了,我給你推2001年911恐怖襲擊是吧?
還有我們的內容是不是低俗低質量的,比如什麼我推的都是什麼咪蒙文《港囧:鬥小三的正確方式是,你要有很多很多的錢》、《如何科學的搞死渣男老公和小三》,都是很吸引人點擊的內容,但是畫風就很難看,所以為了持續的生態,平台也要去打擊屏蔽類似的內容、字眼。
內容聚集度指的是:top100的內容佔全部內容的比例,比如説我抖音top100的內容的播放量佔了全部內容播放量的80%,説明大部分用户只看頭部內容,那生態就是不健康的,我們還是希望是把流量平分給各個哥們兒。
但是各個平台內容是不同的,比如説抖音主要是把流量分配給各個MCN機構的,但是快手的算法是把流量分配給各個老鐵的。大家可以試試,你去抖音發和快手發同樣的一個視頻,快手的播放量大多數是要超過抖音的,因為抖音的算法,除非爆款,不然他是不會把流量分發給你的。
而快手的Slogan是“快手,記錄生活”,是一個記錄生活的地方,他的流量分發是相對比較平均的。抖音為了讓大家的使用時長提高,廣告的轉化率提高,所以會推薦一些精品的內容,但是精品的內容製作是需要有團隊的,或者説門檻比較高,我們普通人制作不出來,所以內容聚集度就高了。
八、智能推薦還有哪些延伸?比如説用在PUSH上,在大麥APP裏,你平時關注的音樂會,我平時關注的是演唱會,那可能系統給你推薦的就是《【南京】【跨年場】《維也納施特勞斯之夜》新年交響音樂會》,給我推薦的可能就是《【南京】汪蘇瀧大娛樂家演唱會-南京站》。
比如説智能客服,同樣都是買東西遇到了困難,你是的手機維修,我的是家電維修,咱們兩個收到的內容也是不一樣的。
比如説智能營銷,孫博士在系統裏是機械學院的老教授,張博士在系統裏是生物學院的老教授,那系統給他們發送的內容,給孫博士發的就是機械相關的內容,比如説機械相關的產品,相關的會議。給張博士發的就是生物相關的產品和會議等。
再來説智能搜索, 智能搜索會根據每個人搜索的歷史記錄不同,所在國家、地區的不同,展示不同的搜索結果,現在谷歌,百度等搜索已經是了,比如説百度,你在南京搜醫院和你在北京搜醫院,展示的內容肯定是不同的。
此外還有什麼東西可以用到智能的個性化的產品,大家可以自己在工作之餘想想。
本文由@孤獨的美食家丿 原創發佈於人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基於CC0協議