大資料時代,個人資訊越來越透明,以至於手機APP都能讀懂你我的心思,甚至能將資訊精準地送達到每一個移動端。APP開發者將其稱之為“演算法推薦”,商家將其稱之為“個性化定製”。有人為推薦機制津津樂道,“原來手機比男朋友更懂我”,聽到更多合口味的音樂,看更多愛好的影片;也有人感嘆其恐怖,擔心陷入演算法佈局好的陷阱,陷入資訊繭房。
價值巨大的推薦系統
雖然我們開始警惕推薦機制可能帶來的危害,但對於企業而言,推薦機制蘊藏著巨大的價值,推薦系統的加速不會停止。
根據王喆老師的論文《深度學習推薦系統》[1]中的例子,2019年天貓“雙11”的成交額是2684億元,天貓推薦系統實現了首頁商品的個性化推薦,其目標是提高轉化轉化率和點選率。假設推薦系統進行了最佳化,整體的轉化率提高1%,那麼增加的成交額大約為26.84億元。由此可見,相比於對資訊繭房的擔憂,網際網路巨頭當然是更關心這筆數目不小的收益增長,進一步加速各自的推薦系統,短影片玩家快手也不例外。
根據快手官網資料顯示,2015年6月,快手的單日使用者上傳影片量突破260萬;2016年4月總使用者數突破3億。截止目前為止,快手累計200億條短影片庫存,每天仍有超過1500萬條影片新增、千億條影片曝光,早已從一個Gif生成工具蛻變成為一個日活3億、日播放量200億的短影片社群。
當構建起龐大的數字世界後,快手需要面對的問題是,如何在承載高峰期每秒數十萬併發呼叫量的同時,從上億級別的短影片庫中,透過千億引數級別的深度模型向不同的使用者物件推送合適的內容,即其推薦系統的加速問題。
為此,快手基於異構裝置構建了計算與儲存分離的推薦系統架構。在該架構的內部,主要由兩部分任務組成,一部分是包括推薦服務、預估服務、召回服務在內的計算敏感性服務,另一部分是包括使用者畫像、引數伺服器以及分散式伺服器索引的儲存敏感性服務,這些模組需要實現大容量記憶體的資料儲存及快速的資料訪問。
提升訓練速度的英特爾Cooper Lake
實際上,推薦系統加速的本質,一方面是人工智慧應用的升級,機器需要對圖片、影片等資訊進行學習和分類;另一方面,則是對儲存和訪問的進一步需求。
今年6月,英特爾推出的第三代至強可擴充套件處理器Cooper Lake就是專為當今內建人工智慧資料密集型服務而設計的處理器。雷鋒網瞭解到,英特爾第三代可擴充套件處理器進一步升級了DLBoost深度學習加速技術,同時,在深度學習加速架構下的VNNI神經網路指令支援bfloat16資料格式。與上一代平臺Cascade Lake最頂級的CPU 8280相比,在影象分類處理上,Cooper Lake的計算效能提升1.93倍。
在對人工智慧的支援上,區別於第二代至強可擴充套件處理器支援的Int8資料格式和傳統的FP32資料格式,bfloat16資料格式是採用16位存取一個數據,包括1個符號位,8個指數和7個尾數位,同時保證了資料的範圍和精度。
雷鋒網瞭解到,雖然bfloat16的精度沒有FP32的精度高,但是7位尾數對於大多數人工智慧的推理計算模型而言,精度已足夠使用。英特爾技術人員透露,相比於上一代基於FP32資料格式做訓練,VNNI搭配bfloat16能使訓練效能提高93%,推理效能提高90%。
Cooper Lake或將是快手加速推薦系統的好選擇。
依託傲騰持久記憶體,加速儲存與訪問
更好地儲存與訪問,是快手在加速推薦系統過程中,需要面臨的另一個問題。
在傳統的儲存架構中,大容量持久化儲存主要在硬碟或者固態盤中,對於快手的推薦系統而言,尤其是引數伺服器和分散式索引服務,從硬碟或固態盤中索引資料,工作量大,時延長。若將索引工作直接在記憶體中進行,就會降低訪問延時,提高推薦系統的響應。
不過,在記憶體儲存金字塔中,金字塔頂端的儲存方案,效能高,儲存低,單位容量成本高,金字塔低端則是容量大、效能低,成本低的儲存方案,存在斷層現象,比如常規的DDR4的記憶體和NAND的快閃記憶體,訪問的延遲相差1000倍,典型的容量相差100倍,而單位容量的成本相差10倍。這一斷層現象導致很多應用在選擇方案時,難以找到比較平衡的設計。
基於這一難題,英特爾推出了傲騰持久記憶體,與上一代產品相比,其記憶體頻寬提升25%,若搭配之後釋出Ice Lake的平臺,每處理器可帶來4.5TB的總記憶體容量。同時,在做資料寫入時,其訪問延遲只有幾百納秒,而一個普通的NAND SSD的訪問時間則在100微秒左右。
英特爾技術專家介紹,英特爾第三代至強可擴充套件平臺與傲騰持久記憶體結合,可將伺服器上每個節點的容量從原來的幾百GB擴充套件至TB級別,例如一個4路、4個插槽的第三代至強可擴充套件處理器平臺,每個插槽都搭配傲騰持久記憶體,支援的最大記憶體就可達到18T。
基於此,快手率先與英特爾展開合作,結合英特爾至強可擴充套件處理器平臺和傲騰持久記憶體,快手推薦系統性能及TCO得到了最佳化和提升。不僅大大降低了資料訪問延遲時間,還縮短了系統故障恢復時長。
同時,傲騰持久記憶體與DRAM記憶體效能表現相似,前者相比於後者更具成本和容量優勢。因此在同英特爾的合作中,快手推薦系統的總擁有成本(CTO)降低了30%。
除了在推薦系統方面同英特爾合作,改善儲存與訪問速度之外,快手也正在同英特爾探討成立聯合實驗室,推動業務創新及升級資料中心。
作為推薦系統的受益者,快手或將在進一步加速生態系統的過程中再次嚐到甜頭。
[1] 王喆,《深度學習推薦系統》,電子工業出版社
雷鋒網雷鋒網雷鋒網