IT之家3月30日消息 企查查 App 顯示,近日,騰訊科技(深圳)有限公司公開了一項名為 “挖掘用户職業的方法、裝置、計算機可讀存儲介質和終端設備”的專利授權,公開號 CN110110213B,申請日期為 2018 年 1 月。
IT之家瞭解到,專利説明顯示,現有技術在挖掘用户的信息時,往往是基於用户個人的文本類數據進行,但這種方式存在極大的缺陷,其主要原因在於這種處理方式過於依賴自然語言處理技術。然而,理解自然語言,尤其是互聯網上常見的短文本,需要大量的背景知識和上下文信息。在缺乏這些信息的情形下,即使是人工也無法準確理解文本的含義,目前的很多計算機算法對文本含義的識別效率和準確率也同樣不理想。
例如,社交類應用的用户過社交類應用發出一條包含 “福田”的短語,由於 “福田”既可以指深圳的福田區,又可以指 “福田汽車”,在缺乏上下文信息的情形下,現有的挖掘用户的信息方法無法判斷這個發出包含 “福田”的短語的用户只是居住在深圳福田區的一位普通市民 (例如,退休在家的大媽或大爺),還是福田汽車 4S 店的一位銷售人員。
綜上,現有的挖掘用户的信息,例如,職業信息的方法召回率和準確率都偏低,無法滿足大數據時代人們對信息準確獲取的要求。
本發明屬於機器學習領域,提供了一種挖掘用户職業的方法、裝置、計算機可讀存儲介質和終端設備,以精確預測用户的職業類型。
本發明提供的技術方案一方面使得待挖掘用户與職業標籤能夠精確匹配;另一方面,在將待挖掘用户的嵌入向量與職業標籤嵌入向量相匹配時,無需大量計算資源,計算速度極快。