IT之家3月30日消息 企查查 App 显示,近日,腾讯科技(深圳)有限公司公开了一项名为 “挖掘用户职业的方法、装置、计算机可读存储介质和终端设备”的专利授权,公开号 CN110110213B,申请日期为 2018 年 1 月。
IT之家了解到,专利说明显示,现有技术在挖掘用户的信息时,往往是基于用户个人的文本类数据进行,但这种方式存在极大的缺陷,其主要原因在于这种处理方式过于依赖自然语言处理技术。然而,理解自然语言,尤其是互联网上常见的短文本,需要大量的背景知识和上下文信息。在缺乏这些信息的情形下,即使是人工也无法准确理解文本的含义,目前的很多计算机算法对文本含义的识别效率和准确率也同样不理想。
例如,社交类应用的用户过社交类应用发出一条包含 “福田”的短语,由于 “福田”既可以指深圳的福田区,又可以指 “福田汽车”,在缺乏上下文信息的情形下,现有的挖掘用户的信息方法无法判断这个发出包含 “福田”的短语的用户只是居住在深圳福田区的一位普通市民 (例如,退休在家的大妈或大爷),还是福田汽车 4S 店的一位销售人员。
综上,现有的挖掘用户的信息,例如,职业信息的方法召回率和准确率都偏低,无法满足大数据时代人们对信息准确获取的要求。
本发明属于机器学习领域,提供了一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备,以精确预测用户的职业类型。
本发明提供的技术方案一方面使得待挖掘用户与职业标签能够精确匹配;另一方面,在将待挖掘用户的嵌入向量与职业标签嵌入向量相匹配时,无需大量计算资源,计算速度极快。