创新工场两篇论文入选顶会ACL2020,将中文分词性能刷出新高度

2020 年 7 月 5 日至 7 月 10 日,自然语言处理领域(NLP)顶级学术会议 ACL 2020 通过线上举行,公开数据显示,今年大会投稿数量超过 3000 篇,共接收 779 篇论文,包括 571 篇长论文和 208 篇短论文,接收率为 25.2%,疫情期间热度有增无减。

值得关注的是,ACL 2020 投稿在分词领域全世界仅中选 18 篇研究论文,其中就有来自创新工场大湾区人工智能研究院的两篇论文成功入选。

7 月 8 日上午,创新工场大湾区人工智能研究院执行院长宋彦针对这两篇入选论文进行了线上的分享解读。两篇技术论文均聚焦在中文分词和词性标注领域,将该领域近年来广泛使用的各数据集上的分数全部刷至新高,取得的研究突破对于工业界来说有着十分可观的应用前景。

两篇文章的作者包括华盛顿大学博士研究生、创新工场实习生田元贺,创新工场大湾区人工智能研究院执行院长宋彦,创新工场科研合伙人张潼,创新工场 CTO 兼人工智能工程院执行院长王咏刚等人。

据了解,创新工场人工智能工程院成立于 2016 年 9 月,目前工程院已下设北京总部、南京研究院和大湾区研究院。大湾区研究院再下设信息感知和理解实验室,专注于对自然语言处理(NLP)领域的研究,执行院长宋彦本人有超过 15 年的 NLP 领域的科研经验。

创新工场两篇论文入选顶会ACL2020,将中文分词性能刷出新高度

宋彦在分享中表示,分词及词性标注是中文自然语言处理的两个基本任务,是任何其它后续处理工作的一个最重要的基础。

近年来,大家在中文分词领域会有一些不同的见解。尤其是随着预训练模型的提出,有一些人提出质疑是否还有必要进行中文分词的处理,对此宋彦提出了不同的意见,尤其考虑到词汇级别的信息依然是中文信息处理最重要的基础。

一个例子就是,虽然 BERT 大行其道,但是在中文上基于全词覆盖 (whole word masking)的预训练模型比直接使用单字编码的效果更好,那么由此说明,引入词信息能够达到更好的效果。

而针对工业界目前的诉求来看,虽然字模型对于各种字的编码器能够达到非常好的效果,但是依然无法达到效率和性能的平衡,尤其是在很多场景下,我们需要进行人工干预及后处理,那么能够对一句话进行分词处理,对于后续的很多工业应用都会有非常大的实际价值。

此前一直没有太好的一体化解决方案,主要存在以下两方面的问题:

第一点,使用基于字编码技术进行 NLP 的时候,比较难去融汇一些大颗粒度的词汇信息,针对分词和词性标注类似这样的任务,目前还没有一个非常好的能够在上面加入类似信息的方法;

第二点,是融合数据驱动和加入知识这两个不同层面的矛盾,目前普遍采用基于深度学习和统计的方法,基于大量的数据去学习 NLP 模型,在此基础上,模型学到内容都是从数据出发,那么对于一些已经人工整理好的知识,或者是自动学到的知识,怎么把这些知识加入到通过数据学习的模型里面去,是需要融合的一个天平的两端。

创新工场两篇入选论文的出发点,便是针对当前的技术瓶颈现状提出一个更好的一体化解决方案。

创新工场两篇论文入选顶会ACL2020,将中文分词性能刷出新高度
中文分词研究进展

针对中文分词这项研究,入选论文之一《Improving Chinese Word Segmentation with Wordhood Memory Networks》提出了一个基于键 - 值记忆神经网络的中文分词模型。

中文语言理解比较特殊,在分词时面临着两个主要难点。一是歧义问题。分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为 “部分 / 居民 / 生活 / 水平”,但存在“分居”、“民生” 等歧义词。“他从小学电脑技术”,正确的分词是:他 / 从小 / 学 / 电脑技术,但也存在 “小学” 这种歧义词。

二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词,或者是人名,这类问题在跨领域分词任务中尤其明显。

创新工场两篇论文入选顶会ACL2020,将中文分词性能刷出新高度

对此,“基于键 - 值记忆神经网络的中文分词模型”利用 n 元组(即一个由连续 n 个字组成的序列,提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解,并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。

例如,在 “部分居民生活水平” 这句话中,到底有多少可能成为词的组块?把这些可能成词的组合全部找到以后,加入到该分词模型中。通过神经网络,学习哪些词对于最后完整表达句意的帮助更大,进而分配不同的权重。

通过这种方式可以发现,像 “部分”、“居民”、“生活”、“水平” 这些词都会被突出出来,但 “分居”、“民生” 这些词就会被降权处理,从而预测出该短句正确的意思。

为了检验该模型的分词效果,研究人员进行了严格的标准实验和跨领域实验,结果显示,与前人的模型相比,该模型在 5 个中文分词领域世界通用的标准数据集(MSR、PKU、AS、CityU、CTB6)上的表现,均达了最好的成绩(F 值越高,性能越好),把中文分词领域的性能刷到了新高度。

创新工场两篇论文入选顶会ACL2020,将中文分词性能刷出新高度
词性标注研究进展

关于词性标注的研究,第二篇论文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一种基于双通道注意力机制的分词及词性标注模型。

词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如动词、名词、代词、形容词,正确的词性标注对后续的句子理解非常关键。在词性标注中,同样面临歧义问题。另外,句法标注本身需要大量的时间和人力成本。在以往的标注工作中,使用外部自动工具获取句法知识是主流方法,这种情况下,如果模型不能识别并正确处理带有杂音的句法知识,很可能会被不准确的句法知识误导,做出错误的预测。

举个例子,比如在 “他要向全班同学报告书上的内容” 这句话,“报告书”的正确的切分和标注应为 “报告_VV(动词)/ 书_N(名词)”。但由于“报告书” 本身也是一个常用词,一般的模型可能会将其标注为 “报告书_NN”(名词)来理解。又例如“他马上功夫很好” 这句话,但按照此前的句法知识,很可能得到不准确的切分及句法关系,如“马上”。

创新工场两篇论文入选顶会ACL2020,将中文分词性能刷出新高度

“基于双通道注意力机制的分词及词性标注模型”可以将中文分词和词性标注视作联合任务,通过一体化解决方案完成。

模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。

这样一来,那些不准确的,对模型预测贡献小的上下文特征和句法知识就能被识别出来,并被分配小的权重,从而避免模型被这些有噪音的信息误导。

同样,研究人员基于新的解决方案在 5 个主流数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)上进行了测试,在一般领域实验和跨领域实验中,效果均超过前人的研究工作,也大幅度超过了斯坦福大学的 CoreNLP 工具和伯克利大学的句法分析器。

创新工场两篇论文入选顶会ACL2020,将中文分词性能刷出新高度

宋彦总结,“从技术创新的角度,我们的贡献主要有两点。一是在现有技术的基础上,建立了一个一体化的模型框架,使用非监督方法构建词表,并把知识(信息)融入进来,使用更高层次的句法知识,来帮助词性标注,起到'他山之石,可以攻玉’的效果。”

“二是主动吸收和分辨不同的外部知识(信息)。通过键 - 值记忆神经网络和双通道注意力机制,进行动态权重的分配,能够有效分辨知识,区分哪些是有效的,哪些是无效的。虽然这些知识是自动获取的、不准确的,但‘三个臭皮匠,顶个诸葛亮’,经过有效利用,总能凑出一些有用的信息。如何实现模型的主动吸收和分辨,就变得更加重要。”

在工业应用领域,宋彦表示在中文分词和词性标注作为一种相对底层的创新,不仅可以为特定领域的新词识别、各种其他顶层应用提供改进的思路。例如对于文本分类、情感分析,文本摘要、机器翻译等,分词都是不可或缺的基本“元件”,正确的分词能够平衡公司应用开发的效率和性能,同时方便人工干预及(预)后处理。

同时,这些技术创新也可以在其他任务中,采用类似的方法利用外部知识提高模型性能,为更多后续的研究提供一些参考,例如搜索引擎的广告系统升级、算法模型的跨领域学习和匹配推荐等。

版权声明:本文源自 网络, 于,由 楠木轩 整理发布,共 3473 字。

转载请注明: 创新工场两篇论文入选顶会ACL2020,将中文分词性能刷出新高度 - 楠木轩