AI不會斷句？中文分詞新模型幫它進步

2020-07-23 由弓四清發佈於科技

本文轉自【科技日報】；

人工智能經常“看不懂”中文句子，讓人哭笑不得。在日前舉行的自然語言處理領域（NLP）頂級學術會議ACL 2020上，來自創新工場大灣區人工智能研究院的兩篇論文入選。這兩篇論文均聚焦自然語言處理中文分詞領域。

據研究人員介紹，分詞及詞性標註是中文自然語言處理的基本任務，但當前沒有比較好的一體化解決方案，而且中文分詞普遍存在歧義和未登錄詞的難題。

基於此，兩篇論文各自提出了鍵-值記憶神經網絡的中文分詞模型和基於雙通道注意力機制的分詞及詞性標註模型，將外部知識（信息）融入分詞及詞性標註模型，剔除了分詞“噪音”誤導，提升了分詞及詞性標註效果。

中文分詞主要面臨歧義和未登錄詞兩大難點

據介紹，中文分詞的目的是在中文的字序列中插入分隔符，將其切分為詞。例如，“我喜歡音樂”將被切分為“我/喜歡/音樂”。

創新工場大灣區人工智能研究院執行院長宋彥分析，中文語言因其特殊性，在分詞時面臨着兩個普遍的主要難點。

一是歧義問題，由於中文存在大量歧義，一般的分詞工具在切分句子時可能會出錯。例如，“部分居民生活水平”，其正確的切分應為“部分/居民/生活/水平”，但存在“分居”“民生”等歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表，或者是模型在訓練的過程中沒有遇見過的詞。這類問題在跨領域分詞任務中尤其明顯。宋彥介紹，這些未登錄詞，會非常影響分詞和詞性標註模型和系統的性能。

利用記憶神經網絡提升中文分詞性能

對此，其中一篇論文提出了基於鍵-值記憶神經網絡的中文分詞模型。

宋彥介紹，該模型利用n元組（即一個由連續n個字組成的序列，比如“居民”是一個2元組，“生活水平”是一個4元組）提供的每個字的構詞能力，通過加（降）權重實現特定語境下的歧義消解。並通過非監督方法構建詞表，實現對特定領域的未標註文本的利用，進而提升對未登錄詞的識別。

把可能成詞的組合全部找到以後，加入到該分詞模型中。然後通過神經網絡，學習哪些詞對於最後完整表達句意的幫助更大，進而分配不同的權重。例如，在“部分居民生活水平”這句話中，“部分”“居民”“生活”“水平”這些詞會被突出，而“分居”“民生”會被降權處理，從而預測出正確的結果。

據介紹，為了檢驗該模型的分詞效果，論文進行了嚴格的標準實驗和跨領域實驗。“我們在5個經常使用的標準中文分詞數據集（MSR、PKU、AS、CityU、CTB6）上面，都達到了最好的效果，在這五個數據集上的分數都刷到了歷史新高。” 宋彥説。

雙通道注意力機制剔除“噪音”誤導

第二篇論文則提出了一種基於雙通道注意力機制的分詞及詞性標註模型。

據介紹，中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中，給每一個詞標註其所屬的詞類，例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。

“‘他馬上功夫很好’這句話，在使用外部的句法知識的時候，可能會存在‘馬上’這個詞被分錯的情況。正確的結果應該是‘馬’和‘上’分開，但是這兒如果被分成一個詞，就會被識別為一個副詞。” 宋彥舉例説。

研究人員介紹，針對這一問題，該論文提出的模型將中文分詞和詞性標註視作聯合任務，可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權，預測每個字的分詞和詞性標籤，不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權，從而識別特定語境下不同上下文特徵和句法知識的貢獻。

為了測試該模型的性能，論文在一般領域和跨領域分別進行了實驗。宋彥介紹，一般領域實驗結果顯示，該模型在5個數據集（CTB5，CTB6，CTB7，CTB9，Universal Dependencies）的表現（F值）均超過前人的工作。