2020 年 7 月 5 日至 7 月 10 日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 通過線上舉行,公開數據顯示,今年大會投稿數量超過 3000 篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,疫情期間熱度有增無減。
值得關注的是,ACL 2020 投稿在分詞領域全世界僅中選 18 篇研究論文,其中就有來自創新工場大灣區人工智能研究院的兩篇論文成功入選。
7 月 8 日上午,創新工場大灣區人工智能研究院執行院長宋彥針對這兩篇入選論文進行了線上的分享解讀。兩篇技術論文均聚焦在中文分詞和詞性標註領域,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,取得的研究突破對於工業界來説有着十分可觀的應用前景。
兩篇文章的作者包括華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智能研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場 CTO 兼人工智能工程院執行院長王詠剛等人。
據瞭解,創新工場人工智能工程院成立於 2016 年 9 月,目前工程院已下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設信息感知和理解實驗室,專注於對自然語言處理(NLP)領域的研究,執行院長宋彥本人有超過 15 年的 NLP 領域的科研經驗。
宋彥在分享中表示,分詞及詞性標註是中文自然語言處理的兩個基本任務,是任何其它後續處理工作的一個最重要的基礎。
近年來,大家在中文分詞領域會有一些不同的見解。尤其是隨着預訓練模型的提出,有一些人提出質疑是否還有必要進行中文分詞的處理,對此宋彥提出了不同的意見,尤其考慮到詞彙級別的信息依然是中文信息處理最重要的基礎。
一個例子就是,雖然 BERT 大行其道,但是在中文上基於全詞覆蓋 (whole word masking)的預訓練模型比直接使用單字編碼的效果更好,那麼由此説明,引入詞信息能夠達到更好的效果。
而針對工業界目前的訴求來看,雖然字模型對於各種字的編碼器能夠達到非常好的效果,但是依然無法達到效率和性能的平衡,尤其是在很多場景下,我們需要進行人工干預及後處理,那麼能夠對一句話進行分詞處理,對於後續的很多工業應用都會有非常大的實際價值。
此前一直沒有太好的一體化解決方案,主要存在以下兩方面的問題:
第一點,使用基於字編碼技術進行 NLP 的時候,比較難去融匯一些大顆粒度的詞彙信息,針對分詞和詞性標註類似這樣的任務,目前還沒有一個非常好的能夠在上面加入類似信息的方法;
第二點,是融合數據驅動和加入知識這兩個不同層面的矛盾,目前普遍採用基於深度學習和統計的方法,基於大量的數據去學習 NLP 模型,在此基礎上,模型學到內容都是從數據出發,那麼對於一些已經人工整理好的知識,或者是自動學到的知識,怎麼把這些知識加入到通過數據學習的模型裏面去,是需要融合的一個天平的兩端。
創新工場兩篇入選論文的出發點,便是針對當前的技術瓶頸現狀提出一個更好的一體化解決方案。
中文分詞研究進展針對中文分詞這項研究,入選論文之一《Improving Chinese Word Segmentation with Wordhood Memory Networks》提出了一個基於鍵 - 值記憶神經網絡的中文分詞模型。
中文語言理解比較特殊,在分詞時面臨着兩個主要難點。一是歧義問題。分詞工具在切分句子時可能會出錯。例如,“部分居民生活水平”,其正確的切分應為 “部分 / 居民 / 生活 / 水平”,但存在“分居”、“民生” 等歧義詞。“他從小學電腦技術”,正確的分詞是:他 / 從小 / 學 / 電腦技術,但也存在 “小學” 這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名,這類問題在跨領域分詞任務中尤其明顯。
對此,“基於鍵 - 值記憶神經網絡的中文分詞模型”利用 n 元組(即一個由連續 n 個字組成的序列,提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解,並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。
例如,在 “部分居民生活水平” 這句話中,到底有多少可能成為詞的組塊?把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網絡,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。
通過這種方式可以發現,像 “部分”、“居民”、“生活”、“水平” 這些詞都會被突出出來,但 “分居”、“民生” 這些詞就會被降權處理,從而預測出該短句正確的意思。
為了檢驗該模型的分詞效果,研究人員進行了嚴格的標準實驗和跨領域實驗,結果顯示,與前人的模型相比,該模型在 5 箇中文分詞領域世界通用的標準數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F 值越高,性能越好),把中文分詞領域的性能刷到了新高度。
詞性標註研究進展關於詞性標註的研究,第二篇論文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標註模型。
詞性標註是在已經切分好的文本中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞,正確的詞性標註對後續的句子理解非常關鍵。在詞性標註中,同樣面臨歧義問題。另外,句法標註本身需要大量的時間和人力成本。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法,這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
舉個例子,比如在 “他要向全班同學報告書上的內容” 這句話,“報告書”的正確的切分和標註應為 “報告_VV(動詞)/ 書_N(名詞)”。但由於“報告書” 本身也是一個常用詞,一般的模型可能會將其標註為 “報告書_NN”(名詞)來理解。又例如“他馬上功夫很好” 這句話,但按照此前的句法知識,很可能得到不準確的切分及句法關係,如“馬上”。
“基於雙通道注意力機制的分詞及詞性標註模型”可以將中文分詞和詞性標註視作聯合任務,通過一體化解決方案完成。
模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的信息誤導。
同樣,研究人員基於新的解決方案在 5 個主流數據集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)上進行了測試,在一般領域實驗和跨領域實驗中,效果均超過前人的研究工作,也大幅度超過了斯坦福大學的 CoreNLP 工具和伯克利大學的句法分析器。
宋彥總結,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(信息)融入進來,使用更高層次的句法知識,來幫助詞性標註,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(信息)。通過鍵 - 值記憶神經網絡和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的信息。如何實現模型的主動吸收和分辨,就變得更加重要。”
在工業應用領域,宋彥表示在中文分詞和詞性標註作為一種相對底層的創新,不僅可以為特定領域的新詞識別、各種其他頂層應用提供改進的思路。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
同時,這些技術創新也可以在其他任務中,採用類似的方法利用外部知識提高模型性能,為更多後續的研究提供一些參考,例如搜索引擎的廣告系統升級、算法模型的跨領域學習和匹配推薦等。