2020語言與智能技術競賽:雲知聲認知智能團隊獲機器閲讀理解任務冠軍
11月6日,由中國中文信息學會(CIPS)和中國計算機學會(CCF)聯合主辦的“第五屆語言與智能高峯論壇”在線舉行。大會同期為“2020語言與智能技術競賽”五大任務領域優秀團隊授獎,憑藉在閲讀理解技術方向的深厚積累,雲知聲認知智能團隊摘得機器閲讀理解任務冠軍獎牌。
“2020語言與智能技術競賽”由中國中文信息學會(CIPS)和中國計算機學會(CCF)聯合主辦,百度公司、中國中文信息學會評測工作委員會和中國計算機學會中文信息技術專委會聯合承辦,設立機器閲讀理解、面向推薦的對話、關係抽取、語義解析與事件抽取五大熱門競賽任務,並提供面向真實應用場景的大規模數據集。
今年的參賽規模創歷年新高,五大任務領域累計報名參賽隊伍超5300支,參賽選手超6000人,大賽累積收到有效提交結果近15000份,成為中文NLP領域參賽人數最多的賽事。除整體參賽人數規模翻倍之外,參賽隊伍陣容亦堪稱豪華,覆蓋了海內外知名高校、科研機構以及諸多知名企業。
作為本次競賽的核心任務之一,機器閲讀理解 (Machine Reading Comprehension)是指讓機器閲讀文本,然後回答和閲讀內容相關的問題。閲讀理解是自然語言處理和人工智能領域的重要前沿課題,對於提升機器的智能水平,使機器具有持續獲取知識的能力等方面具有重要價值,近年來受到學術界和工業界的廣泛關注。本次大賽機器閲讀理解評測是連續舉辦多年的一個任務,吸引了包括中國科學技術大學、中國科學院大學等一千多支知名校企隊伍參加。
本次大賽的機器閲讀理解任務注重閲讀理解模型在真實應用場景中的魯棒性,挑戰模型的過敏感性、過穩定性以及泛化能力。比賽過程中,雲知聲認知智能團隊依託自身雄厚的技術積累,以及在醫療等領域的產業化實戰經驗,所提交系統取得F1值較基線提升26%的佳績,在預賽和複賽F1值和EM值在均位列第一。
比賽中,雲知聲認知智能團隊針對閲讀理解系統存在的過敏感、過穩定和泛化性不足三個問題進行了有針對性的優化,增強了閲讀理解系統在真實場景中的魯棒性;團隊還藉助雲知聲預訓練語言模型平台UniPLM,對模型進行了快速迭代和高效訓練;最後利用模型集成的方法進一步提高了閲讀理解模型的性能指標。
1. 利用數據增強的方法來處理過敏感、過穩定問題。針對過敏感問題,使用問句生成和相似度匹配模型兩階段過程後生成候選樣本,用來攻擊訓練好的閲讀理解模型,若攻擊成功則生成過敏感類型的增強樣本。針對過穩定問題,使用實體識別方法從文章中識別與答案相關實體,與問句信息結合融入篇章中生成候選樣本,用來攻擊訓練好的閲讀理解模型,若攻擊成功則生成過穩定類型的增強樣本。
2. 利用領域外數據來增強模型的泛化能力。增加了包括DuReader、CMRC等通用領域的語料。還增加了證券公告、五種學科的教育領域數據。
3. 藉助雲知聲預訓練語言模型平台UniPLM來進行模型的快速迭代和高效訓練。UniPLM基於Huggingface的transformers庫進行開發,支持各類主流的預訓練語言模型以及分類、序列標註、閲讀理解等NLP任務。UniPLM融合了TensorBoard和微軟NNI框架,支持可視化訓練和自動調調參。它還可以高效地在分佈式訓練平台Atlas上進行多機多卡訓練。
讓機器理解人類語言是人類長期以來的夢想,也是人工智能應用必須迎接的挑戰。作為雲知聲全棧技術版圖的重要模塊,經過多年的持續投入與潛心研發,當前雲知聲認知智能技術已處行業領先水平,由雲知聲與中科院自動化所合作完成的項目——“大規模知識圖譜構建關鍵技術與應用”亦榮獲2019年北京市科學技術進步一等獎。相關技術成果也已先後應用至醫療、家居、車載等諸多垂直領域。