近日,第十六屆國際語義評測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大賽落下帷幕,科大訊飛在三項主要賽道中拿下冠軍,標誌着科大訊飛在多語種語言理解領域持續進階。
SemEval 2022評測由國際計算語言學協會(Association for Computational Linguistics, ACL)旗下SIGLEX主辦,迄今已舉辦16屆,參賽者覆蓋國內、外一流高校及知名企業,包括達特茅斯學院、謝菲爾德大學、華為、阿里達摩院等,代表着最前沿國際技術和水平。
經過角逐,科大訊飛分別在“多語種新聞相似度評測任務”(Task 8)、“多語種慣用語識別任務” 子賽道(Task 2: Subtask A one-shot)、“多語種複雜命名實體識別任務”(Task 11)三個子賽道中拿下冠軍。
新聞相似度評價:目光如炬本次SemEval 2022評測聚焦的Task 8是多語種新聞相似度評價任務。科大訊飛與哈爾濱工業大學聯合組建的“哈工大訊飛聯合實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱HFL)以顯著優勢摘得冠軍。
簡單來説,參賽隊伍需要在每組新聞中判斷是否描述了同一個事件,並以1-4分為兩篇新聞的相似度打分,其中包含了多達10種語言,分別為阿拉伯語、德語、英語、西班牙語、法語、意大利語、波蘭語、俄語、土耳其語和中文。但新聞相似度究竟是什麼?讓我們用一則示例為大家解讀。
圖中列舉了兩篇相似度極高的新聞稿件,參賽隊伍必須將文中相似的主要元素剝離出來並逐一分析,比如地理信息、敍事技巧、實體、語氣、時間及風格,最終得出兩篇文章的相似度與差異化。
與普通的文章相比,該項比賽更強調跨語言理解能力,除了寫作風格和敍述方式外,還需要把握文章中描述的具體事件。通俗來説,該項技術可以甄別外網的一些新聞報道是否存在偏差與曲解,從而有效預防虛假信息、不良信息的傳播。
科大訊飛在這樣的賽道上拔得頭籌,充分展示了在跨語言理解能力上的強硬實力。
慣用語檢測:熟能生巧哈工大訊飛聯合實驗室拿下的第二項任務冠軍,便是Task2 Subtask A的慣用語檢測。通俗來説,無論你是哪國人,在日常表達中都有一類短語的固定用法,並且該固定用法通常與短語的字面語義不同,我們會將這些短語稱為“慣用語”。想要理解包含慣用語的句子,首先需要判斷句子中的多字短語是否為慣用語,比如“説曹操,曹操到。”句中的曹操是否真實存在。
該任務的形式便是給定一個目標語句,包括其上下文和多字短語,繼而判斷該語句中的多字短語用法究竟是慣用語還是字面意思。該任務為多語言任務,包含英語、葡萄牙語、加利西亞語三種語言。其中加利西亞語沒有在訓練集中出現過,因此科大訊飛代表隊需要在不同語言之間進行遷移學習。
還是不懂?別擔心,讓我們來看一則示例。
如例所示,Literal表示字面意思,第一句話可翻譯為:當你從網中抓一條大魚時,最好撐住它的腰。Idiomatic表示慣用語,所以第二句話中再次出現了大魚一詞,但卻不是簡單的字面意思,而是“大人物”。
所以該任務要求參賽隊伍區分不同句子中同一個詞的不同語義,這需要強大的分析及跨語言理解能力。有了該項技術,在日常寫作和翻譯工作中,即可有效鑑別慣用語的表達用意,極大提高內容準確率。
科大訊飛不負眾望,再摘桂冠。
複雜命名實體識別:披荊斬棘這第三冠有多難?光聽名字就覺得複雜:多語種複雜命名實體識別任務(MutiCoNER)。科大訊飛聯合中國科學技術大學語音及語言信息處理國家工程研究中心迎難而上,在該項任務中一舉拿下三個子賽道冠軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual (多語言)的簡稱,Co即是complex (複雜),而NER則是Named Entity Recognition,又稱作“命名實體識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。
該任務是一個多語言賽道數據集,包含11項單獨語言命名實體評測任務,以及2項多語言統一建模的評測任務。該榜單數據來源於Wikidata(維基數據),數據量龐大且極具應用價值。參賽團隊需要在單個語言以及多個語言混合的文本數據中,精準預測不同語言實體的類別標籤。該任務採用國際通用的槽位F1評價指標, 我們在多語言混合、中文、孟加拉語賽道上,分別以92.9%、81.6%、84.2%的F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用户文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負於[剋星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表現出色。】既要識別出多個相關實體,同時是各語種夾雜的文本。
此前針對中文和英文需要單獨進行模型建模,此次有關賽道的挑戰是僅使用一個模型來可以完成不同語種任務,能夠快速識別複雜、專有詞彙,提高準確率。
(多語言混合榜單)
( 中文榜單 )
拒絕紙上談兵,技術應用要落地當前,人類已進入“人、機、物”智能互聯時代,智能語音是這個時代最為關鍵的入口之一,有助於實現語言大互通,建設人類命運共同體。科大訊飛始終保持初心、堅持源頭核心技術創新,在語音、語義等國際賽事中為國爭光。
在去年11月舉辦的國際低資源多種語音識別競賽OpenASR中,科大訊飛參加了所有15個語種受限賽道和7個語種非受限賽道,並全部取得了第一名,而在SemEval 2022多語種NLP領域中取得佳績也標誌着科大訊飛在多語言理解與跨語言遷移能力再上新台階,從多語種語音到多語種語言都有着頂尖技術實力。
而在今年的北京冬奧會和冬殘奧會上,科大訊飛作為“官方自動語音轉換與翻譯獨家供應商”,為所有觀眾展現了一場“無障礙溝通”的體育盛會。
基於強大的多語種語音語言技術,我們可以做到語種足夠全、翻譯足夠準、反應足夠快,支持包括冬奧體育在內的16大行業領域翻譯,在冬奧應用場景下,中文與英/俄/法/西/日等重點語種的翻譯準確率超過90%,平均每句語音翻譯響應時間不超過1.5秒,一方面幫助各國觀眾、遊客快速掌握賽事信息,另一方面我們特別希望幫助聽障人士運用科技的手段聽得見奧運文字,看得見奧運聲音。
值得一提的是,科大訊飛AI虛擬人 “愛加(i+)”也成為了冬奧會的一名“虛擬志願者”。在北京冬奧小屋中,愛加可以用多種語言與各國運動員進行面對面的交流,助力冬奧的無障礙溝通。科大訊飛運用語音識別、語音合成、口唇驅動、面部驅動、肢體動作驅動等多項核心技術,打造出虛擬形象自動化內容生產方案,讓虛擬人不僅會説普通話,同時支持31種語言及方言,是不折不扣的“語言通”,不僅能進行面對面的冬奧賽事、賽程實時互動交流,還能陪你玩一把冬奧知識遊戲大PK,周邊交通、文化、旅遊等諮詢問答也不在話下。
除此之外,在教育、醫療、司法等場景中的各類行業人工智能應用中,多語種語音交互系統都將發揮重要作用。經過多年的技術積累,除了中英以外,當前科大訊飛已經具備其他69種語言的語音識別能力,其中已經有35個語種準確率已經超過90%,並已在新加坡、俄羅斯、印度、日本等國家部署了海外站點,將持續為海內外開發者提供語音識別、語音合成、機器翻譯、圖文識別等語音語言服務。
如何更好地研發包括中文在內的多語種語音及語言技術的AI能力並實現大規模應用落地,如何更好地用人工智能技術服務社會、建設美好世界,是我們不斷奮鬥努力的方向。
未來,科大訊飛將不斷開展人工智能源頭技術創新,助力中國人工智能在全球贏得話語權,實現更多人工智能創新應用真正解決社會剛需,蓬勃向上,生生不息。
雷峯網