【IT168 資訊】近日,國際計算語言學協會年會(ACL,The Association for Computational Linguistics)在官網公佈了ACL 2020的論文收錄名單,共計收錄779篇論文。據不完全統計,此次騰訊共有27篇論文入選,投中論文總數刷新國內記錄,領跑國內業界AI研究第一梯隊。
本年度騰訊ACL入選論文中,有20篇來自騰訊AI Lab團隊,7篇來自微信AI團隊,研究方向涵蓋對話及文本生成、機器翻譯及文本理解、信息抽取、無監督文本等多個NLP重點領域。
在過去一年,通過開源協同,騰訊梳理拉通了各個事業羣最底層和共性的技術能力,加強了基礎研發投入,進一步提升了研發效能和技術資源的利用效率,為AI技術的研發創新提供了更有生命力的土壤。
ACL是自然語言處理領域的國際頂級學術會議,也是自然語言處理領域影響力最大、最具活力的國際學術組織之一,論文被錄用代表着研究成果獲得了國際學術界的認可。此次ACL 2020的審稿週期相比以往幾乎增加了一倍的時間,據最新公佈數據顯示,本屆大會最終收到投稿論文3088篇,投稿數量創下新高。
技術實力強勁,AI基礎研究優勢突出
近年來,騰訊在AI基礎研究方面持續投入,致力於打造面向未來的技術引擎。騰訊AI團隊在ACL 2019入選國內首篇最佳長論文,在ICML、CVPR、NeurIPS、ACL等多個頂級學術會議或期刊累計入選論文超過285篇,並在DSTC 8等多項競賽奪冠,展現了業界領先的研究能力與技術實力。
自然語言處理是騰訊AI Lab 的重要研究方向之一,研究內容囊括了從自然語言理解到生成的整個鏈條。2019年,騰訊AI Lab在人機對話與文本生成方面,提出多種對話生成新框架,發佈了多個對話數據集,同時還改進了開放域對話系統。在機器翻譯研究方面,騰訊AI Lab探索了主流翻譯模型中的自注意力模型改進和篇章翻譯,並嘗試打開神經網絡翻譯模型的黑盒子,解釋其中核心問題的運行機制。
微信AI團隊也長期深耕對自然語言處理領域人工智能技術的研發,擁有微信智言與微信智聆等領先的NLP技術產品,其入選ACL 2020 的7篇論文,涉及了機器翻譯、對話系統、信息抽取、無監督文本生成等領域。2019年,微信AI團隊憑藉NumNet 模型,超越谷歌獲得DROP閲讀理解榜單第一名。
應用場景豐富,面向行業開放技術能力
頂尖的產品背後離不開頂尖的技術。騰訊豐富的業務場景、龐大的用户基數,都為前沿的AI研究成果提供了最佳的“訓練場”。在此基礎上,騰訊也將充分打磨的技術能力通過騰訊雲以產品和服務的形式面向金融、政務、醫療、交通、教育等各行業開放,為眾多客户和合作夥伴提供底層技術支撐,助力產業互聯網進入快車道。
目前,微信AI 團隊推出了“微信智聆”和“微信智言”兩大技術能力品牌,分別關注語音和語義。微信智聆每天處理超過 4 億條語音,識別準確率為 97%,服務於騰訊內外超過 100 項業務。微信智言專注於智能對話和自然語言處理,目前已經支持家居硬件、PaaS、行業雲和AI Bot等應用領域。
微信AI團隊還將技術的精進不斷用於產品功能,研發了語音輸入轉文字、掃一掃的掃碼 / 封面和翻譯、聊天機器人、搖一搖 - 音樂 / 電視、聲紋鎖等功能,併為王者榮耀、QQ 音樂等產品提供技術支持。
在2020年初的微信公開課PRO版上,微信AI宣佈開放以硬件合作為核心的騰訊小微硬件開放平台、以對話開放能力為核心的微信對話開放平台和NLP基礎技術平台,全面開放各層次 NLP 能力,面向行業用户及開發者,開放微信前沿的NLP研究成果。
騰訊AI Lab則在2018年11月推出了TranSmart產品,採用業內領先的人機交互式機器翻譯技術,幫助用户更好更快地完成翻譯任務。
今年4月,騰訊AI Lab研發的自然語言理解系統TexSmart也對外開放,提供細粒度命名實體識別、語義聯想、深度語義表達等特色功能。TexSmart是騰訊公司級文本處理工具的功能加強版,為自然語言處理相關的騰訊業務及產品提供廣泛支持,日調用量達數千億次。
除了產品和技術能力的開放,騰訊還致力於通過開源與開發者共享代碼,目前開源項目總數已破百。
僅在AI領域,騰訊已開源Angel、NCNN等數十個優質項目。針對業界現有的中文詞向量公開數據的稀缺和不足,騰訊AI Lab開源了大規模、高質量的中文詞向量數據,包含了800多萬中文詞彙,相比現有的公開數據,在覆蓋率、新鮮度及準確性上均有大幅提高,為對話回覆質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。