在社交網絡中,有這樣一條著名的“六度分隔理論”:
“最多通過五個人,你就能夠認識世界上的任何一個陌生人。”
“六度分隔理論”背後的知識圖譜就是幫助社交網絡連接每個人的“黑科技”。知識圖譜以實體概念(例如人)為節點,以關係為邊,以可視化的圖形展示直觀地呈現人們的社交關係。目前這一技術已在搜索、金融等領域得到了很好的應用。
那麼,如果將上述知識圖譜中的“人”改為“事”,又會有怎樣的變化?
明略科技集團首席科學家和明略科學院院長吳信東教授的回答是,傳統的知識圖譜回答的是“是什麼”的問題,而以“事”為核心的事理圖譜回答的是“為什麼”的問題。目前,絕大多數知識圖譜主要以實體(特別是人名)為基礎,面向事件知識圖譜研究的語料構建和研究方法還處於探索階段。
吳信東
“知識圖譜的關注點從‘知識’到‘事件’,這代表了目前知識圖譜自動構建領域的日漸成熟,單一的靜態事實類圖譜構建模型已經不能滿足業界的需求,產業界對動態事理圖譜以及其他更深層次的語義理解技術有着迫切的關注。”吳信東告訴AI科技評論。
事件關係抽取:讓靜態知識動起來
知識圖譜的概念由Google於2012年提出,最早被搜索引擎用基於實體的搜索來代替基於字符串的搜索,從而提升用户搜索質量與體驗。在大數據時代,知識圖譜以結構化的形式將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力。
構建知識圖譜的前提與核心條件是知識獲取。具體來説,這一過程需要將現實世界中的各類“信息”轉換為“知識”並表達成計算機可存儲和計算的結構,再進一步形成“圖譜”。早期的知識圖譜構建大量依賴於人力分類,如維基百科採取“眾包”的方式,讓網民成為知識的貢獻者,從而加快了知識圖譜的累計速度。
但在大數據時代,手工勞動已經不能適應知識圖譜的構建需求。不少企業開始積極探索和嘗試自動化構建技術,利用機器從不同來源、不同結構的數據中進行抽取,形成知識存入到知識圖譜。而在產業實踐中,通過文本信息等非結構化數據中提煉知識構建知識圖譜,技術上面臨很多挑戰。
而這也正是數據挖掘頂會 ICDM 從 2019 年開始舉辦知識圖譜大賽的原因。
“知識圖譜是一個明略的技術特長,明略認為有這個義務為促進知識圖譜的學術研究以及產業實踐的聯動與交流出一份力。”2019 年的 ICDM 在北京舉辦,作為會議的發起人、數據挖掘領域領軍人物吳信東教授從會議之初一路相隨,在本屆會議上,吳信東教授不僅擔任大會主席,並推動設立了首屆知識圖譜大賽,使之成為知識圖譜學術與產業交流的重要平台。
ICDM 2019 知識圖譜大賽的主題是自動生成知識圖譜,而 2020 年的競賽主題“事件原因抽取”則更貼近產業應用。任務是解決場景營銷的一大痛點,即如何智能分析與提取與消費者行為相關的內容場景及關係知識,以數據挖掘、機器學習、NLP等技術建立模型,從文本中智能提取出消費者事件的因果關係。
據 ICDM 2020 知識圖譜大賽聯席競賽主席、中科院自動化所研究員劉康教授介紹,事件關係抽取是信息抽取任務中較難的任務。相較於實體關係抽取,事件關係抽取需要判斷兩個事件之間的關係,而事件在文本中的描述通常比較複雜,有可能是一句話或者多句話。
劉康
此外,事件抽取任務側重於事件類型的判斷以及事件元素的抽取,屬於單個事件內部的語義識別;而事件關係側重於不同事件之間錯綜複雜關係語義識別,更準確的事件抽取能提升事件關係的性能。
據AI科技評論瞭解,本屆知識圖譜大賽比賽數據使用真實、公開的用户消費評論數據,存在數據質量差、多種語言、格式不統一等問題,增大了賽題的挑戰難度。
這也是業界在知識圖譜應用中需要解決的問題:知識圖譜的節點是偏靜態描述的實體,而事件偏動態。與實體相比,事件能夠更加清晰、精確表示發生的各種事實信息;而人類的命題記憶是以“事件”為存儲單位的,真實的消費評論所體現的也正是這樣一種動態信息。讓機器能夠以一種更為接近於人腦知識結構體系的方式來處理知識和進行推理,有助於機器更好地理解複雜場景下的具體問題,為用户提供更好的體驗。
換言之:讓知識圖譜中的知識“動起來”,不僅是學術界研究更好實現人工智能的手段,也是產業界為客户提供更智能化的服務、提升服務質量、降低成本的需求。
2020 年的知識圖譜大賽共吸引了 45 個國家的 2000 多支隊伍參與,北京大學、清華大學、中國科學院、香港中文大學、康奈爾大學、國立新加坡大學等著名高校及阿里巴巴、騰訊、華為、百度、京東等企業均參與其中。
那麼,事件關係提取又能在哪些方面幫助企業提升業務水平?
事件關係提取的作用
劉康教授告訴AI科技評論,在知識圖譜領域,學術界和企業界聯繫十分緊密,相關技術在企業中有豐富的應用場景,這也使得學術界在研究理論的同時注重技術、場景的實際落地,在本次賽題命題中,命題專家同樣很好地考慮到了這一點。
以參賽企業京東為例,利用知識圖譜可以自動整理行業和企業數據,形成金融數據庫,幫助金融機構形成差異化競爭優勢。知識圖譜也服務於京東金融App支持各個業務線的銷售對話機器人,為智能問答系統提供了推理問答,邏輯判斷問答,查詢問答等功能。
除了行業和企業的應用,提取消費者事件的原因在內容廣告、社交監聽等許多業務場景中都是關注的焦點。以內容廣告為例,如今的廣告主更喜歡通過產品功能嵌入內容,以潛移默化的方式將自己的品牌或產品與任意的消費事件聯繫起來。為此,明確地提取消費者事件的原因成為構建這樣一個滿足廣告商需求的系統的重要技術。
儘管知識圖譜技術在產業界正經歷着應用的高速增長,學術領域前沿成果與實際落地應用場景間依然存在着巨大的鴻溝。對於大多數企業來説,他們並不具備像京東一樣,利用知識圖譜中的事件關係改善自身業務的能力。
“基於事理圖譜的應用已經在多個行業中湧現,比如營銷、金融、工業等。”吳信東教授告訴AI科技評論,明略科技在幫助企業推進基於事理圖譜的應用有足夠多的構想和實踐。
“比如在明略的實踐中,使用事件抽取技術識別輿情中的熱點事件,將不同新聞中提到的同一事件進行聚合、統計熱度,以氣泡圖等方式對事件發展趨勢進行可視化,從而指導營銷文案的自動撰寫、垂直領域報告的自動生成等。”
在金融行業,明略科技與浦發銀行合作,共同推動金融認知工程方法論研究與理論體系創建,在產融生態合作中不斷完善金融認知智能體系,構建國內領先的認知智能平台基礎設施,提升用户洞察、感知互動等能力。在工業領域,明略也廣泛地在軌道交通等多個行業的智能維保與故障歸因場景上有着深入的探索。
除此之外,明略科技也在基於大數據和AI技術構建行業知識圖譜。知識圖譜的自動構建是明略的核心技術之一,2020 年 7 月在 2020 WAIC 世界人工智能大會期間,明略科技推出了目前世界上第一個語音實時生成圖譜的企業級知識圖譜開發工具包 HAO 圖譜,HAO 正在做到:專家在台上講話,後台圖譜系統可自動同步構建知識圖譜。
據介紹,HAO 圖譜可以獨立運行,也可交付給企業技術團隊進行二次開發,幫助用户及中小微企業提供全方位服務。目前 HAO 圖譜已在數字城市、金融、工業、廣告營銷等多個場景中落地。
“HAO 治理”模型架構圖
對企業而言,知識圖譜的構建可以幫助企業連接內部結構化數據、物聯網數據、外部非結構化數據,進而可能成為下一代企業管理數據的主流技術路線;而明略科技也將結合在知識圖譜事件抽取領域的新動向,幫助企業實現知識圖譜和數據管理的升級。
知識圖譜的未來
雖然知識圖譜在產業界已經得到了一定的應用,但劉康教授認為,從學術研究的角度,現在知識圖譜的研究正處於快速發展初期,並從傳統的以實體為核心向事件等複雜結構知識為核心轉變。
“顯著的圖譜有可能出現在和預訓練語言模型的結合上,目前以 BERT 為代表的預訓練語言模型正在各個 NLP 任務中發力,這些主要得益於大數據和算力的進步,但是此類模型中到底藴含哪些知識類型,以及如何用知識圖譜顯示提升預訓練語言模型的表示能力有可能會取得比較顯著的突破。”談及未來知識圖譜的發展趨勢,劉康教授如是説。
從根本上説,從實體到事件的核心轉變並不會改變基於知識圖譜的人工智能推理的技術本質,其核心挑戰還是在圖譜上搜索最優解所面臨的組合爆炸困境。近年來如 BERT、GPT-3 等大規模預訓練語言模型的出現,也為解決事理圖譜的組合爆炸困境提供了新的方法。
而在 2020 知識圖譜競賽中,我們也看到了不同隊伍的技術處理方案。如京東引入了一種全新的視角來重新審視關係行為原因提取任務,並提出了一種新的序列標記框架,而不是單獨提取行為類型和行為原因;獲得第二名的日本選手則是使用 GAN 完成了本次任務,通過 GAN 的生成方式增加訓練樣本,同時對 GAN 生成的數據標註為 Fake,在原有五種時間類型的基礎上,增加 Fake 標籤進行預測。
劉康教授認為,未來知識圖譜領域研究可能是向多模態、複雜結構知識和領域化發展。其中,如何表示各種類型的知識?如何抽取常識知識?如何結合多模態信息進行復雜結構知識的自動獲取?都是他認為比較有意思的研究問題。
吳信東教授認為,知識圖譜從靜態知識描述走向動態問題求解是知識圖譜走向實際應用的重要發展方向,事理圖譜可以接入問題求解的動態信息,為知識圖譜的推理插上一個動態翅膀。
作為人工智能技術中的知識容器和孵化器,知識圖譜會對未來 AI 領域的發展起到關鍵性的作用。無論是基於實體的傳統知識圖譜還是事件的新一代知識圖譜,其構建技術的發展和對應用場景的探索仍然會不斷的持續下去,在此過程中,知識圖譜構建技術會朝着越來越自動化方向前進,同時在以明略為代表的 AI 和大數據公司推動下,知識圖譜也會在越來越多的領域找到能夠真正落地的應用場景,在各行各業中解放生產力,助力業務轉型。
雷鋒網雷鋒網雷鋒網