人民網-輿情頻道
7月17日,由人民網輿情資料中心/人民線上主辦的第二屆“人民雲社會評價科技大會”在線上順利舉行,主題為“重大風險評估體系建設”。與會的資料建模、計算機技術應用、輿情領域專家學者就如何有效地利用新技術完善重大風險評估體系建設進行了分享和探討。人民網輿情資料中心主任資料分析師李偉分享的主題是:輿情事件等級評估及基於語義理解實現文字精細化分類。
輿情事件等級評估
輿情事件等級評估,李偉從四個方面進行了闡釋:一是當前輿情行業等級評估主要方法以及存在問題。當前行業內使用的指標主要是熱度值。雖然搜尋的熱度值或報道的數量能反映一個事件社會關注度,但卻存在著指標單一、資料不全、無法針對使用者特點提供個性化服務等問題。因此評估輿情事件嚴重程度需要有能容納原有方法,但更全面、多維、面向使用者個性化需求的模型來實現。
二是輿情事件等級綜合評估模型設計的原則,這涉及到兩個方面。一是要考慮到模型裡面有哪些變數,二是建立模型應該遵循的原則。變數因素主要有三點考量,第一點要考慮利益相關方,第二點要考慮其面向的使用者,第三點是事件的嚴重程度,以這樣的思路構造模型結構。利用機器學習理念,透過訓練得到模型引數,這也是本研究創新之處。當然,不是透過梯度下降等等典型反向傳播方法由機器自動實現,而是人工按照一定規則除錯。構建模型時,需要考慮其健壯性和魯棒性,同時,一定要充分利用輿情專家的經驗。
李偉結合案例,從目的和資料兩個方面對輿情事件等級評估進行了闡釋。他提出在目的方面要遵循輸入簡單、契合使用者行業特點、邏輯簡單明瞭、基本符合直覺、客觀科學的要求。而資料主要依靠系統的自動採集、使用者簡單查詢,輔以使用者少量主觀判斷。評分模型結構包括評分和評級兩個部分共三個環節。見圖 1 利用模型對輿情事件評價過程:
圖 1 利用模型對輿情事件評價過程
對於評分模型,李偉依據這一公式進行考量:
輿情事件原始得分 =(傳播熱度 影響因子)* 使用者相關係數 * 事件嚴重程度
其中傳播熱度是基礎、基本面,影響因子是區域性疊加的,使用者相關係數和事件嚴重程度二者是全域性性影響因素。在模型中,即使沒有任何痕跡事件(因某些原因網上沒有任何報道),在百分制傳播熱度中也能有基礎的60分,這種設計保證了模型健壯性。李偉還強調,事件中敏感因子得分總量不超過13分,這樣既沒有影響事件基本面特徵,又能反應事件客體起的區域性疊加影響作用,讓模型不會因為一些變數數值小變動而對結果產生很大影響,保障了模型魯棒性。
三是對一個政府部門使用者進行了例項化分析。請人民網輿情專家就36個輿情事件(類別基本平衡)進行了評級,充分利用了專家知識,透過這些打了標記樣本訓練引數。把不同類別案例得分割槽間理想狀態下沒有交叉,(如“一般”類別的最高分要 lt; 臨近的“敏感”型別的最低分),而且各類別得分間隔要大致相等作為損失函式,得到的多分類模型具有相當不錯準確性。當前使用這個監督學習方法是可行的。
最後李偉針對當前模型提出了一些存在問題和改進方法。首先,當前樣本量還不夠,需要專家評分標記;其次,對於不同的等級事件,如遇分值交叉情況,閾值該如何確定。針對這兩個問題,李偉提出,第一要擴大樣本,並把未用於訓練的一些專家評分樣本作為“驗證集”使用。透過此方法來迭代,讓引數更合理。第二要擴大采集物件。當前熱度值採集物件只是關於某個事件關鍵詞報道的文章、網頁,後續採集可以把文章本身的點贊、轉發等都加上去。第三要為不同等級事件評分的交叉部分以及閾值的確定方法考慮更詳細規則。
基於知識圖譜和NLP的文字精細化分類
李偉首先闡述了知識圖譜和NLP的文字精細化分類的現實需求。在當前的文字分類,一般是結合上下文的情況進行分類,在語句層面以及“詞”的層面理解都不夠到位。因此需要進一步基於知識圖譜,利用NLP技術消除詞的歧義,對文字進行語義識別實現精細化分類,從詞和語句兩個層面來解決問題。李偉對NLP和知識圖譜也做出了簡單介紹。NLP就是讓人類和機器之間可以無障礙通訊,讓計算機能沒有困難地理解人類自然語言。人類對自然語言處理的研究主要包括以下方面:對語句中詞進行詞性標註、句法分析、自然語言生成、文字分類問題、海量資訊檢索、重要資訊抽取、自動朗讀文字、人機之間問答系統、機器翻譯和提取文章摘要等等。要滿足以上應用,語義分析成為自然語言處理技術的幾個核心任務之一。知識圖譜是結構化語義知識庫,用於以符號形式描述物理世界中概念及其相互關係。其基本組成單位是“實體-關係-實體”或“實體-屬性-屬性值”三元組,實體間透過關係相互聯結,構成網狀知識結構。知識圖譜包含三層含義:1)知識圖譜本質是一個具有屬性實體(E)透過關係(R)連結而成的網狀知識庫(S)。2)從圖的角度來看,知識圖譜在本質上是一種概念網路,其中的節點表示物理世界的實體(或概念),而實體間的各種語義關係則構成網路中的邊。3)知識圖譜是對物理世界的一種符號表達。知識圖譜由資料層 (data layer) 和模式層 (schema layer)兩部分構成,大多隻有資料層,除非要進行知識推理時候才需要模式層。
知識圖譜有人工構建和機器自動構建兩種方式。見圖 2 知識圖譜自動構建方法:
圖 2 知識圖譜自動構建方法
對於句子級的語義分析,李偉表示主要是透過語義標註來了解句子含義。語義標註首先需要處理最小物件——知識元,也就是詞,需要先了解知識元含義,然後明確知識元聯結方式,二者共同構成句子含義,從而實現句子級語義理解。知識元/詞含義需要有兩個方面工作:分詞和消除歧義,知識元聯結方式包括詞與詞之間關係,還有詞與詞之間的組合方法。見 圖 3 知識圖譜應用於句子級語義理解:
圖 3 知識圖譜應用於句子級語義理解
最佳化詞嵌入演算法,引入知識圖譜,實現分類最佳化,見圖 4 分詞有序嵌入到詞向量空間中。李偉提出四個方面:一是分詞有序進入到詞向量空間中,要把自然語言轉化到機器語言,這時機器才能對自然語言進行一個理解;二是關鍵詞的提取,運用了TextRank演算法;三是利用知識圖譜實體對齊方法,消除分詞歧義,將基於屬性相似性評分匹配問題轉化為分類問題;四是利用基於共同鄰居計數方法的結構相似性函式分辨詞義遠近。
圖 4 分詞有序嵌入到詞向量空間中
基於句子級語義理解,知識圖譜NLP精細化理解文字的方法,李偉提出首先要基於句子級語義分析,結合知識圖譜,精確爬取文字。其次要引入知識圖譜進行第二次文字分類,這也是本研究創新點。句子級語義分析首先要提取出關鍵詞,並找到其對應領域知識圖譜,進行第二次的分類匹配。在第二次細分文字的過程中,首先對文章進行摘要,並定位關鍵詞段落,每一個關鍵詞找到5個三元組,從而建設好知識圖譜。
運用知識圖譜進行二次文字分類即對上述過程進行更具體地細化。首先對文字進行分詞,找到含有歧義的段落,嵌入詞向量空間,透過LSTM進行文字摘要,得到三個以上關鍵詞。透過構建圖譜抽取5個三元組,在與對應領域匹配比對,從而實現文字的第二次分類。見圖 5 引入知識圖譜實現第二次文字精細化分類:
圖 5 引入知識圖譜實現第二次文字精細化分類
在測試結果及改進問題上,李偉與技術專家共同研討後發現,透過自動構建的知識圖譜與文字中的三元組匹配,相似度沒有想象中的那麼高。其誤差原因可能在於運用通用型語言構建圖譜,缺乏針對性。因此需要有更專業的素材來建立領域知識圖譜。最後李偉總結,將知識圖譜結合NLP方法是一條可行的路徑,這個方法在很多其他課題中也同樣適用。