楠木軒

祁瑞華:跨學科研究 典籍英譯海外評論挖掘的有效路徑

由 濮陽南煙 發佈於 科技

作者系國家社科基金項目“典籍英譯國外讀者網上評論觀點挖掘研究”負責人、大連外國語大學教授

典籍英譯是中國文化“走出去”的重要途徑,讀者評論是譯本被接受的最終標準。當前典籍英譯讀者觀點挖掘的研究趨勢為:在讀者接受理論指導下,引入自然語言處理技術和文本挖掘技術,擴大讀者觀點研究的視野,通過互聯網環境獲取大規模評論語料,對評論觀點進行自動挖掘和定量分析,梳理讀者評論關注的重點主題,以便系統深入發現有價值的觀點信息,為掌握讀者評論提供準確可靠的數據分析。而綜合運用自然語言處理技術、機器學習方法和語義分析的跨學科研究,是典籍英譯觀點挖掘的有效途徑,具體實施路徑如下。

第一,構建典籍英譯評論語料庫,擴大讀者觀點研究視野。以美國和英國讀者的評論文本為主要研究對象,通過Amazon海外網站API接口收集評論語料,目前尚無典籍英譯圖書評論的標準實驗語料,運用自然語言處理技術進行去停用詞和噪聲數據、詞性標註等預處理,在上下文環境中進行句子的句法分析、指代消解和省略恢復,建立典籍英譯評論語料庫。

第二,抽取典籍英譯評論主題詞表和修飾語,梳理讀者評論的重點。針對網絡評論文本篇幅短小、特徵稀疏等特點,通過依存句法分析和語義分析等技術提取主題詞和觀點詞的搭配關係,探究主題詞和修飾語的固定搭配組合模式,分析評論文本中隱含的評論主題,識別評論語料的文本模式,自動抽取評論中的顯性主題詞,如譯本的文體、結構、語言風格等,探究評論語料中未直接描述但可以通過語義推理得出的隱性主題詞。

語義分析和領域知識表示是提高網絡評論觀點挖掘精準程度的關鍵。語義分析的基礎是詞彙表示,在情感詞彙極性分類任務中採用詞向量表示、前饋神經網絡和卷積神經網絡等深度學習算法,有效提高了情感詞彙極性分析、語義分析等任務的準確率。

引入領域知識庫分析上下文語境能夠理解讀者真正要表達的情感,完善領域知識庫的基本任務是知識圖譜補全,現有知識圖譜補全算法耗時長、準確率有限,跨學科深度學習算法是解決這一問題的有效研究途徑。

第三,判別觀點情感極性,建立典籍英譯評論觀點摘要。評論情感極性判別是探究潛在觀點態度的關鍵步驟。從機器學習的角度看,情感極性識別可以看作多類別、單標籤文本分類任務。機器學習分類算法結合情感詞典,能夠有效標註觀點修飾語的情感極性,為定量研究典籍英譯讀者的正負面評論觀點提供客觀數據;結合聚類算法可以發現評論主題間的內在聯繫和客觀規律;通過在語法層面進行句法分析和模式挖掘分析表達讀者觀點的修飾語,能夠對評論觀點主題摘要及情感極性進行精確分析;基於機器學習和情感詞典形成觀點主題摘要,探究藴含網絡評論中潛在的觀點態度,能夠幫助譯者和出版社基於可信數據準確掌握讀者對譯本的正負面評論。

第四,深度挖掘評論語義主題,獲取隱性讀者觀點。典籍英譯評論觀點挖掘既要從譯本風格、用詞遣句等微觀層面考察,又要從全局把握觀點主題的內在聯繫和重要性排序。網絡評論噪聲大、表達方式隨意、語料規模大、觀點稀疏分散。為梳理讀者關注的重點,需要構建深度語義挖掘的觀點主題模型,在語義層面揭示評論主題,將高維評論文本映射到低維主題空間,使其具有更好的可解釋性,從多維度分析挖掘隱含的有價值主題,結合領域知識,對抽取出的主題詞進行分類,繪製主題詞共詞聚類圖譜,通過可視化的相似度映射技術和加權的模塊參數化聚類算法呈現海外讀者共同高度關注的主題類簇,結合知識網絡節點中心度呈現各個類簇中的關鍵主題詞,可以突破原有圖書評論主題抽取囿於主觀分析和小樣本數據的侷限,從冗雜的評論信息中抽取句子覆蓋面更廣、主題詞彙多樣性更豐富的隱性知識。

第五,文本可視化分析,系統分析讀者評論觀點。整合觀點摘要中的顯性觀點和主題模型中的隱性觀點,根據語義上的等同、等級和相關關係,對主題詞進行合併、上下位或相關關係的描述和表示;將主題詞按照重要性排序;彙總讀者對哪些譯者、譯本的哪些主題詞進行對比;基於主題聚類視角對目前廣為接受的中國文化典籍譯本讀者評價進行對比研究,挖掘典籍英譯作品暢銷的深層次原因;分析主題詞和修飾語情感極性的分佈情況,瞭解國外讀者對特定譯者或譯本所持有的具體態度,為譯者和出版社進一步瞭解讀者需求提供科學可靠的依據。可進一步採用統計上浮原理以主題詞雲方式顯示典籍英譯評論中頻繁使用的主題詞,並將彙總後的主題詞按照重要性排序。分析觀點主題之間的語義關係,對網絡評論中的顯式對比關係進行語義描述,計算話題簇之間的相似度,基於深層次的語言分析對評估觀點進行語義聚類,系統分析讀者評論觀點。

第六,適應多語言跨領域環境,迎接國際化挑戰。互聯網的國際化特質決定了在多語言、跨領域上下文環境下研究典籍英譯評論尤為重要,句法分析、情感極性判別等基本分析方法與語言環境問題領域高度相關,不同領域數據的情感特徵並不完全相同,在某一領域數據中訓練的情感預測模型,通常不能直接用於其他領域。隨着用户評論數量和各種領域數量的持續增加,對所有領域單獨訓練模型需要消耗大量的時間和資源。

跨領域情感分類通過相關源領域的知識改進目標領域,具體實現通過相近領域遷移學習或者領域適配模型,例如用圖書評論領域已標註評論得到的情感分類器,遷移或者適配到數字視頻光盤領域,節省該領域評論的標註時間和資源。評論情感在不同領域通常存在特徵漂移問題,在書籍領域常用“可讀性強”“有思想”等表達積極情感,用“平淡”“無情節”等表示消極情感;而在數字視頻光盤領域,通常用“清晰度高”“光滑”等表示積極情感,用“模糊”“有劃痕”等表示消極情感。由於領域之間的差異,在源領域中訓練的情感分類模型,在直接應用於目標領域時往往表現不佳。採用基於深度學習的方法,可以為跨領域環境下的情感特徵漂移問題提供解決方案,需要解決的難點是如何處理語義豐富的評論短文本。

跨語言情感分析是利用源語言文本對目標語言文本進行情感傾向分析,具體實現可通過基於資源遷移和基於聯合學習的方法。資源遷移方法由於語言語料標註體系各異而難以實施,基於聯合學習方法主要依賴機器翻譯,受翻譯結果質量影響較大。近年,深度學習成為跨語言情感分析研究的熱點,目前主要圍繞粗粒度層面,跨語言細粒度情感分析需要進一步研究。