選自arXiv
作者:Leyang Cui等
編輯:小舟、杜偉
BERT 是通過常識知識來解決常識任務的嗎?
預訓練上下文化語言模型(例如 BERT)的成功激發了研究人員探索此類模型中的語言知識,以解釋下游任務的巨大改進。儘管先前的研究工作展示了 BERT 中的句法、語義和詞義知識,但在研究 BERT 如何解決常識問答(CommonsenseQA)任務方面做的工作還很少。
尤其是,BERT 是依靠淺層句法模式還是較深層常識知識來消除歧義是一個有趣的研究課題。
近日,來自西湖大學、復旦大學和微軟亞洲研究院的研究者提出了兩種基於注意力的方法來分析 BERT 內部的常識知識,以及這些知識對模型預測的貢獻。論文一作 Leyang Cui 為西湖大學文本智能實驗室(Text Intelligence Lab)的在讀博士生。
該研究發現,注意力頭(attention head)成功捕獲了以 ConceptNet 編碼的結構化常識知識,從而對 BERT 直接解決常識任務提供幫助。此外,微調進一步使 BERT 學習在更高層次上使用常識知識。
論文地址:https://arxiv.org/pdf/2008.03945.pdf
任務和模型
在講解 BERT 的應用之前,研究者首先簡要介紹了 CommonsenseQA 的相關知識。
CommonsenseQA
CommonsenseQA(Talmor 等人,2019 年)是一個基於 ConceptNet 知識圖譜(Speer 等人,2017 年)構建的多項選擇問答數據集,它由關係對的大規模三元集合,即源概念、關係和目標概念組成,「鳥、棲息和鄉村」就是一個典型示例。
如下圖 2 所示,給定源概念「鳥」和關係類型「棲息」,則存在 3 個目標概念「籠子」、「窗台」和「鄉村」。在 CommonsenseQA 數據集的開發過程中,要求參與者分別基於源概念和 3 個目標概念來生成問題和候選答案。
圖 2:從 ConceptNet 到 CommonsenseQA。
基於 Talmor 等人(2019 年)的研究,研究者將問題中的源概念稱為問題概念(question concept),將答案中的目標概念稱為答案概念(answer concept)。
為了使任務更加困難,研究者還添加了兩個不正確的答案。研究者將 commonsene 鏈接定義為從答案概念到問題概念的鏈接。
此外,為了分析基於從答案概念到問題概念的鏈接的隱式結構常識知識,研究者選擇過濾掉了一些問題,並且過濾掉的這些問題不包含 ConceptNet 形式的問題概念(如釋義)。
下表 1 彙總了數據集 CommonsenseQA 和 CommonsenseQA * 的詳細數據:
將 BERT 應用於 CommonsenseQA
研究者採用 Talmor 等人在 2019 年提出的方法,在 CommonsenseQA 上使用 BERT(Devlin 等人,2019 年)。結構如下圖 3 所示:
具體來説,給定一個問題 q 以及 5 個候選答案(a_1, ..., a+5),研究者將這個問題與每個答案連接起來,以分別獲得 5 個鏈接序列(即句子)s_1, ..., s_5。在表示上,每個句子的開頭使用特殊符號 [CLS],問題和候選答案之間使用符號 [SEP],句子末尾使用符號 [SEP]。
BERT 由 L 個 stacked Transformer 層(Vaswani 等人,2017 年)組成,以對每個句子進行編碼。所以,[CLS] token 最後一層的隱狀態用於帶有 softmax 的線性分類,並且 s_1, ... , s_5 中得分最高的候選對象被選為預測答案。
分析方法
該研究使用注意力權重和相應的歸因得分(attribution score)來分析常識鏈接。
注意力權重
給定一個句子,我們可以將 Transformer 中的注意力權重視為生成下一層表示過程中,每個 token 與其他 token 之間的相對重要性權重(Kovaleva 等人,2019 年;Vashishth 等人,2020 年)。
注意力權重α通過 Q = W^QH 中查詢向量和 K = W^KH 中核心向量的縮放點積(scaled dot-product)來計算,然後得到 softmax 歸一化:
歸因得分
Kobayashi 等人指出,僅分析注意力權重可能不足以調查注意頭的行為,因為注意力權重忽略了隱藏向量 H 的值。
作為注意力權重的補充,已經研究了基於梯度的特徵歸因方法來解釋反向傳播中每個輸入特徵對模型預測的貢獻。對注意力權重和相應的歸因得分的分析有助於更全面地理解 BERT 中的常識鏈接。
研究者使用一種名為集成梯度(Integrated Gradient,Sundararajan 等人 2017 年提出)的歸因方法來解釋 BERT 中的常識鏈接。直觀地講,集成梯度方法模擬剪枝特定注意力頭的過程(從初始注意力權重α到零向量α'),並計算反向傳播中的集成梯度值。
歸因得分直接反映出了注意力權重的變化會對模型輸出造成多大程度的改變。通常來説,歸因得分越高表示單個注意力權重越重要。
BERT 是否包含結構化常識知識?
研究者首先進行了一組實驗來探究常識鏈接權重,從而可以反映出常識知識是否會被句子的 BERT 表示捕獲。
直觀地講,如果答案概念到問題概念的鏈接權重高於答案概念到其他疑問詞的鏈接權重,則 ConceptNet 中的常識知識是通過經驗表示捕獲的。
值得注意的是,[CLS] token 的表示不是問題概念,而是直接連接至輸出層以進行候選評分。因此,在預訓練和微調階段,對於輸出層以及答案概念 token 到問題概念 token 的鏈接權重,都沒有直接的監督信號。
探測任務(probing task)
研究者通過計算最相關的詞(most associated word, MAW)來評估鏈接權重,其中 MAW 是從所有疑問詞中的答案概念中獲得最大鏈接權重的問題概念詞。研究者計算了每層中每個注意力頭的 MAW。
實驗結果
下表 2 展示了對於不同的常識關係,原始歸一化 BERT 和在 CommonsenseQA 上微調的 BERT 模型的平均和最大準確率結果:
首先觀察未經微調的原始 BERT,每一層的最大 MAW 準確率明顯優於隨機基準。這表明 BERT 確實捕獲了常識知識。此外,BERT 的平均 MAW 也明顯優於隨機基準(p 值 < 0.01),這表明相關的問題概念無需微調即可在 BERT 編碼中發揮非常重要的作用。
其次,就平均 MAW 準確率和最大 MAW 準確率而言,BERT-FT 均優於 BERT。這表明對常識任務的監督訓練可以增強結構化的常識知識。
BERT 如何將常識知識用於常識任務?
研究者進一步進行了一組實驗,來描述常識鏈接與模型預測之間的相關性。目的是為了研究不同候選答案概念到問題概念的鏈接權重是否會對這些候選答案之間的模型決策造成影響。
具體而言,研究者比較了 5 個候選答案對於同一問題的鏈接權重,並找出了與相關問題概念最相關的候選答案。這個候選答案被稱為最相關候選對象(most associated candidate, MAC)。MAC 和每個問題的模型預測之間也存在着相關性。直觀地講,如果 MAC 與模型預測呈現相關性,則證明模型在預測過程中運用到了常識知識。
研究者進行實驗來評估 MAC 對模型決策的貢獻,以及 MAC 依賴與輸出準確率之間的相關性。實驗中使用注意力權重和歸因得分來測量鏈接,這是因為在考慮模型預測時梯度會發揮作用。
此外,對於所有試驗來説,歸因得分的趨勢與使用注意力權重測量的結果保持一致。
探測任務
從形式上,給定一個問題 q 和 5 個候選答案 a1, ..., a5,研究者對相應的 5 個候選句子 s1, ..., s5 進行比較。在每個候選句子中,研究者根據 ConceptNet 計算了答案概念到問題概念的鏈接權重。
研究者通過測量答案概念到 [CLS]token 的鏈接權重,進一步定義了最相關句子(most associated sentence, MAS)。這是因為梯度是從 [CLS]token 後向傳播,而不是從問題概念或答案概念。
此外,通過比較 MAC 和 MAS,研究者可以獲得 MAC 是否對模型決策造成影響的有用信息。
常識鏈接的重要性
研究者測量了 BERT-FT 和 BERT-Probing(這是一個僅針對輸出層進行微調的 BERT 變體)的 MAC 性能,其中 BERT-Probing 是一個線性探測(linear probing)模型。直觀地講,如果線性分類器可以預測常識任務,則未經微調的原始模型可能會編碼豐富的常識知識。
下表 3 為 top Transformer 層中 12 個注意力頭條件下,MAC 和 MAS 的重疊率(overlapping rate):
常識鏈接與模型預測之間的相關性
為了進一步探究常識知識對模型預測的貢獻,下圖 4 展示了每個 Transformer 層上 MAC 和模型預測之間的重疊率:
下表 4 則展示了 MAC 準確率和預測準確率之間的相關性:
不同層的貢獻
最後,研究者進一步探究了常識知識使用上的兩個具體問題。其一,在決策過程中,BERT 最依賴哪個層?其二,BERT 使用的常識知識來自預訓練或微調嗎?為此,研究者通過連接每個 Transformer 層上的輸出層,對 12 個模型變體進行了比較。
下表 5 展示了模型準確率和 MAC 重疊率的數據:
【來源:達達教育】
聲明:轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯繫,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]