ICML 2020 | PEGASUS：文本摘要中的SOTA

　　論文信息

　　論文標題：PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

　　機構：Google Research

　　作者：Jingqing Zhang, Yao Zhao, Mohammad Saleh, Peter J. Liu

　　論文地址：https://www.aminer.cn/pub/5dfb4b2f3a55acc4878bd402

　　收錄會議：ICML 2020

　　論文代碼：https://github.com/google-research/pegasus

　　導語

　　近些年 Transformers 在海量語料上進行自監督預訓練再到下游各種NLP任務(當然也包括文本摘要)上微調的方案已取得巨大成功。但是，尚未有針抽象文本摘要(abstractive text summarization)定製預訓練目標。此外，目前抽象文本摘要任務也缺乏跨領域的系統評價。

　　為此，本文提出了一種新的自監督預訓練目標：GSG(Gap Sentences Generation)，以適配 Transformer-based 的 encoder-decoder 模型在海量文本語料上預訓練。在 PEGASUS 中，將輸入文檔中的“重要句子”刪除或者遮蔽，再利用剩餘的句子在輸出中生成這些被刪除或遮蔽的句子。從輸入和輸出看，該目標與文本摘要類似。

　　本文以 12 個文本摘要數據集(包括新聞、科學、故事、使用説明、電子郵件、專利和立法議案)對最好的 PEGASUS 模型進行全面測試。實驗結果是：PEGASUS 刷新 12 個數據集的 ROUGE 得分記錄。另外，PEGASUS 模型在處理低資源摘要數據集也顯示出驚人的性能，在 6 個數據集上僅以 1000 個樣本就超過了之前的最先進結果。最後，本文還對 PEGASUS 模型生成的摘要結果進行人工評測，結果表明本文的模型在多個數據集上達到與人工摘要相媲美的性能。

　　前言

　　抽象文本摘要是一項極具挑戰的自然語言處理任務，因為這要求理解長篇文章、壓縮資訊以及生成語言。目前主流的解決方案是用 seq2seq，讓神經網路學習把輸入序列映射到輸出序列。這些 seq2seq 模型最初是使用 RNN，但因為基於 Transformer encoder-decoder 的各種模型在處理長序列中的依賴關係表現更好，所以逐漸更受青睞。

　　各種 Transformer 模型與自監督預訓練技術(如 BERT、GPT-2、 RoBERTa、XLNet、ALBERT、T5、ELECTRA)相結合，已被證明是學習生成通用語言的強大框架。之前的工作中，預訓練使用的自監督目標對下游應用有一定程度的不可知性，即不考慮下游任務，如此有利於模型通用性的學習。本文認為如果預訓練的自監督目標更接近最終的任務，那麼最終的下游任務能取得更好的結果。

　　實驗證明，將輸入文檔中部分句子遮蔽掉，用剩餘的句子生成被遮蔽掉句子的這種預訓練目標很適用於文本摘要任務。這種預訓練目標確實適合於抽象摘要，因為它非常類似於下游任務，從而促進模型對整個文檔的理解和類似摘要的生成。需要指出的是，選擇重要句子比隨機選擇或者選擇前幾句的結果性能都要好。

　　在 C4 語料上預訓練出的最好 PEGASUS 模型，參數只有 568M，但在 12 個評測數據集上評測能夠比肩此前最優結果，甚至超越它們刷新紀錄。另外，本文為進一步提升最先進結果，引入了一個新收集的文本語料庫，該語料庫由新聞類文章組成包括 XSum 和 CNN/DailyMail 摘要數據集，統稱為 HugeNews。此外，將本文的模型應用了低資源文本摘要任務上時，實驗結果表明本文的模型能夠非常快速適用於少量監督對的微調，並僅以 1000 個樣本即在 6 個數據集中斬獲桂冠。最後，還將文本模型的結果與人工摘要結果做對比，結果表明本文的模型可以達到與人工摘要相媲美的效果。

　　總結下本文的貢獻：

　　(1)提出了一個新的自監督的預訓練目標(GSG)用於抽象摘要任務，並研究相應的句子選擇策略。

　　(2)用多個領域的摘要任務數據集對 GSG 進行廣泛評測，並仔細地選擇最佳的模型設置，訓練一個參數量僅為 568M 的 PEGASUS 模型。該模型在全部的 12 個下游數據集上能夠超過或與當前最先進水平持平。

　　(3)對於低資源任務數據集，通過微調 PEGASUS 模型，可以在廣泛的領域實現良好的抽象摘要效果。在多個任務上，僅需 1000 個樣本就超過了以前的最先進的結果。

　　(4)對模型結果進行人工評估，結果表明在 XSum, CNN/DailyMail 和 Reddit TIFU 上的摘要效果與人工摘要比肩。

　　模型

　　預訓練目標 GSG

　　本文假設預訓練自監督的目標越接近最終的任務則結果性能越好。在 PEGASUS 預訓練中，將文件裏的幾個完整句子刪除，而模型的目標就是要恢復這些句子，換句話説，用來預訓練的輸入是有缺失部分句子的文檔，而輸出則是缺失句子的串連。這是一項難以置信的艱鉅任務，甚至對人人類來説也是不可能的，我們並不期望模型能完美地解決它。然而，這樣一個具有挑戰性的任務促使模型學習到關於語言的知識和這個世界的一般事實，以及如何從整個文檔中提取信息，以便生成類似於微調摘要任務的輸出。這種自監督的優點是，可以創建與文檔一樣多的示例，而不需要任何人工註釋，而這通常是純監督系統的阿喀琉斯之踵。

　　Figure 1 展示了 GSG 和 MLM 如何同時作用到一個樣本。在實驗中發現，MLM 任務在大的預訓練 Steps 中並不能提升下游任務，所以在最終的 PEGASUS_版中捨棄了 MLM 任務。

　　實驗發現，選擇重要的句子來遮蔽效果最好，讓自監督示例的輸出結果更像摘要。那麼怎麼選擇重要的句子？根據 ROUGE 度量標準，通過查找那些與文檔的其他部分最相似的句子，自動地識別出這些句子。ROUGE 計算兩個文本的 n-gram 重疊，從而得到文本之間的相似性(ROUGE-1、ROUGE-2 和 ROUGE-L 是三種常見的變體)。句子選擇策略如 Figure 2 所示：

　　Ind 表示獨立計算每個句子得分再選擇 top 個句子(其對立面是 Seq，通過貪婪地最大化所選句子之間的 ROUGE1-F1)，Orig 表示採用原始的 n-grams(其對立面是 Uniq，句子中的 n-grams 去重)。所以，組合方案有 4 種。

　　預訓練語料和下游任務

　　與 T5 類似,本文預訓練所用的海量語料也是通過網絡爬取。接着在 12 個抽象摘要數據集上微調 PEGASUS，以 ROUGE 得分來看取得當下最好結果，但參數量只有 T5 的 5%。參與評測的 12 個數據集是多樣的的，包括新聞文章、科學論文、專利、短篇小説、電子郵件、法律文件和使用指南，這表明模型框架適用於廣泛的主題，具有一定通用性。

　　預訓練的語料具體如下：

　　(1)C4，這是 T5 中引入的語料

　　(2)HugeNews，這是本文新引入的

　　下游任務具體如下：

　　(1)XSum(2)CNN/DailyMail(3)NEWSROOM(4)Multi-News(5)Gigaword(6)arXiv(7)PubMed(8)BIGPATENT(9)WikiHow(10)Reddit TIFU(11)AESLC(12)BillSum

　　實驗結果

　　PEGASUS_版：

　　參數量為 223M，L=12，H=768，F=3072，A=12，batch size=256。

　　PEGASUS_版：

　　參數量為 568M，L=16，H=1024，F=4096，A=16，batch size=8192。

　　消融研究

　　模型的消融研究基於PEGASUS_，研究對象：預訓練語料、預訓練目標、詞典尺寸。

　　預訓練語料的影響如 Figure 3 所示：

　　從上圖可以看出在兩個新聞相關的下游任務上用 HugeNews 預訓練效果更好，而另兩個非新聞類的任務 WikiHow 和 Reddit TIFU 則用 C4 預訓練效果更好。這表明，當預訓練的語料和下游任務更相關時，預訓練的模型可以更有效地遷移到下游任務。

　　預訓練目標的影響如 Figure 4 所示：

　　Figure 4a 可以看出 Ind-Orig 的方案最佳，Seq-Uniq 次之。Figure 4a 展示了 gap-sentences 比例(GSR)的影響。實驗表明 GSR 低於 50% 較好，在 CNN/DailyMail 數據集上 15% 的比例可以得到最優結果。而 XSum/Reddit TIFU 和 WikiHow 的最佳值分別是 30% 和 45%。

　　Figure 5 展示了詞典大小的影響：

　　在新聞類數據集中 Unigram 和 BPE 效果相差不大，而在非新聞數據集中 Unigram 則優於 BPE，特別是在 WikiHow 數據集上。在 XSum 和 CNN/DailyMail 上，Unigram 96kROUGE 得分最高。在 WikiHow 和 Reddit TIFU 數據集上對應的最佳選擇分別是 Unigram 128k 和 64k。

　　Larger 模型效果

　　基於之前的實驗，在 Large 版的模型中選用的是 GSG(Ind-Orig)預訓練目標(不帶有MLM)、Unigram 詞典大小 96k。

　　Table 1和 Table 2展示了 PEGASUS_ 和 PEGASUS_在下游任務上的表現。PEGASUS_在多項任務上超過當前最優結果，PEGASUS_ 則在全部下游任務超越當下最優結果。

　　處理低資源數據集

　　經過大型語料預訓練的 PEGASUS 模型，該模型不需要大量的樣本進行微調，就可以獲得接近最先進的性能。Figure 6 展示了 PEGASUS 模型在 8 個數據集下使用不同樣本數進行微調的結果。

　　Large 版只要用 100 個樣本進行微調就可以得到與 Base 版在 20k 到 200k 樣本上進行監督訓練相近的結果。Large 版在其中的 6 個任務上以 1000 個微調樣本量就超越了之前的最優結果。在只有 1000 個微調樣本的情況下，在大多數任務中都比使用完整監督數據的強基線(Transformer 編碼器-解碼器)執行得更好，在某些情況下，強基線(Transformer 編碼器-解碼器)使用的是多個數量級的樣本。這種“樣本效率”極大地提高了文本摘要模型的有用性，因為它顯著地降低了監督數據收集的規模和成本，而在摘要的情況下，監督數據收集的成本是非常昂貴的。

　　人工評測

　　雖然使用像 ROUGE 這樣的自動度量標準在模型開發過程中作為度量標準有用，但是該標準提供的信息有限，比如無法獲悉文本摘要的流暢性或者與人類性能相比較結果如何。為此，本文還進行了一次人工評估，要求評分者將文本的模型摘要結果與人工摘要進行比較(不知道哪個是哪個)。這與圖靈測試有一些相似之處。

　　使用 3 個不同的數據集進行了實驗，發現人工評分者並不總是喜歡人工摘要，有時候也會更傾向於本文模型的摘要。特別是，在 XSum 和 CNN/Dailymail 數據集被大量研究的情況下，該模型僅使用 1000 個示例就達到了與人工摘要相媲美的結果。這表明，使用大量的監督樣本不再是文本摘要所必須的了。

　　總結

　　本文提出 PEGASUS，一種基於 gap-sentences 生成的序列-序列模型，它為抽象文本摘要任務定製預訓練目標 GSG。此外本文研究了數種 gap-sentence 的選擇方法，確定了主句的選擇是最優策略。同時證明了預訓練語料庫、gap-sentences 比率、詞彙量所帶來的影響，並設置了最佳配置以在所有 12 個下游數據集上獲得最先進的結果。本文還表明，PEGASUS 模型能夠非常快速地適應新的摘要數據集，僅需 1000 個樣本就可以獲得較好的結果。最後在多個數據集上對比本文模型摘要與人工摘要，證明本文模型在多個數據集上可以取得與人類媲美的結果。

　　聯繫筆者