谷歌開源“窮人版”摘要生成NLP模型：1000個樣本就能打敗人類

2020-06-15 由納喇曉枝發佈於科技

曉查發自凹非寺

BERT、GPT-2、XLNet等通用語言模型已經展現了強大的威力，它們可以應付各類任務，比如文本生成、問答。當這些模型對各種語言任務進行微調時，可以達到SOTA性能。

以上這些NLP模型都是“通才”，雖然全面，但在面向特定任務時需要微調，訓練數據集也十分龐大，非一般人所能承受。

如果開發一個非通用NLP模型，專門針對某項具體任務，在降低訓練成本的同時，性能會不會提高呢？

這就是谷歌發佈的“天馬”模型，它專門為機器生成摘要而生，刷新了該領域的SOTA成績，並被ICML 2020收錄。

“天馬”模型僅使用1000個樣本進行訓練，就能接近人類摘要的水平，大大減少了對監督數據的需求，創造了低成本使用的可能性。

從填空到生成摘要

PEGASUS的全稱是：利用提取的間隙句進行摘要概括的預訓練模型。就是設計一種間隙句生成的自監督預訓練目標，來改進生成摘要的微調性能。

在之前的NLP研究中，自監督預訓練對下游的目標並不清楚，可能是文本生成、也可能是摘要提取，模型傾向於通用性。

而來自谷歌的研究者認為，自監督預訓練目標越接近最終的下游任務，微調性能越好。

那論文標題中的間隙句又是什麼意思？

在“天馬”模型的預訓練中，研究者從一段文檔中刪掉一些句子，讓模型進行恢復任務。這些隔空刪掉的句子即為間隙句。

這樣一項具有挑戰性的任務促使模型學習發現一般事實的能力，以及學習如何提取從整個文檔中獲取的信息。

谷歌發現，選擇“重要”句子去遮擋效果最好，這會使自監督樣本的輸出與摘要更加相似。

作者選擇了12個不同數據集，內容豐富多樣，包括新聞、科學論文、專利文件、短篇小説、電子郵件、法律文件和使用説明，表明該模型框架適用於各種主題。

與谷歌之前提出的T5對比，參數數量僅為T5的5%。

谷歌根據ROUGE標準對輸出結果進行評判，通過查找與文檔其餘部分最相似的句子來自動識別這些句子。

ROUGE使用n元語法重疊來計算兩個文本的相似度，分數從0到100。

1000個訓練樣本即超過人類

儘管PEGASUS在大型數據集上表現出了卓越的性能，但令人驚訝的是，“天馬”模型並不需要大量的樣本來進行微調，就可以達到近乎SOTA的性能。

下圖展示了在四個選定的摘要數據集中，ROUGE得分與監督樣本數量的關係。虛線表示具有全監督但沒有預訓練的Transformer編碼器-解碼器的性能。

與基線相比，即使僅用1000個微調樣本，“天馬”在大多數任務中的性能還是要好一些。要考慮到，在某些實際情況下，樣本數量還要多幾個數量級。

這種“樣本效率”極大地提高了文本摘要模型的實用性，因為它大大降低了監督數據收集的規模和成本。

除了機器給出的ROUGE評分外，谷歌還進行了一項鑑別摘要的“圖靈測試”。

谷歌將模型生成的摘要和人類提取的摘要放在一起，給用户進行評估。在3個不同數據集上進行的實驗表明，打分的人有時會更喜歡機器生成的摘要。

當然，“天馬”模型並非沒有缺點，谷歌就找到了一個bug。

作者從XSum數據集中尋找了一段話，其中提到了英國4艘護衞艦的名字，通篇沒有提到4，“天馬”還是正確提取出了護衞艦數量信息。

軍艦的數量從2~5的時候都沒有問題，當數量增加到6時，“天馬”錯誤地認為有7艘。這説明模型“符號推理”的數量有限。

最後，為了支持該持續研究並確保可重複性，谷歌在GitHub上發佈了“天馬”的代碼、模型checkpoint以及其他彙總數據集。

轉載請註明：谷歌開源“窮人版”摘要生成NLP模型：1000個樣本就能打敗人類 - 楠木軒

天價罰單：谷歌不服，抗議歐盟24億罰款

發佈於: 經典2020-06-20標籤: 天價罰單谷歌抗議

眾所周知，谷歌和歐盟一直都不太對付，至於原因，多是歐盟認為谷歌的一些行為屢屢觸碰反壟斷法，隨即頻繁的對谷歌處以天價罰單，而谷歌認為，歐盟開具的罰單金額過大，完全不合理，況且自己本身並不存在反競爭行為，

美國公司平台化成功，靠的是人才和創業生態系統的支持，中國靠什麼?

發佈於: 科技2020-06-20標籤: 美國公司生態系統谷歌金融科技

作者|桑基特·保羅·邱達利來源|造就(ID:xingshu100)信息技術進入5G時代後，傳統商業模式將遭遇更大的挑戰，創新與轉型似乎成為企業發展的必經之路。平台，一種被視為改變世界的商業模式正在&

谷歌等互聯網公司高管出席美國國會聽證會

發佈於: 科技2020-06-20標籤: 公司高管聽證會谷歌公司谷歌

在美國總統大選即將於11月3日到來之際，Facebook、谷歌和Twitter高管出席了一場有關外國影響和選舉安全的美國國會虛擬聽證會，接受了議員的質詢。Facebook和Twitter高管在眾議院情

外媒：谷歌瀏覽器漏洞造成大規模的用户安全信息泄露

發佈於: 科技2020-06-20標籤: 外媒信息泄露研究人員谷歌

三言財經 6月18日消息，據外媒報道，Awake Security研究人員表示，新發現一個間諜軟件通過谷歌瀏覽器的擴展程序來攻擊用户，含有這個間諜軟件的擴展程序已經被下載了3200萬次，涉及電子郵件、

蘋果稱未被告知有關英國接觸者追蹤App存在的問題

發佈於: 科技2020-06-20標籤: 接觸者追蹤谷歌蘋果

據報道，NHS一直在測試自己的專有系統和基於蘋果-谷歌API的系統，但發現自己的系統存在問題。根據BBC的報道，NHS的解決方案只能檢測到附近4%的iPhone，而記錄了75%附近的Andro

除域名外，谷歌Chrome 85將隱藏詳細的URL地址

發佈於: 科技2020-06-20標籤: 域名谷歌顯示完整

站長之家(ChinaZ.com) 6月16日消息:谷歌正加緊實施新的計劃，以在Chrome中隱藏除域名以外的所有URL地址。據外媒報道，Chrome的Dev和Canary 通道(V85)中出現了一些

Facebook(FB.US)亞馬遜(AMZN.US)等科技巨頭或將在2020年底前面臨歐盟數字税收

發佈於: 科技2020-06-20標籤: 數字税科技巨頭財政部長谷歌

智通財經APP獲悉，週四，Facebook(FB.US)、亞馬遜(AMZN.US)、谷歌及其母公司Alphabet(GOOG.US、GOOGL.US)可能會遭受來自歐盟的數字服務税收打擊。此前法國財

Chome OS不再拉跨：將能直接運行Windows應用程序

發佈於: 科技2020-06-20標籤: 能直接應用程序谷歌低薪

除了Windows、macOS、Linux發行版，筆記本市場谷歌的Chrome OS實際上也是不容小覷的力量。在北美教育市場，Chromebook的銷量甚至常年保持領先。這些年，谷歌對Chrome O

谷歌新版Chrome將隱藏詳細URL地址，域名地位更加凸顯

發佈於: 科技2020-06-19標籤: 域名新版谷歌低薪

據外媒報道，谷歌近日對Chrome新版本有所調整：Chrome的Dev和Canary通道(V85)中出現了一些新的特性標誌，它們修改了地址欄中網址的外觀和行為。主標記稱為“多功能框UI隱藏穩態URL

被谷歌拋棄、軟銀接盤，MIT教授做的波士頓機器狗終於開賣了

發佈於: 科技2020-06-19標籤: 軟銀開賣波士頓谷歌

圖片來源@TED鈦媒體注：本文來源於微信公眾號硅兔賽跑（ID：sv_race），作者丨侯雅玲，編輯丨Tia Li Zi，鈦媒體經授權發佈。消費74500美金，摺合人民幣53萬左右，你就能跟亞馬遜CEO

谷歌拒絕為新聞付費，遭出版商攻擊

發佈於: 科技2020-06-19標籤: 出版商付費美國司法部谷歌

據外媒報道，一家出版商貿易組織在一份提交給美國司法部的報告中稱，谷歌使新聞機構在沒有獲得足夠報酬的情況下出讓其新聞內容。美國司法部目前正在調查谷歌可能的違反反壟斷法的行為。新聞媒體聯盟表示，谷歌嚴重依

谷歌瀏覽器造成大規模用户信息泄露涉及電子郵件等敏感信息

發佈於: 科技2020-06-19標籤: 信息泄露敏感信息谷歌公司谷歌

6月18日，據路透社報道，Awake Security的研究人員表示，新發現一項間諜軟件通過谷歌瀏覽器下載3200萬個擴展項來攻擊用户。據報道內容顯示，此次攻擊造成了大規模用户信息泄漏，其中涉

美國科技巨頭員工跳槽字節跳動成為最好選擇

發佈於: 科技2020-06-19標籤: 字節跳動美國科技中關村在線谷歌

中關村在線消息：北京時間6月17日消息，近日科技論壇Blind發佈了一篇文章，他們通過對站內搜索和瀏覽記錄進行分析，得出了一些相關數據。其中，字節跳動成為了美國最受求職者歡迎的科技公司，尤其是Face

美股盤前：美聯儲+潛在萬億美元基建計劃助推三大股指期貨全線上漲

發佈於: 財經2020-06-19標籤: 三大美股盤前騰訊谷歌

財聯社（上海，編輯吳斌）訊，受美聯儲購買單隻企業債和可能的萬億美元基建計劃推動，週二（16日）美國三大股指期貨全線上漲，道指期貨漲逾2%。市場動態截至發稿，標普500指數期貨漲1.83%，報3,

谷歌Chrome瀏覽器應用商店現惡意軟件已被下載3200萬次

發佈於: 科技2020-06-19標籤: 惡意軟件應用商店研究人員谷歌

6月18日，據外媒報道，Awake Security的研究人員表示，在谷歌的Chrome瀏覽器擴展程序中發現了一個惡意軟件，該軟件已經被下載了約3200萬次，大量用户信息面臨泄露的危險。Awake S