性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型

模型越大,性能越佳?答案可能是不一定。

在NLP領域,談到超大模型必然想到預訓練語言模型GPT-3,自今年3月份對外開放以來,其因超大模型和超強性能頻頻刷屏。

GPT-3擁有1750億參數量,約有700G大小,一次訓練成本高達上百萬美元。1750億是什麼概念?去年2月份,OpenAI推出的GPT-2參數量為僅15億,是它的1\116。

與今年微軟推出的Turing NLG(170 億參數),英偉達的 Megatron-BERT(80 億參數)相比,也要高出10多倍。

不過,超大模型帶來的性能表現也是顯而易見的。最近《衞報》剛剛發佈了一篇由GPT-3撰寫的文章,因文本內容堪比人類而再次引起熱議。

但現在,同樣的文本生成效果,其參數量可能只需要GPT-3的0.1%。

近日,慕尼黑路德維希·馬克西米利安大學(LMU)AI研究團隊公佈了一項最新研究成果,即在文本生成方面,僅用2.23億參數量,就可以到達GPT-3的效果。

性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型

這項研究論文已發表至預印論文庫arXiv,論文摘要中顯示:

我們證明了使用參數小几個數量級的語言模型也可以獲得類似GPT-3的性能。這是通過將輸入文本轉換成包含任務描述的完形填空,並結合梯度優化來實現的。此外,利用未標記的數據也可以進一步改進;我們確定了使用小語言模型理解自然語言所需的幾個關鍵因素。

接下來,我們具體看一下這項技術的實現原理。

基於PET系統的文本生成模型

論文中介紹,LMU研究團隊採用的是一種稱為模式開發訓練(Pattern-exploiting Training,PET)的方法。該方法是一種半監督訓練,可將輸入示例重新編寫為填空樣式的短語,在參數量少的環境下明顯優於常規的監督訓練。

具體來説,PET將完形填空問題的重新表述與基於梯度的規則微調相結合,彌補了GPT-3大模型的弊端。同時,它不需要對數據進行標記,而且能夠適用於多個令牌的預測任務。

經過SuperGLUE的基準測試,PET及其迭代版的性能都優於GPT-3,而且參數量少了三個數量級。

性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型

  • PET:2.23億個參數,SuperGLUE平均得分為74.0。

  • GPT3:1750億個參數,SuperGLUE平均得分為71.8。

具體來説,PET通過訓練各個PVP(Pattern-verbalizer)模型,將其合併、輸出,以在在製作的軟標籤上訓練新模型來獲得最終的效果。論文中,研究人員採用了32個示例基於ALBERT對PET和GPT-3進行了測試。其最終結果如下:

性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型

可以看出,ALBERT和PET的表現類似於超大模型GPT-3,其體積增大了785倍,而且平均來説,PET的表現要比GPT-3稍好。iPET為三項任務帶來了新的改進,其中最顯著的是CB,但是MultiRC的性能略有下降。

需要強調的是,iPET可訓練多模型,甚至可以在沒有任何訓練數據的情況下使用。

與GPT-3類似,PET在WiC中的隨機性並不高,這很難作為語言建模任務重新表述。ReCoRD是GPT-3始終優於PET和iPET的唯一任務。儘管PET表現強勁,但它的表現顯然比普通全尺寸SuperGLUE訓練器上訓練的最先進的模型還要差。

經研究發現其影響性能的因素包括以下幾點:模式和描述器的選擇,未標記和標記數據的使用,以及底層語言模型的屬性。

在以前的研究中,包括GPT-3,YI。這些重新表述可以處理更加複雜的任務。為了研究模式和描述器的重要性,研究人員比較了三組不同的PVP(pours、pGPT-3、pcomb),並使用PET對ALBERT進行了模式訓練,結果如下圖:

性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型

可以看出,pGPT-3在RTE上的性能優於pours,而pours在MultiRC上的性能要好得多。這一反差表現正説明了將任務表達為完型填空的重要性。

另外,為了研究未標記數據對於PET的重要性。研究人員比較了PET中最終分類器的性能與單個pvp對應的模型集合的性能。以下為每個PVP訓練三個模型後的結果:

性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型

這表明,如果目標僅僅是獲得良好的性能,那麼無標記數據是不必要的,但是,它需要獲得一個單一的、輕量級的模型作為最終分類器。

接下來,為了研究底層模型與PET性能的相關性。研究人員將ALBERT與RoBERTa large和GPT-2 medium進行了比較,結果如下圖:

性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型

可以看到,使用ALBERT作為底層模型對於PET的性能至關重要;將ALBERT替換為RoBERTa,其平均性能下降了8個點。不過,RoBERTa仍然明顯優於GPT-3,因為GPT-3要大兩個數量級。

重要的是,使用GPT-2的PET比其他兩種模型的性能差很,其性能下降的一個關鍵原因可能是,與GPT-3一樣,GPT2是一個單向模型,它需要比較兩個文本序列。

因此,底層模型的雙向性對於PET來説很重要,因為它消除了掩碼令牌在最後的需求,能夠在創建模式時表現出更大的靈活性。

突破大模型的限制,提供新的可能性

論文的結論中表明,通過PET訓練方法,可以在參數量少三個數量級的情況下,在SuperGLUE測試中實現類似GPT-3的性能。PET是一種將任務重新定義為完形填空問題,併為不同的重新表述訓練一組模型的方法,它能夠用於需要預測多個令牌的任務。

需要説明的是,該項研究證明了:在文本生成領域,小模型達到高性能表現的可能性,但它並不意味着超過了GPT-3,或者實現了GPT-3的所有功能。

LMU研究團隊也指出:“它不會在所有任務中都勝過GPT-3,我們目的是希望使用更適度的硬件來突破AI界限,為研究人員開闢新的思路和途徑。”

簡單來説,通過GPT-3,超大模型所帶來的性能顯而易見,那麼相對簡單的模型能夠帶來哪些可能性,是該項研究的初衷,它意在激勵研究者提出更智能、更高效的新模型。

雖然PET系統比大規模的GPT體系具有更少的功能,但它表明了我們可以通過更易於管理的規模來獲取與大模型等效的方法。

另外,需要強調的是,GPT-3在功能及性能方面達到了前所未有的高度,但其內部也存在明顯的缺陷。比如OpenAI團隊曾公開聲明,GPT-3存在一些算法侷限,但由於訓練成本過高,並不打算對其進行優化。因此,GPT-3距離“理想”Transformer還很遙遠,仍有很大的改進空間。

引用鏈接:雷鋒網雷鋒網雷鋒網

https://arxiv.org/pdf/2009.07118.pdf

https://thenextweb.com/neural/2020/09/21/ai-devs-created-a-lean-mean-gpt-3-beating-machine-that-uses-99-9-fewer-parameters/

https://us13.campaign-archive.com/?u=67bd06787e84d73db24fb0aa5&id;=ef5072d878

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2778 字。

轉載請註明: 性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型 - 楠木軒