【新智元導讀】近日OpenAI發佈GPT-3,萬億數據訓練,1750億參數,無監督學習效果接近SOTA,要做本年度最強語言模型!
OpenAI最強預訓練語言模型GPT-3週四發表在預印本 arXiv 上,1750億參數!
GPT家族又添新
GPT系列的預訓練語言模型一直是大力出奇跡的典型代表,但是一代和二代在偏重理解的自然語言處理任務中表現欠佳,遜色於BERT家族。
GPT(Generative Pre-Training)是一個12層單向Transformer語言模型。語言模型訓練好後,可以用於其他的NLP任務。使用GPT首先要學習神經網絡的初始參數,然後,根據具體任務再進行微調。
GPT-2在GPT基礎上對模型做了調整,將Layer Normalization挪到了每個sub-block的輸入,另外有一個LN加到了自注意力block之後,GPT-2把輸入輸出全部轉化為了文本,訓練出15億參數的模型,在自然語言生成領域一時風頭無兩。
GPT2 demo
GPT-3基於 CommonCrawl (從2016年到2019年收集了近1萬億個單詞)、網絡文本、書籍、維基百科等相關的數據集進行訓練。
GPT-3的參數量高達1750億,相比之下,GPT-2的最大版本也只有15億個參數,而微軟早前推出的全球最大的基於Transformer的語言模型有170億個參數。
GPT-3模型在一系列基準測試和特定領域的自然語言處理任務(從語言翻譯到生成新聞)中達到最新的SOTA結果。
GPT-3只是參數量巨大嗎?
此次發佈的GPT-3還是沿用了之前的單向transformer,我們看題目,這次的模型是少樣本學習語言模型,不管是Zero-shot、One-shot還是Few-shot都無需再進行微調,但推理速度還有待驗證。
實驗證明,1750億參數的GPT-3模型,在少樣本學習中取得了不錯的效果。「GPT-3在特定領域少樣本學習中取得了極大的性能提升,有些甚至超過了當前的SOTA效果」。
對於所有任務,GPT-3沒有進行任何微調,僅通過文本與模型進行交互。
知乎用户李如總結了GPT-3相對BERT的優勢,BERT在特定領域的任務微調過分依賴標註數據、容易過擬合,而GPT-3只需要少量標註數據,且無需微調。
前面我們説了GPT和GPT-2在自然語言理解方面還是遜色於BERT,那這次有沒有新進展呢?
在專門用於測試推理和其他高級 NLP 模型任務的 SuperGLUE 基準測試中,GPT-3在 COPA 和 ReCoRD 閲讀理解數據集中獲得了近乎最好的結果,但是與上下文詞彙分析(WiC)和 RACE (一組中學和高中考試問題)相比還是有所欠缺。
接下來作者們對下游的各種NLP任務進行了實驗,想要了解更多細節的朋友可以去arXiv上查看原始論文。
https://arxiv.org/pdf/2005.14165.pdf
OpenAI這次不光拼參數量,還要拼作者數量?
這次的GPT-3論文作者足足有31位,現在語言模型不僅要拼參數量,還要拼作者數量嗎?
谷歌53頁的T5論文已經讓人驚掉下巴,GPT-3的竟然有72頁!知乎網友感嘆,現在PTM的工作是要開始pk論文頁數了嗎?
GPT-3直接被打上了炫富的標籤。。
計算量是BERT的2000多倍,知乎網友Jsgfery表示,這麼大的模型跑一次就好,可千萬別出bug,地主家也沒有餘糧再訓練一次了。
GPT2生成的虛假文章已經讓人真假難辨,至少在語句的通順性上是這樣。GPT-3的效果將更勝GPT2,有網友也表示我們將會敗給GPT-3,如果以後網頁的內容都是自動生成的,那閲讀還有什麼意義?
OpenAI 去年發佈了 GPT-2,因為擔心該模型可能被惡意使用,並沒有放出預訓練的模型。有些網友評論説應該改名Closeai,但是OpenAI這種審慎的做法也有不少人贊同。網友們也關心 GPT-3的完整版本是否會開源,或者是否會有7個規模從1.25億到130億不等的小版本時,OpenAI沒有給予明確答覆。
https://www.zhihu.com/question/398114261
https://arxiv.org/abs/2005.14165