GPT-3王者來襲！1750億參數少樣本無需微調，網友：「調參俠」都沒的當了

2020-06-06 由公冶爾藍發佈於科技

【新智元導讀】近日OpenAI發佈GPT-3，萬億數據訓練，1750億參數，無監督學習效果接近SOTA，要做本年度最強語言模型！

OpenAI最強預訓練語言模型GPT-3週四發表在預印本 arXiv 上，1750億參數!

GPT家族又添新

GPT系列的預訓練語言模型一直是大力出奇跡的典型代表，但是一代和二代在偏重理解的自然語言處理任務中表現欠佳，遜色於BERT家族。

GPT(Generative Pre-Training)是一個12層單向Transformer語言模型。語言模型訓練好後，可以用於其他的NLP任務。使用GPT首先要學習神經網絡的初始參數，然後，根據具體任務再進行微調。

GPT-2在GPT基礎上對模型做了調整，將Layer Normalization挪到了每個sub-block的輸入，另外有一個LN加到了自注意力block之後，GPT-2把輸入輸出全部轉化為了文本，訓練出15億參數的模型，在自然語言生成領域一時風頭無兩。

GPT2 demo

少樣本學習無需微調，以後都不能自黑「調參俠」了

GPT-3基於 CommonCrawl (從2016年到2019年收集了近1萬億個單詞)、網絡文本、書籍、維基百科等相關的數據集進行訓練。

GPT-3的參數量高達1750億，相比之下，GPT-2的最大版本也只有15億個參數，而微軟早前推出的全球最大的基於Transformer的語言模型有170億個參數。

GPT-3模型在一系列基準測試和特定領域的自然語言處理任務（從語言翻譯到生成新聞）中達到最新的SOTA結果。

GPT-3只是參數量巨大嗎？

此次發佈的GPT-3還是沿用了之前的單向transformer，我們看題目，這次的模型是少樣本學習語言模型，不管是Zero-shot、One-shot還是Few-shot都無需再進行微調，但推理速度還有待驗證。

實驗證明，1750億參數的GPT-3模型，在少樣本學習中取得了不錯的效果。「GPT-3在特定領域少樣本學習中取得了極大的性能提升，有些甚至超過了當前的SOTA效果」。

對於所有任務，GPT-3沒有進行任何微調，僅通過文本與模型進行交互。

知乎用户李如總結了GPT-3相對BERT的優勢，BERT在特定領域的任務微調過分依賴標註數據、容易過擬合，而GPT-3只需要少量標註數據，且無需微調。

前面我們説了GPT和GPT-2在自然語言理解方面還是遜色於BERT，那這次有沒有新進展呢？

在專門用於測試推理和其他高級 NLP 模型任務的 SuperGLUE 基準測試中，GPT-3在 COPA 和 ReCoRD 閲讀理解數據集中獲得了近乎最好的結果，但是與上下文詞彙分析(WiC)和 RACE (一組中學和高中考試問題)相比還是有所欠缺。

接下來作者們對下游的各種NLP任務進行了實驗，想要了解更多細節的朋友可以去arXiv上查看原始論文。

https://arxiv.org/pdf/2005.14165.pdf

OpenAI這次不光拼參數量，還要拼作者數量？

這次的GPT-3論文作者足足有31位，現在語言模型不僅要拼參數量，還要拼作者數量嗎？

谷歌53頁的T5論文已經讓人驚掉下巴，GPT-3的竟然有72頁！知乎網友感嘆，現在PTM的工作是要開始pk論文頁數了嗎？

GPT-3直接被打上了炫富的標籤。。

計算量是BERT的2000多倍，知乎網友Jsgfery表示，這麼大的模型跑一次就好，可千萬別出bug，地主家也沒有餘糧再訓練一次了。

GPT2生成的虛假文章已經讓人真假難辨，至少在語句的通順性上是這樣。GPT-3的效果將更勝GPT2，有網友也表示我們將會敗給GPT-3，如果以後網頁的內容都是自動生成的，那閲讀還有什麼意義？

OpenAI 去年發佈了 GPT-2，因為擔心該模型可能被惡意使用，並沒有放出預訓練的模型。有些網友評論説應該改名Closeai，但是OpenAI這種審慎的做法也有不少人贊同。網友們也關心 GPT-3的完整版本是否會開源，或者是否會有7個規模從1.25億到130億不等的小版本時，OpenAI沒有給予明確答覆。

https://www.zhihu.com/question/398114261

https://arxiv.org/abs/2005.14165

轉載請註明： GPT-3王者來襲！1750億參數少樣本無需微調，網友：「調參俠」都沒的當了 - 楠木軒