「炫富」的GPT-3來了:45TB數據,1750億個參數,還會三位數加減法

那個語言模型又迭代了,現在有1750億個參數。

這個讓英偉達狂喜,讓調參師流淚的數字來自OpenAI,史上最大AI語言模型——

GPT-3

單單論文就有72頁

OpenAI表示,通過GPT-3,他們證明了無需梯度更新無需微調,規模更大的語言模型就可以大大改善無關任務和小樣本(few-shot)學習的性能,達到最先進微調方法的水準。

在部分任務中,甚至超越了最先進微調方法。

不僅如此,這個語言模型,還能做加減法

GPT-3是什麼

不妨先來看看GPT-3的實際表現。

比如,先告訴GPT-3這樣一個示例:

此後不再給GPT-3任何特定任務提示,就向它拋出問題:

GPT-3造出的句子是這樣的:

至於編故事的能力,在500個詞的情況下,人類判斷出其為AI生成的概率僅為52%。在最佳案例中,判斷準確率甚至降到了12%

能自己編故事、糾正英語語法,甚至,GPT-3還學會了3位數基本運算。

表中,{2,3,4,5}D{ ,-}表示2、3、4、5位數加法或減法,2Dx代表2位數乘法,1DC代表1位數複合運算。

無需微調

前文也説到了,達到這樣的效果,不需要梯度更新,不需要微調。只需要指定任務、展示少量演示,來與模型文本交互,就能使其完成任務。

這樣一來,一方面,對於新任務,就不需要重新收集大量帶標籤的數據。

另一方面,可以避免微調階段出現過擬合,導致模型泛化能力下降的問題。

而實現的關鍵,總結起來就是:大力出奇跡

不僅模型尺寸增大到了1750億,數據量也達到了45TB。V100嘛,是“微軟提供的高帶寬羣集中的V100 GPU”。

研究人員將預訓練模型在三種不同的設置下進行了探索。

本文的重點放在零樣本、單樣本和小樣本學習上。研究人員沒有對GPT-3進行微調,不過,論文談到,原則上是可以微調GPT-3的。

模型與架構

具體到模型與架構,研究人員採用了與GPT-2相同的模型和架構,不過,在tranformer各層中使用了交替稠密(alternating dense)和局部帶狀稀疏注意力(locally banded sparse attention)模式,類似於Spare Transformer。

GPT-3的影響

知乎問題「如何評價1700億參數的GPT-3」 的標籤,已經透露出玄機。

知乎用户CloudySky就説,看了GPT-3,再看看自己 i9 2080ti 2TB 硬盤的台式,想想有空還是打開steam,趁打折多買幾個3A大作比較合適。

他還發出了靈魂一問:

復旦邱錫鵬教授則認為,Pretrain finetune仍然會是未來幾年的主流。

雖然如此恐怖的計算成本讓人有些望而卻步,但EECVC聯合創始人Dmytro Mishkin認為:

也有網友表示:

不管怎麼説,看到這GPU熊熊燃燒的場面,想必老黃已經樂開了花。

目前,GPT-3尚未開源,可以期待一下,OpenAI這回會擠多久牙膏了。

論文地址:https://arxiv.org/abs/2005.14165

https://www.zhihu.com/question/398458462/answer/1255674578

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1276 字。

轉載請註明: 「炫富」的GPT-3來了:45TB數據,1750億個參數,還會三位數加減法 - 楠木軒