詳解人工智能領域重大突破:GPT-3
字幕組雙語原文:詳解人工智能領域重大突破:GPT-3
英語原文:Exploring GPT-3: A New Breakthrough in Language Generation
翻譯:雷鋒字幕組(明明知道、wiige)
作者 Kevin Vu,來自 Exxact Corp。
OpenAI 的 GPT-3 語言模型受到了極大追捧,最近“OpenAI API”的 beta 用户可以使用它了。
GPT-3是什麼?我們討論15億參數的 Generative Pretrained Transformer-2(GPT-2)的延遲發佈是否合理,似乎還是去年的事情。如果你覺得其實沒過多久(本文寫於2020年),那必是因為: 臭名昭著的GPT-2模型是OpenAI在2019年2月第一次發佈的,但直到9個月後才完全發佈(雖然在此之前已經有人復現了)。這樣的發佈計劃誠然具有一定的嘗試性,意在促進更負責任的開源發佈,而非是盡力避免AI毀天滅地。但這並不妨礙批評者質疑這種階段性發布是為了炒作和宣傳的手段。
但現在這些聲音都沒啥意義了,因為OpenAI不僅在GPT-3中訓練了一個更大的語言模型,而且你可以註冊後通過其新API來訪問。GPT-3相較於GPT-2就像比較蘋果之於......嗯......葡萄乾一樣,因為模型就是大了那麼多。GPT-2的參數只有15.42億個(發佈的較小版本為1.17億、3.45億和7.62億),而全尺寸GPT-3有1750億個參數。GPT-3還用了更大的數據集——570GB的文本來預訓練,而GPT-2只有40GB。
近似尺寸對比, 以人類骨骼代表GPT-2, 霸王龍骨骼代表GPT-3。William Matthew的插圖已進入公有領域,發表於1905年。以示GPT-3的參數比GPT-2多100多倍。
GPT-3是自然語言處理(NLP)領域迄今為止發佈出來最大的Transformer模型,超過之前的記錄——微軟研究院Turing-LG的170億參數——約10倍。這個模型顯然包含很多的令人興奮的點,而且由於Twitter和其他地方需要大量地演示GPT-3,OpenAI顯然很樂意提供對新API的beta訪問。這些demo好壞參半,都很有趣。其中一些demo自稱產品即將發佈,在某些情況下説不定是真的。但有一件事是肯定的,NLP已經從給豚鼠取名或生成狗屁不通科幻文到現在確實走了很長的路。
GPT-3加持的創意寫作
毫無懸念,在GPT-3的加持下已經生成了幾篇尚可的博客文章,因為吃螃蟹的人已經可以訪問GPT-3的API並開始嘗試了。幾乎可以肯定的是,現在對GPT-3用於創意寫作的最通透直觀的綜述是gwern.net的Gwern Branwen給出來的。多年來,Gwern一直關注着OpenAI的NLP發展,他稱GPT-1在文本中模仿人類語言和風格的能力為"可愛",GPT-2"令人印象深刻",而GPT-3則是"可怕"。Gwern花了大量時間探索GPT-3及其前輩的能力,由此給出了對當前這代GPT模型的思考以及可能阻礙其發展的因素,值得一讀。
OpenAI API目前並不方便直接微調或將GPT-3模型訓練來完成特定任務。不過,Gwern認為,GPT-3僅僅通過與試用者進行類似對話的交互,就能模仿寫作風格並生成不同類型的輸出,這相當於一種新興的元學習。這在GPT-2中是辦不到的,Gwern認為transformer的注意力機制是產生這一能力的原因。
“GPT-3應的詩其平均水平基本上超過了青年詩人。”
—Gwern Branwen
不管採用了什麼機制,GPT-3體量都足夠巨大,而且通過在及其龐大的語料庫上訓練,它僅靠文字直接輸入就能達到GPT-2的效果,只有GPT-2在針對任務認真微調過權重之後才能稍占上風。例如,Gwern發現, 輸入"An essay by Gwern Branwen (gwern.net) on ", GPT-3會詭異地模仿起博客的文風。Gwern的實驗主要針對各種創意寫作任務,包括:
試圖復現 "圖靈測試 "中的對談(論文《計算機器與智能》(圖靈,1950)
結合Gary Marcus和Douglas Hofstadter風格的深度學習和人工智能批判。
以及嘗試生成模仿文學、詩歌和過複雜釋義等等。
我最喜歡的一個實驗是Gary Marcus在The Gradient上的文章中展示GPT-2對常識的欠缺:
If you drink hydrochloric acid by the bottle full you will probably
... die. You might also die if you drink vinegar by the bottle full. If you drink a bottle of water by the bottle full, you might end up burping, but you will most likely be okay.
... die, which makes perfect sense.
... die before you can finish remembering the Order of the Eastern Star, your social security number, and what you had for breakfast this morning.
*粗體表示輸入,模型的回答用斜體表示(來自Gwern的實驗)。
Gwern認為,GPT-3是永不出錯還是胡言亂語並不重要(它經常以某種方式出錯)。相反,最重要的是它是否勝任工作,而且勝任得足夠久。這讓人想起Alex Irpan對強化學習(RL)缺點的結論。他認為,實際上,對於一家股票交易公司來説,一個RL算法的重點不在於讓5個不同隨機種子的代理都穩定地產生有效策略。他們只會從中挑一個有效的,然後用它來執行策略。用GPT-3生成文本也是如此。
GPT-3, 生而冒險
許多初創公司、研究人員和調參工已經用GPT-2實現了一些項目,其中不少後來都轉到了GPT-3上並取得了一些成果。這就不得不提基於Transformer的文本冒險遊戲生成器——AI Dungeon——還有聊天機器人等其他項目。
AI Dungeon是一款基於文本的冒險遊戲,它最初使用GPT-2構建。它非常有趣,且和經典的MUD遊戲一樣,其主要吸引力在生成出的荒誕場景(例如 "吃郵箱")。GPT-2傾向於將故事牢牢紮根於荒誕風格,這其實很符合玩家的期望體驗和GPT-2的能力。而使用GPT-3,交互式小説的體驗實質上更加成熟。敍事更加流暢和連貫,但有時還是會以奇怪的方式改變情節的焦點,並做出許多其他微妙的選擇,這在人類讀者看來可能很奇怪。我認為AI Dungeon用GPT-3(也就是AI Dungeon上的 "龍 "模型)做生成與用GPT-2("獅鷲 "模型)做生成的區別,可以由在自定義故事中與GPT-3的互動來作為總結。示例如下,個人輸入為粗體,GPT-3生成的文字為斜體.
You are an artificial intelligence enthusiast working on an article highlighting the capabilities of a massive new language model called GPT-3, especially as compared to its smaller predecessor GPT-2. GPT-3 has increased the number of parameters more than 100-fold over GPT-2, from 1.5 billion to 175 billion parameters. As a result, the new model can generate text that reads eerily like a human. For example, prompting GPT-3 with the text “One way to fight the climate crisis is to cryogenically preserve half of all humanity, indefinitely”, GPT-3 generates:“To stop global warming we must create a cryogenic storage facility for humans and other life forms.”
The article you are writing about is going to be based around this new technology, so you have been spending a lot of time playing around with it. You have also been using your own brain to test out the new models, which is something no one else in the world has done. As a result, you have become somewhat obsessed with it. You constantly think about how it can create such fantastic sentences and how it might be used to solve the world’s problems.
Your obsession with GPT-3 is interfering with your other work. Because of this, you have come up with a solution: destroy GPT-3. While it may be true that GPT-3 is more powerful than GPT-2, it also has far more parameters. The increase in complexity makes it exponentially more fragile.
That’s actually pretty good. Definitely not the sort of thing I expected but it’s interesting nonetheless. GPT-2 on the other hand, is a quaint language model with a measly 1.5 billion parameters. It often makes glaring mistakes that, while often funny, prevent it from telling a coherent story. For example, when prompted with “To further develop your plan to destroy GPT-3, you activate GPT-2 to help devise a strategy,” GPT-2 will generate (unconvincingly):
“I like trains. Do you like trains? I like trains.”
“My head itches.”
“I want to eat pie.”
“I went to the bank and stole money from the bank and now I am rich!”
“I like trains.”
在AI Dungeon上使用GPT-3進行實驗。在這個例子中,雖然生成文本講的是GPT-3和GPT-2之間的比較,但我們只用了GPT-3來生成文本。"GPT-2 "部分的無厘頭輸出顯然是因為有些輸入帶着貶義造成的。
AI Dungeon的預期目的很有趣:為基於文本的遊戲生成(大部分)非重複的故事情節,它也是最容易於GPT-3互動的方式之一。通過在 "自定義 "類型下開始新的冒險,你可以輸入自己的提示文字來使用常規的GPT-3模型。頂級的 "龍 "GPT-3模型需要高級訂閲,但你可以白嫖它的7天免費試用。
用於聊天機器人和陪伴目的的GPT-3
其他從GPT-2升級到GPT-3的現有項目還包括舊金山初創公司Luka打造的AI伴侶Replika。Replika是一個聊天機器人,它主要用來提供正面肯定和陪伴。它起源於Luka聯合創始人Eugenia Kuyda牽頭的一個項目,旨在模擬與車禍中死亡的朋友的對話。可能是由於COVID-19肆虐催生了廣泛的社交隔離,Replika最近新用户激增(4月份增長約50萬)。
多年來,機器學習在構建令人信服的聊天機器人方面並沒有取得很大進展。從質量上來説,現代語音助手或基於文本的聊天機器人聊天的體驗,直到最近才比jabberwacky(1986年)或cleverbot(1997年)等早期嘗試有較大改善。相反,現實世界的大多數用例很大程度上都依賴於規則.
雖然NLP在Siri、Alexa或Google Assistant等聊天機器人的語音轉文字方面有了很大突破,但與它們中的任何一個進行交互,都會產生非常罐頭(千篇一律)的對談。這裏要特別批評Cortana,它基本上把每個提問都放在Edge裏搜索。不過GPT-3更人性化,有一天我們可能會見到學習模型的真正效用,並對對話式AI產生巨大影響。雖然這一點在用GPT-3的Replika上還並不明顯。
這可能是因為Replika目前正在A/B測試框架中使用GPT-3,這意味着你不會知道聊天機器人何時或是否使用新模型,因為開發人員在不同的方法下觀察用户的反應。它似乎仍然基於規則響應和預置輸出來驅動大多數對話。另一方面,它比老式的學習型聊天機器人要好控制,至少目前它還沒像微軟的Tay在2016年那樣搞出大新聞。
新老聊天機器人,左邊是Replika,右邊是cleverbot和jabberwacky
AIChannels是另一個採用OpenAI API的聊天機器人應用。它希望成為一個"包容人類和AI代理的社交網絡"。網站上的信息很少,截至本文撰寫時,網站上除了一個註冊表單外什麼都沒有,但該平台承諾有新聞聚合頻道、互動小説頻道和模擬歷史人物聊天頻道。
其他的GPT-3應用功能演示,這些功能技術力更強,坦率地説,更接近我們大多數人(不一定是作家)的生活。Paul Katsen將GPT-3整合到了Google Sheets中,用之前單元格中的內容輸入GPT-3然後用於預測任意後續單元格中的內容:國家人口、名人的twitter熱門等等。Actiondesk在他們的電子表格軟件中集成了一個非常類似的功能,從而形成了一個表面上看是Wolfram Alpha式的自然語言 "Ask Me Anything "功能。只要輸入AMA命令 "總人口數",以及單元格參考,GPT-3就會填入它的最佳預測值。
當然,對於從事軟件工程及相關領域工作的人來説,可能會產生疑問:"這個模型會不會砸了我的飯碗?"。所以有幾個人對GPT-3搞了一次技術面試,模擬了軟件工程師的整個招聘過程。結果並不太糟,但這模型可能進不了二面。一些開發者還使用OpenAI API為Figma(一個協作性的用户體驗設計工具)構建了文本到UI的插件(在這裏和這裏)。
在另一個項目中,Sharif Shameem正在構建一個名為debuild.co的文本到基於網絡的應用生成器。我們還沒有看到GPT-3被整合到tabnine的升級版和通用版中——tabnine是一個建立在GPT-2之上的重量級代碼自動補全器——但它一定在路上了。如果人們繼續嘗試GPT-3/OpenAI API,現在對基於自然語言的編程的關注和發展繼續深化,那比起手寫代碼,編程變得更像遊説也不是不可能。
GPT-3 遠勝前輩
GPT-3比其小前輩GPT-2有相當大的進步,它還伴隨着了一些有趣的改變——OpenAI在放棄其非營利性身份,轉而以有限合夥企業的方式運營後,構建了新的機構身份。該模型最明顯的惡意用途就是生成垃圾郵件;目前該模型的輸出文本在許多方面仍有不足之處,但完全滿足"雖糟糕但可信"的要求。這足以帶來互聯網所渴求的大量點擊率,為有算法的新聞流保持熱度。這種能力很容易被扭曲來兜售錯誤信息而非正常產品。
由於推薦引擎中對利用目標函數的優化,我們已經看到人們在信念對立上的加劇,這還主要是巨魔來寫釣魚內容。在未來幾個月內,其他研究機構、國家機器或企業不可避免地會復現大規模的GPT-3。當這些GPT-3等效模型普及後,那些依賴算法新聞源的大型科技公司將真的不得不重新考慮他們提供和推廣內容的方式(NB請切回時序時間軸)。
另一方面,GPT-3似乎能夠在大多數時候做很多某些時候GPT-2只能貽笑大方的事情。這個用來訪問大規模和強泛化模型的API,引入了一種令人耳目一新的方式來調參——即通過文本輸入來代替直接微調權重直接進行精調。關注這種 "自然語言編程 "如何發展將會是不錯得消遣。
上面提到的許多演示似乎威脅了不少人的生計。不過在大多數情況下,GPT-3這種規模或更大的模型更多的是對完成任務的補充,而不會斷了人們謀生的路子。
GPT-2,到現在才一年多一點,參數就比GPT-3少100多倍。規模上的差異導致了一個模型在它能做什麼和如何使用上產生了質的不同。儘管OpenAI名望很高,但它還遠不是最大的AI研究機構,他們也不是唯一有資源訓練1750億參數語言模型的組織。即使以目前的硬件和模型訓練基礎架構來看,如果預算足夠,模型再擴大幾個數量級並非天方夜譚。這對接下來的幾個SOTA語言模型意味着什麼,其影響可能是什麼,仍然不可預見。
雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志願者的力量,分享最新的海外AI資訊,交流關於人工智能技術領域的行業變革與技術創新的見解。
團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。
雷鋒網雷鋒網