日產45億詞！“地表最強語言模型”GPT-3已落地300多個應用

2021-04-03 由鍾離綺琴發佈於科技

智東西（公眾號：zhidxcom）

編譯 | 屈望苗

編輯 | 江心白

智東西4月3日消息，據The Verge報道，OpenAI最近宣佈，其人工智能文本生成器GPT-3現已被數萬開發者用於300多個不同的應用程序，每天輸出45億詞之多。

報道稱，雖然GPT-3生成的大部分文本都很生澀，但如此大的輸出量也反映出，AI文本生成技術的規模、影響和商業潛力正在不斷增長。

一、約2000億個單詞的訓練，讓機器“開口説話”

GPT-3的全稱叫生成預訓練轉換器-3 （Generative Pretrained Transformer-3），這套強大的“大型語言模型”於2020年6月問世，訓練了大約2000億個單詞，估計花費了數千萬美元。

目前，文本生成是機器學習的一大趨勢。人工智能系統從互聯網上抓取大量的單詞進行學習，並根據各種提示生成文本。學習完成後，機器就可以實現一系列功能，比如創作小説、編寫潦草的代碼，以及讓用户對話歷史人物等。

二、眾多公司申請使用GPT-3通用API以構建服務

獲取GPT-3底層代碼是OpenAI的一項商業服務。GPT-3與微軟簽訂了獨家協議，允許微軟獨家訪問GPT-3程序的底層代碼。

不過，任何公司都可以申請使用GPT-3的通用API，並在此基礎上構建服務。目前已經有數百家公司這樣做了。

美國一家名為Viable的客户反饋分析公司採用了GPT-3，從調查、服務枱票、實時聊天記錄和評論中識別出“主題和情緒”；美國的AI虛擬形象公司Fable Studio使用這個程序實現了用户跟虛擬形象的對話；美國舊金山的人工智能搜索平台Algolia也在用它改進自己的網絡搜索產品，然後賣給其他客户。

三、難逃同質化、文本質量堪憂，應用仍存難點

GPT-3的大量使用對OpenAI以及微軟來説都是好消息，因為微軟Azure雲計算平台能夠為OpenAI提供更強大的技術支持，但並非所有創業公司都對此感興趣。

據分析人士觀點，如果不是真正擁有這項技術，那麼一家公司全靠GPT-3來構建業務是十分不明智的選擇。

主要原因在於，儘管使用GPT-3能讓公司和業務的創建更加簡單，但自己的競爭對手也同樣能這麼做。就算能通過品牌和用户界面讓公司業務打出差異化，技術背後所產生的大量收益還是歸OpenAI所有。

與此同時，GPT-3的智能文本輸出質量也存在令人擔憂的問題。和許多算法一樣，GPT-3也會吸收和放大有害的偏見，這有時會讓它犯下“愚蠢的錯誤”。例如，在使用GPT-3構建的醫療聊天機器人進行測試時，該模型曾鼓勵“有自殺傾向”的病人去自殺。

測試中，GPT-3鼓勵有自殺傾向的用户言論

去年9月4日，蒙特雷的米德爾伯裏國際研究所的兩名研究人員在airXiv平台上發佈了一篇論文，文章提到，GPT-3在生成激進文本方面遠遠超過上一個版本GPT-2。對此，OpenAI也在開發工具，幫助用户更好地控制GPT-3生成文本。

結語：機器對話來臨，還需摸索前進

OpenAI的“45億字”里程碑説明了，像GPT-3這樣的智能文本生成工具目前已經在大量生成機器對話，並且已經被開發者大量地採用。

但當前來看，實際應用中算法還是會造成錯誤、不公和偏見，過於依賴算法未必是好事。這類問題仍然值得關注，因為AI文本生成的機器對話還會繼續下去、甚至愈演愈烈。

或許在未來，我們會迎來一個充滿機器人生成對話的世界。

來源：The Verge