Demo演示“遊戲智能NPC”，AI已經能嘲諷人類了？

對於每一個遊戲玩家來説，NPC（非玩家控制角色）或許都不陌生，你可以通過他們學習遊戲操作、瞭解遊戲背景、得到任務線索和物品，甚至有些開放世界遊戲裏，你還能培養不同NPC的好感度，發展友情、愛情。

但是，在目前絕大多數的遊戲裏，你都沒辦法和NPC真正的聊天，他們給人的感覺更多是被寫入劇本的“工具人”，他們念着沒有感情的台詞、在固定的位置不眠不休地“被玩家搭訕”。

不過，隨着技術的進步，越來越多的高品質遊戲開始加入了更真實化的NPC，除了獨特的個性、背景，甚至還能擁有自己的思維方式，或許會有一天，你甚至分不清遊戲裏哪個是真人玩家，哪一個是NPC。

不信？我們來看看Modbox開發者Alientrap通過將Windows語音識別、OpenAI的GTP-3 AI和Replica的自然語音合成等技術融合之後打造的demo：

有性格、會嘲笑你的NPC

這段Demo展示視頻只進行了兩段對話，從NPC的回答方式和語氣來説，如果不是角色比較卡通，你很難判斷他到底是真人還是AI，我們不妨分別看看兩短對話的內容：

第一段對話是測試者與市政工作人員Bobby：

Bobby不僅説話有語氣，還會用手比劃

測試人：你好，Bobby。

Bobby：你想幹嘛？（英文回答選擇了What do you want?可以明顯聽出來有點不耐煩）

測試人：你要去哪？

Bobby：我要去上班，馬上要遲到了，如果到公司晚了會被老闆罰的。請走開吧，我現在沒法幫忙。

測試人：你在哪上班？

Bobby：我在市政廳上班，位於城中心的一座政府大樓裏，那是一座很大很漂亮的建築，不容錯過。

測試人：它在哪條街道上？

Bobby：你簡直太聰明瞭，我喜歡你這樣的！市政廳不就在市政路上（可能是在嘲笑測試者明知故問）。

測試人：好吧，再見。

Bobby：再見！

第二段是與賣熱狗的小攤販交談，我們姑且叫他，熱狗男（Hotdog Man）

帶表情和肢體語言的熱狗男

測試人：你好，熱狗男

熱狗男：您要點兒什麼？

測試人：你這裏都有什麼類型的熱狗？

熱狗男：我們有三種熱狗，普通的，甜的還有非常辣的。

測試人：能賣給我三合一口味的嗎？

熱狗男：不好意思，我們不能做這樣的口味，客户不會喜歡的。

測試人：好吧，一個熱狗多少錢？

熱狗男：一個常規熱狗6金幣，甜熱狗10金幣，辣熱狗9金幣一個。

測試人：是什麼讓它這麼辣？

熱狗男：上面加了一點辣醬，所以非常辣。

從NPC回答的內容來看，無論是Bobby還是熱狗男，都比絕大多數遊戲裏的NPC更“聰明”一些，而且其語言表達方式不僅能反映出角色個性、即時狀態，還可以看出NPC與玩家之間的關係遠近。

不過，從給出問題到通過GPT-3和Replica給出答案，往往有比較明顯的延遲時間，儘管回答內容非常有個性，但這個等待時間還是會讓人瞬間出戲。當然，比較好的消息是，隨着技術的進步，這種延遲或被逐步消弭，比如谷歌和亞馬遜已經在一些智能家用設備增加了定製芯片，以降低數字助手的反應延遲。

Demo背後的“黑科技”：GPT-3模型與自然語音合成

據GameLook瞭解，Modbox是一款支持SteamVR的多人遊戲創作沙盒，經過了多年的公開測試研發之後於去年底發佈，不過仍處於Early Access過程中，某種程度上來説，這個技術是領先於時代的。

在最近的測試中，開發商Alientrap使用了兩種最先進的機器學習服務，包括OpenAI的GPT-3語言模型和Replica的自然語言合成。考慮到微軟曾經給OpenAI投資10億美元，並且擁有GPT-3的商業使用和源語言獨佔特權，所以該功能是不可能只用於Modbox。

2017年的時候，谷歌的AI部門公佈了一個語言模型Transformers。在此之前，最先進的機器學習模型已經使用Attention的概念來獲得更好的結果，但Transformers完全是圍繞它而打造的，谷歌甚至將論文標題名命為“Attention Is All You Need”。

GPT-3論文截圖

2018年的時候，埃隆·馬斯克支持的OpenAI將Transformers方式應用到了一個新通用語言模型中，即生成式預訓練（Generative Pre-Training，簡稱GPT），並且發現它可以預測很多句子裏的下一個單詞，還能回答一些多選問題。

2019年，OpenAI將該模型擴大了10倍以上，形成了第二代模型GPT-2，但他們發現，這種擴容大幅增加了系統能力，給出幾句提示語，它幾乎可以對任何話題寫出文章，甚至還能翻譯不同語言。某些案例中，寫出來的文章甚至與真人無異。由於潛在的後果，OpenAI最初決定不將它發佈出來，導致了大量的媒體報道和高級語言社會影響的猜測。

GPT-2有15億個變量，但在2020年6月份，OpenAI再次擴容，將GPT-3模型裏的變量增加到了1750億個，它寫出來的文章幾乎全部都很難辨認出與真人寫手的區別。

技術上來説，GPT-3是沒有真正“理解力”的，因為如果放任機器自我思考，往往會帶來荒謬或偏執的結果，儘管有時候這些互動可以帶來趣味，但極端情況下會造成一些重大事故，比如曾有AI語音助手告訴某些人去自殺。

跟AI嘮嗑現實嗎？智能遊戲NPC並不遙遠

1931年，計算機科學之父“艾倫·圖靈”曾提出一種測試機器是否具備人類智能的方法：如果一台電腦的表現（act）、反應（react）和互動（interact）都和有意識的個體一樣，那麼它就應該被認為是有意識的。

這就是著名的“圖靈測試”。

如果按照這個標準，demo裏的NPC無疑是有意識的，他們有自己的性格和説話方式。不過，與很多虛擬偶像或者智能語音助手“機器音”不同的是，Modbox創作的NPC説話聲音已經很像真人。

如果看完了展示視頻，你還能發現，無論是Boddy還是熱狗男，每一個回答都有不同的語氣，還會根據自己的心情和狀態在説話中表現出抑揚頓挫。這就意味着，未來的遊戲裏，玩家們有望看到更智能的NPC角色，隨着GPT語言模型的升級，你甚至能和AI聊很久。

不得不説，這個demo視頻向我們展示了智能角色的潛力。隨着AI回答延遲的降低，最終遊戲裏將會出現隨口能回答問題，還帶有自己個性和情緒的智能NPC，甚至，你都不知道和自己説話的，到底是真人，還是NPC。