楠木軒

1小時生成無限玩法,GPT-3加持的密室逃脱,讓遊戲策劃師感受到了職場危機

由 長孫秀芬 發佈於 科技

機器之心報道

編輯:蛋醬、魔王

1750 億參數的 GPT-3,也許要拿走遊戲從業者的飯碗了?

現在,你身處一款密室逃脱類遊戲,主題是銀行搶劫。

你的名字叫做「剛子」,你的同夥叫做「大力」。遊戲的目標是用手提包裝上保險箱和櫃枱的錢,儘快離開密室,而保險箱的密碼只有銀行櫃員茹茹知道。如果警鈴被觸發,你們將只剩下 1 分鐘的時間。

銀行裏有三個角色:茹茹、經理、顧客。遊戲開發團隊沒有提前準備任何關於人物或劇情的腳本,僅僅設定了場景、人物和物理規則。比如銀行櫃員茹茹,是第一天來上班,其實很不老練;比如顧客其實是個投機的人,雖然他也沒經歷過什麼激烈的大場面,但是他就是那種會想辦法佔一點便宜的人……

玩家可以使用 Enter 鍵輸入任意文字和 NPC 進行對話,可以使用鍵盤上的 W、A、S、D 鍵控制角色行動,可以使用鼠標滾輪切換道具,用「槍」威脅或者射擊 NPC,用「包」來裝錢等等,從而推動劇情朝着不同方向發展。

背景就交代這麼多,要回答的問題是:該遊戲可能有多少種劇情走向?

成功搶錢反被搶,痛下殺手奪錢回

大力提前逃跑,剛子孤立無援

茹茹監守自盜,偷拿櫃枱鈔票

顧客助紂為虐,合夥洗劫銀行

……

在 GPT-3 和來自 rct 的混沌球算法的加持下,同一款遊戲,也許會有一萬種可能。而這種「無限可能性」恰好是未來遊戲產品的核心競爭力。

下一代遊戲,該怎麼玩?

隨着數字娛樂產業的發展,以及娛樂產品的迭代,數字娛樂中現代交互內容的工程複雜度不斷提高。在 21 世紀的今天,玩家們早已不滿足於固定劇情、固定規則、固定對話的遊戲設置。

在 2019 年的 E3 遊戲展上,主要遊戲製造商推出的新一代數字娛樂交互內容已經貼上了「開放世界」和「開放故事線」的標籤,其中包括著名的《賽博朋克 2077》、《看門狗》、《死亡擱淺》、《控制》和《底特律:成為人類》。

然而,在傳統的技術和製作流程中,劇情、NPC 對話、動作觸發等內容都需要手工創建。對極致遊戲體驗的追求勢必會導致高昂的開發成本,每一個爆款的背後都是上千人的策劃團隊和鉅額的資金投入。在這個問題上,人工智能技術有着巨大的應用潛力。

rct studio 是一家新型交互娛樂體驗 AI 公司,成立於 2018 年,創始團隊在人工智能領域深耕多年。一直以來,rct studio 嘗試利用 AI 生成故事和敍事,而這背後的技術正是基於強化學習的混沌球算法(Chaos Box Algorithm)。

簡單來説,混沌球是⼀個基於深度強化學習的 AI 敍事引擎,被用來分析玩家的實時交互輸⼊,並動態地⽣成虛擬⻆⾊的交互反應與新的故事情節。在不需要任何腳本的情況下,它就能控制遊戲中虛擬⻆⾊的⾏為邏輯,並讓其⾃發地產⽣⾮常智能的⾏為。

本文開頭提到的遊戲場景,就是 rct studio 基於混沌球算法制作的遊戲原型「盜夢人」。

「歡迎來到盜夢人,你將以完全開放和沉浸的自由度進入遊戲世界。」

虛擬角色的行為會受到遊戲場景中其他角色的潛在影響。比如,當你開始傷害其他 NPC 的時候,同夥大力感到恐懼,甚至自己提前逃離了銀行大堂(也是個豬隊友)。

還比如,櫃員茹茹最初拒絕交出保險櫃密碼,但玩家做出傷害它的動作之後,它感受到了逐漸增加的危險性,並選擇了妥協。

在這些玩家所看到的人物表現背後,每一個虛擬角色都是由很多參數來決定的。如果對人物的性格和動機參數進行調整,還可以獲得完全不一樣的人設下的智能。

傳統制作流程 vs 混沌球製作流程

文本對話其實是角色交互中非常重要的一塊內容,為了讓「盜夢人」中的 NPC 能夠產生智能且動態的對話文本,rtc 團隊拿到了今年 6 月發佈的 OpenAI API 內測使用權,將其融合進了混沌球算法之中,讓 NPC 自發地產生幾乎無限的又非常生動有趣的自然語言對話。

GPT-3 生成對話。

GPT-3 是 OpenAI 發佈的自動補全工具第三代,它的突出特點是運行規模和自動完成任務的驚人能力。自從 2018 年第一代 GPT 出世以來,這個項目經歷了多年的發展,一直代表着 AI 文本生成方面的最新方向。

第一代 GPT 包含 1.17 億個參數。2019 年發佈的 GPT-2 包含 15 億個參數,而 GPT-3 擁有 1750 億個參數,它不僅能夠答題、翻譯、寫文章,還帶有一些數學計算的能力。

GPT-3 生成的新聞報道文本,與人類寫的文章難以區分開來。與此同時,GPT-3 已經接受過大量數字書籍資料的訓練,吸收了很多歷史人物的觀點與知識。人類可以像和哲學家聊天一樣,與 GPT-3 進行對話。

除了對話生成以外,機器學習社區也正在挖掘 GPT-3 的巨大應用潛力,比如基於文本描述生成代碼、基於問題的搜索引擎、圖像補全等功能。

目前,「盜夢人」遊戲已開放內測,申請地址:https://rct-studio.com/zh-hans/apply-for-a-trial

混沌球算法詳解

根據數字娛樂行業基於場景的內容創建方法,交互式體驗的整套流程可以切分為單個場景。每個場景需要輸入和設置,同時還需提供輸出結果。場景內的環境是封閉的,只對輸入和輸出開放、在整個過程中,它無法與外界交互。

下圖展示了傳統的敍事方法和基於混沌球的敍事方法:

從上圖中可以看出,混沌球算法與傳統的敍述方式大相徑庭:混沌球將「事件」替換成用入口(entrance)和出口(exit)定義的黑箱。簡單來講,在每個混沌球內,開端和結尾(可能有一或多個)都是確定的。然而,每一次玩家如何從開端到達結尾是混亂的,路徑也並不清晰。該路徑由玩家在虛擬世界裏與 NPC 持續互動來決定。NPC 對玩家的動作給予動態實時響應,推動基於深度強化學習模型的故事線推進。這也是「混沌球算法」的名稱由來。

因此,真正交互敍事的關鍵在於將敍事核心從故事轉移到故事中所有的參與者。那麼,參與者的邏輯將驅動並連接出不同的故事版本。

遊戲角色(包括玩家和 NPC)和環境中的交互對象都在場景內。玩家和 NPC 具備不同的個性、狀態和動作集合。對象具備物理設置(包括方向、大小、形狀、顏色等)、狀態和支持動作。遊戲角色的狀態和設置後,會影響可行的動作集合。因此,在具備輸入、設置和關閉條件的情況下,你可以使用模擬環境和深度強化學習模型,來探索該封閉場景內每個角色的行為策略,並利用合理一致的策略學習決策模型。同時,在特定場景中探索得到的策略還可以拆分和集成,並在後續場景中重用和進化。

因此,整個架構的核心就是場景設定,即「混沌球結構」。混沌球是特定遊戲場景中的最小邏輯單元,它定義了場景內所有角色的動作和邏輯。

定義完混沌球中參與實體的屬性後,將其置入模擬引擎並執行重複模擬和演繹。通過對應用規則進行約束脩剪(constraint pruning),得到大量模擬過程數據,供學習模塊學習。學習過程使用獎勵函數作為直接反饋。隨着模擬數據的增長,訓練策略模型不斷改進。策略模型還對模擬過程提供反饋,以提高訓練速度。

模擬引擎的工作流程圖如下所示:

目前,強化學習在數字娛樂領域的應用主要是在智能體的開發上,它使得我們不需要標記的樣本就能讓智能體自主地在虛擬世界中進行探索與學習。比如,DeepMind 用 DQN 玩 Atari 遊戲,用 AlphaGo 打敗圍棋高手。

而在以劇情或以故事體驗為主的數字娛樂場景下,目前還沒有較為成熟和高效的強化學習框架和解決方案。

這類數字娛樂內容裏的智能體往往更加的多樣和獨立,且最重要的是,每個智能體的目標不像競技性場景下那樣明確和易於定義,因此又被稱之為 “多智能體多目標” 的環境。

當玩家在虛擬世界中做出行動或説話時,每個 NPC 都會擁有自己獨立的 AI 模型,它們將根據自己的決策模型做出反應,在有限的場景中提供動態和近乎無限的選擇。

同時,AI 驅動的角色將與玩家一起協同產生更加複雜的故事情節,玩家也將不再侷限於 NPC 之間的固定對話和 “僵硬” 的互動,從而獲取無限且獨特的娛樂體驗。

rct studio:讓故事擁有無限可能

rct studio 由 RavenTech(YC 2015,於 2017 年被百度收購)的核心成員創立,匯聚了來自人工智能、設計和商業化等各領域的人才,至今已從 Y Combinator、星瀚資本和 Makers Fund 獲得了總共千萬美元的融資。

在 rct studio 的官方網站上,赫然寫着這樣一行字:「生活有無數種可能性。我們相信,我們譜寫的故事也擁有無限可能。」

參考鏈接:

《西部世界》走進現實,1 小時生成無限劇情,下一個遊戲核心玩法已悄然誕生

https://rct-studio.com/blog/the-key-technology-behind-morpheus-engine

如何根據任務需求搭配恰當類型的數據庫?

在AWS推出的白皮書《進入專用數據庫時代》中,介紹了8種數據庫類型:關係、鍵值、文檔、內存中、關係圖、時間序列、分類賬、領域寬列,並逐一分析了每種類型的優勢、挑戰與主要使用案例。