下一代 AlphaGo，裸考也能拿滿分

如果説 AlphaGo 確立了 AI 的「圍棋霸權」，那懂得自己思考的 MuZero，可能會在更多領域確立「霸權」。

Google 母公司 Alphabet 旗下的 DeepMind，在這一個月裏大動作頻出。

先是在月初推出了蛋白質結構預測 AI——AlphaFold 2，這個 AI 在 CASP 競賽中拔得頭籌，解決了困擾了學界 50 年的難題：生物學家 Andrei Lupas 本人花了十年時間，用盡各種實驗方法也沒能弄清楚一種蛋白質摺疊後的形狀，但藉助 AlphaFold 2 後，他在半個小時內就得到了答案。

接着，在月底，DeepMind 在《自然》雜誌上發佈論文介紹「進階版 AlphaGo」——MuZero。簡單來説，MuZero 更「通用」了，它精通國際象棋、圍棋、將棋，還能在數十款 Atari 遊戲上全面超越過去的 AI 算法和人類。但更具革命意義的是，MuZero 不像它的前輩們，它在下棋和遊戲前完全不知道遊戲規則，完全是通過自己的試驗和摸索，洞悉棋局和遊戲的規則，形成自己的決策。換句話説，AI 會自己「動腦子」了。

MuZero 就像是 Netflix 熱劇《女王的棋局》裏的貝絲·哈蒙，在完全不知國際象棋規則的情況下，憑藉幾次觀察就把棋盤「畫」在自己的心裏，並通過不斷覆盤棋局強化自己的直覺，最終所向披靡。

不知道規則，怎麼贏棋？

2016 年，AlphaGo 橫空出世，以 4:1 擊敗韓國頂級棋手李世乭，並在 2017 年的烏鎮圍棋峯會上擊敗了世界第一棋手柯潔。中國圍棋協會甚至當即授予 AlphaGo 職業圍棋九段的稱號。

AlphaGo 依賴的還是 DeepMind 輸入的專家棋法數據集，然後它的繼任者 AlphaGo Zero 開始擺脱對「人類數據」的依賴，開始通過多次自我對弈積累所需數據。2018 年底問世的 AlphaZero 更是在前兩者的基礎上迭代，除了圍棋，它還學會了將棋和國際象棋。讓人歎為觀止的是，從第一次見到棋盤，到成為世界級棋類大師，AlphaZero 只用了 24 小時。

「但你不能像下棋一樣，只顧着往前看。你必須學習這個世界如何運作。」DeepMind 的首席研究科學家 David Silver 告訴《連線》，按照這個思路，他們決定不提前告訴 AI 該怎麼贏了，「這是我們第一次打造這種系統」。

上面提到的「Alpha」家族，最早需要「人類數據」、「領域知識」和「遊戲規則」，至少也還需依賴「遊戲規則」。而剛面世的 MuZero 則沒有這些知識儲備，就像是下棋被蒙着眼，玩遊戲揹着手。

「Alpha」家族至少也還需依賴「遊戲規則」，而剛面世的 MuZero 則沒有任何知識儲備｜DeepMind

既然 MuZero 連怎麼贏棋都不知道，那它又是如何學習世界運作原理的呢？先以 AlphaZero 為例，由於它已經知曉棋局的規則，所以它知道一個動作後的下一個棋步是什麼樣的，運用深度學習中的「蒙特卡洛樹搜索」（MCTS）就能評估不同的下棋可能性，並從中選出最優的動作。在這個過程中，AlphaZero 只需要利用「預測網絡」這一神經網絡。

而 MuZero 不知道現有的規則，那麼只能從零開始構建一個內部模型，形成自己對棋局的理解。

首先，MuZero 會利用「表徵網絡」將自己觀察到的棋步收集起來，轉化為專屬於自己的知識；

接着，利用「預測網絡」形成策略（即最好的「下一步」是什麼），判斷價值（即當前決策「有多好」）；

最後，藉助「動態網絡」判斷「上一步有多好」，回收此前做出的最佳棋步，不斷完善自己的內部模型。

也就是説，MuZero 並沒有具體的「行事準則」，它就像是一個小孩，在有了一定思考能力的基礎上，正在不斷完善自己的行事準則。在此之前，「AlphaGo」雖能輕鬆擊敗人類，但也只限於圍棋等專精領域，卻無法「觸類旁通」，每遇到新的遊戲都需要更改框架，重新學習。而掌握了「思考方式」的 MuZero 顯然能做得更多了，也就是，更通用了。

「知道雨傘能讓人不被淋濕，比能對雨滴建模更有用。」DeepMind 用這句話表示，對 AI 來説，它們會的本領看起來越笨，越有實際意義。

在遊戲方面，以研究 AI 打撲克出名的 FAIR 研究科學家 Noam Brown 這樣評價 MuZero：「當前人們對遊戲 AI 的主要批評是模型不能對現實世界中相互作用進行準確建模。MuZero 優雅而令人信服地克服了這個問題（適用於完美信息遊戲）。我認為，這是可以與 AlphaGo 和 AlphaZero 相提並論的重大突破！」

這個會思考的 AI，能做什麼？

DeepMind 研究表示，MuZero 在不具備任何底層動態知識的情況下，通過結合 MCTS 和學得模型，在各種棋類種的精確規劃任務中可以匹敵 AlphaZero，甚至超過了提前得知規則的圍棋版 AlphaZero。

在實驗中，只要為 MuZero 延長每次行為的時間，它的表現就會變得更好。隨着將每次行動的時間從十分之一秒增加到 50 秒，MuZero 的能力會增加 1000 Elo（衡量玩家的相對技能），這基本相當於熟練的業餘玩家和最強的職業玩家之間的區別。

開始自我思考的 MuZero 就像人一樣。現實世界混沌、複雜，人們也沒有具體的行事手冊，只能摸着石頭過河，慢慢形成自己的規劃能力，進而制定下一步該怎麼做的策略。

那麼，MuZero 能做什麼？

《連線》記者提到了在生化界做了件「大實事」的蛋白質結構預測 AI，接着問起了 MuZero 的實用價值。David Silver 表示，MuZero 已經投入實際使用，用於尋找一種新的視頻編碼方式，從而完成視頻壓縮。考慮到大量不同的視頻格式和眾多的壓縮模式，能節省 5% 的比特已經是極具挑戰的任務。「互聯網上的數據大部分是視頻，那麼如果可以更有效地壓縮視頻，則可以節省大量資金。」由於 Google 擁有世界上最大的視頻共享平台 YouTube，因此他們很可能將 MuZero 其應用到該平台上。

David Silver 對它的造物有足夠的自信｜WIRED

David Silver 想得更遠，「一個真正強大的系統，它能看到所有你看到的東西，它有和你一樣的感官，它能夠幫助你實現目標。另外一個變革性的，從長遠來看，（MuZero 的『強化學習』思路）是可以提供個性化的醫療解決方案的東西。有一些隱私和倫理問題必須解決，但它會有巨大的價值，它會改變醫學的面貌和人們的生活質量。」

目前，「Alpha 家族」這種規劃算法也已經在物流、化學合成等諸多現實世界領域中產生影響。然而，這些規劃算法都依賴於環境的動態變化，如遊戲規則或精確的模擬器，導致它們在機器人學、工業控制、智能助理等領域中的應用受到限制。

而不再「循規蹈矩」的 MuZero，先摸索規則、建立內部模型再精通的思路，顯然具有更強的可塑性。會自己思考的 AI，離通用 AI 會更近一些。

「我不想給它設定一個時間尺度，但我想説，人類能實現的一切，我最終認為機器都能實現。大腦完成的只是一個計算過程，我不認為那裏有什麼神奇的東西。」David Silver 對它的造物有足夠的自信。

如果説 AlphaGo 確立了 AI 的「圍棋霸權」，那懂得自己思考的 MuZero，可能會在更多領域確立「霸權」。

題圖：Netflix

責編：於本一

本文首發於極客之選，轉載請聯繫極客君微信 geekparker。