IT之家12月24日訊息 谷歌的 DeepMind 人工智慧目前已經進化到第四代,名為 MuZero。最新的版本可以無需學習棋類等遊戲規則便能掌握遊戲。該技術能夠應用於機器人技術、工業系統以及混亂的現實世界。
早在 2016 年,AlphaGo 先後擊敗圍棋世界冠軍李世石、柯潔,這僅僅是 DeepMind 人工智慧的初代版本,需要事先輸入大量人類對弈資料、規則資料進行訓練,然後才可以進行實戰。AlphaGo 是首個能夠利用神經網路、樹狀搜尋完全掌握圍棋的人工智慧。
此後於 2017 年推出的第二代 AlphaGo Zero,能夠不借助人類對弈資料,僅僅事先輸入規則便可自行訓練,最終掌握圍棋。
谷歌第三代的人工智慧 AlphaZero,不僅可以自主學會圍棋,也僅僅依靠事先了解規則,掌握了國際象棋、日本將棋。
根據谷歌發表在《自然》雜誌的文章顯示,第四代人工智慧 MuZero 可以在未知規則的情況下學會上述四種棋類,規劃制勝策略。此外,還能夠掌握掌機遊戲 Atari。
DeepMind 公司表示,多年來研究人員一直在尋找一種方法,既可以學習建立用於解釋目前環境的模型,也能夠利用這個模型來進行最好的決策。直到今天,大多數方法都難以在 Atari 這種遊戲中進行有效規劃。
MuZero 首先在 2019 年推出,透過只關注環境中最重要的一個方面,來學習建立一個模型,並解決問題。透過將這種方法與 AlphaZero 強大的搜尋樹技術相結合,MuZero 的能力實現了重大飛躍。此外,MuZero 還利用了前瞻搜尋、基於模型的規劃來解決問題。具體來說,MuZero 對環境中至關重要的三個問題來計劃:
價值:現在所處的位置有多好?
策略:哪一種行動是最好的?
獎勵:最後一步的動作結果有多好?
IT之家瞭解到,Atari 公司於 1976 年在美國推出了 Atari 2600 遊戲機,這是史上第一部真正意義上的家用遊戲主機,其整個生命週期持續到 1992 年,共售出三千萬臺。