在圍棋上,AlphaGo Zero已經到達了人類從未涉足的知識疆域,人工智能進入無師自通的新時代
《財經》記者賀濤/文 王小/編輯
世界上最強大的圍棋程序誕生了。對,又是AlphaGo乾的。
這款名叫AlphaGo Zero的新程序,在沒有任何人類數據輸入的情況下,經過短短三天的圍棋自學,就以100比0的戰績打敗了它的“前任”——在2016年擊敗世界冠軍李世石的那款。
在自我訓練40天后,AlphaGo Zero變得更為強大,超越了AlphaGo的前一版本“大師”,“大師”曾折服了圍棋世界排名第一的柯潔。這是人工智能(AI)領域的一大步。北京時間10月19日凌晨1點,Nature雜誌發表了這篇研究論文。
算法的升級
以往所有版本的AlphaGo,都是從利用人類棋手的數據培訓開始。其特點是基於上百萬種專業棋手的下棋步驟,通過“監督式學習”來掌握圍棋。就像培養孩子一樣,通過人類高手數據的“喂招”,加之不斷地反饋,讓AlphaGo成長。
此外,也使用了基於自我對弈的增強學習。就是不給AlphaGo任何指導,只是告訴它圍棋輸贏的規則,讓它自己下棋,並根據輸贏的結果總結最優策略。
AlphaGo的創造者、谷歌旗下的DeepMind公司沒有止步於此,而是要探索一種能從零開始、以超人的水平學習複雜概念的算法。於是,AlphaGo Zero誕生了。
AlphaGo Zero的學習從零開始,且單純基於與自己的對弈,無需任何人類示例或干預。它僅用到一張神經網絡,這張網絡經過訓練,專門預測程序自身的棋步和棋局的贏家,在每次自我對弈中進步。
當年首款AlphaGo的訓練過程長達幾個月,用到多台機器和48個TPU(神經網絡訓練所需的專業芯片)。而AlphaGo Zero只使用了一台機器和4個TPU,對計算能力的要求降低了一個數量級,而棋力水準反而得到躍升。這表明,算法比所謂的計算能力或數據可用性更重要。
延伸出新的知識邊疆
AlphaGo Zero還帶來了更大的彩蛋。
“它總結出一些人類目前尚未發現的東西,形成一些極具創意的新知識。”AlphaGo項目的主要負責人戴維·席爾瓦(David Silver)説。AlphaGo不僅在短時間內重新發現了人類經過上千年總結出來的所有圍棋知識,如先在角落裏落子,它還獨創了自己的下法,有些下法甚至是人類從未觸及的。
中國科學院計算技術研究所研究員張雲泉對《財經》記者分析,人類棋手為了降低計算需求和追求棋形之美,通過定式等手段對圍棋下法進行了大量的簡化和限制,從而錯失了很多有效的下法,AlphaGo Zero代替人類探索了圍棋世界的巨大的空間。
這正是AlphaGo Zero驚人的地方。隨着知識和數據的爆炸,人類已經沒有能力學習和掌握所有的新知識並進行創造,而AlphaGo卻做到了。作為人類的新知識的助手,去探索發現和總結目前人類能力無法到達的新的知識空間。
“它可以延伸人類探索發現新知識邊疆的能力!”張雲泉説。這預示着機器學習將正式進入無師自通時代,一個新時代已經到來。
需要明晰的是,這並不代表有了AlphaGo Zero,人類經驗就沒用了,人工智能已經超過人類智力。
中國科學院自動化研究所複雜系統管理與控制國家重點實驗室主任王飛躍認為,在所有“規則界定得非常清楚,而且規則中包含了所有信息”的任務中,機器或程序都應超過人類。正如汽車會跑得比人快,飛機會飛得比人高。圍棋屬於這個範疇。
問題是,人工智能在應用中面臨的更多挑戰是那些規則不清,或者清楚但不包含所有信息的事情。在軍事國防、社會經濟,特別是日常生活中,大多數應用場景都屬於此類,即使人為界定出來的規則可以簡化複雜性,但無法確定所有信息。比如,交通規則無法杜絕交通擁堵和事故的發生。也就是説,在目前大多數應用場景下,人工智能還無法超越人類智力。
成功要複製
DeepMind公司的使命感很強,他們希望首先解決人工智能問題,然後用人工智能去解決一切其他問題。
顯然,研發出AlphaGo Zero不會讓它僅坐在圍棋王座上。
最讓戴維·席爾瓦驚喜的,也是它在現實世界裏的應用前景。AlphaGo Zero在圍棋這個複雜、高挑戰的領域能夠達到極高水平,意味着可以將它從圍棋領域移植到其他領域,建立一種普遍算法,來着手解決對人類來説最棘手、影響最大的難題了。
“最終,我們希望將這種算法上的突破,用於幫助解決現實世界各種的緊迫問題,如蛋白質摺疊、設計新材料。如果我們能在這些問題上做出同樣的進步,AlphaGo就有潛力推動人類的知識,並對我們的生活產生積極的影響。”DeepMind聯合創始人兼首席執行官戴密斯·哈薩比斯(Demis Hassabis)説。
以下為網友評論:
網友“長在星星灣”:整一台智能AI,來分析所有能找到的重大案件案例,分析優缺點,彌補漏洞,壞人將更可怕……
網友“haha”:聽説你圍棋很厲害?來,我們來玩飛行棋