人工智慧迎來了一個里程碑!
倫敦當地時間10月18日,谷歌人工智慧團隊DeepMind公佈了阿法狗的升級版 ,代號AlphaGo Zero。
AlphaGo曾橫掃圍棋高手,韓國李世石、中國的柯潔等,人類的頂尖高手都是其手下敗將。但AlphaGo Zero對陣AlphaGo的比賽結果是:100 : 0,壓倒性優勢。
世界頂尖棋手的養成,至少需要十年的訓練、磨礪。但AlphaGo Zero創造了一個紀錄:3天。
它的所有練習,都靠和自己下棋來完成。一開始,只是隨便落子。就好像所有剛剛下圍棋的小朋友一樣左右互搏。不過,很快,Zero就自己發現了一些圍棋的成熟定式,從業餘選手轉化為專業棋手的下法。
三天的時間,AlphaGo Zero已經從零基礎者,變成打敗李世石的版本;40天后,它與打敗柯潔版本的AlphaGo的勝率,達到90%。毋庸置疑,Zero是人類歷史上,最強的圍棋選手了。
之前的那兩隻阿爾法狗,都是透過觀摩大量的人類棋手對弈棋譜,進行自我提升。而最新這隻阿爾法狗,它不是透過“學習”人類棋手的經驗提升自己,而是透過自我對弈數百萬次,並從中學習經驗,在這個過程中,AlphaGo Zero 成為自己的老師。
這種技術比上一版本的 AlphaGo 更強大,因為它不再受限於人類知識的侷限。相反,它可以從一張白紙的狀態開始,自學成為圍棋天才。
對此,圍棋世界冠軍柯潔回應稱:“一個純淨、純粹自我學習的alphago是最強的…對於alphago的自我進步來講…人類太多餘了。”
不再受人類知識限制,只用4個TPU
老版的“阿法狗”依靠的是多臺機器和48個TPU(谷歌專為加速深層神經網路運算能力而研發的晶片)。而AlphaGo Zero則非常“低碳”,只用到了一臺機器和4個TPU,極大地節省了資源。
AlphaGo Zero採用的是新強化學習技術,由於整個對弈過程沒有采用人類的資料,因此它的棋路獨特,不再拘泥於人類現有的圍棋理論。
美國的兩位棋手對AlphaGo Zero的棋局做了點評:它的開局和收官和專業棋手的下法並無區別,顯示人類幾千年的智慧結晶,看起來還是有價值的,但是中盤看起來則非常詭異。
這也就是說,人類不會那麼下圍棋,但AlphaGo Zero獨立發現了遊戲規則,並走出了新策略,為圍棋這項古老遊戲帶來了新的見解。計算機走出了自己的路。
所以,採用人類經驗的“阿法狗”,實際上可能被人類“誤導”。而AlphaGo Zero再次打破了人類經驗的神秘感,讓人腦中形成的經驗也是可以被探測和學習的。並且它已經可以給人類當圍棋老師,指導人類思考之前沒見過的走法。
人工智慧研究長期以來的目標是“創造出在沒有人類輸入的條件下,在最具挑戰性的領域實現超越人類能力的演算法。”AlphaGo Zero的成功讓這個目標提前實現,標誌著人類在人工智慧的研究上邁出了一大步。
那麼什麼是強化學習技術呢?簡單地說,強化學習就是讓AI從中學習到能夠獲得最大回報的策略。AlphaGo Zero的強化學習主要包含兩個部分,蒙特卡洛樹搜尋演算法與神經網路演算法。神經網路演算法負責落子,蒙特卡洛樹搜尋演算法負責最佳化,判斷下一步怎樣走勝算更好。所以,每走一步,AlphaGo Zero都在進步。
圍棋只是開始,AlphaGo Zero的未來不可限量
有科學家認為,AlphaGo Zero給了我們信心:人工智慧會成為人類智慧的增強器,幫助我們解決人類正在面臨的一些嚴峻挑戰 。
圍棋並不是AlphaGo的終極奧義,他們的目標始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。
由於AlphaGo Zero能夠從一無所知實現自學成才,其天賦可以在諸多現實問題上派上用場,DeepMind看到了利用人工智慧技術改變人類命運的突破可能。
AlphaGo Zero向人們展示了即使不用人類的資料,人工智慧也能夠取得進步。所以,大資料的重要性進一步被削弱。
因為深度學習需要大量資料,而資料的獲得成本高昂且難度十分大。在很多領域,人類資料,尤其是專家資料都不是太貴就是根本無法獲得。
但有了AlphaGo Zero這項技術後,資料問題的困擾將大大減輕,人類今後將有可能解決更大的挑戰,給人類生活帶來根本性的變化。
比如,將AlphaGo Zero技術應用到治療像老年痴呆症這樣重大的健康問題上的話,那麼在幾周內,就能找到治癒人類需要花費幾百年時間才能找到的療法。
DeepMind執行長Demis Hassabis透露,已運用這個技術解決實際生活中的許多問題。比如預測蛋白質分子的形狀,有望成為藥物發明的一大突破;還可以設計新材料和進行氣候建模。他們目前還正在積極與英國醫療機構和電力能源部門合作,提高看病效率和能源效率。
美國密歇根大學人工智慧實驗室主任Satinder Singh表示:AlphaGo Zero並非任何結束的開始,因為人工智慧和人甚至動物相比,所知所能依然極端有限。同時,在未來發展中,我們究竟應該如何看待人類經驗的作用;而機器經驗與人類經驗有很大差別,我們又該如何去選擇和利用,這些都是需要考慮的問題。