神經計算機AI模型大突破!訓練時間每秒120萬幀,創最新記錄
新智元報道
本週,IBM聲稱,其神經計算機系統達到了每秒120萬幀的訓練時間,創下了最新記錄。IBM在AI模型訓練上實現了大突破,可與最先進的技術相匹敵。網友對此表示簡直不敢相信!
在今年年初發表的一篇論文論文中,IBM詳細介紹了神經計算機。這是一種可重新配置的並行處理系統,旨在研究和開發新興的AI算法和計算神經科學。
就在本週,該公司在神經計算機上演示了第一個應用程序:一種深度的神經進化系統。該系統將Atari 2600的硬件實現,圖像預處理和AI算法結合在優化的流水線中。
實驗報告得出的結果可與最先進的技術相匹敵,但更重要的是,IBM聲稱該系統達到了每秒120萬幀的訓練時間,創下了最新記錄。
網友驚呼,「簡直不敢相信!」
神經計算機就像是在AI計算軍備競賽中發出的一個示警信號。
據OpenAI發佈的一項分析顯示,從2012年到2018年,最大規模的AI培訓運行中使用的計算量增長了300,000倍,是3.5個月的兩倍,遠遠超過了摩爾定律的步伐。
AlexNet到AlphaGo零:計算量增長了300,000倍
先來了解一下IBM 的神經計算機吧
IBM神經計算機
IBM的神經計算機由432個節點組成,這些節點是IBM長期戰略合作伙伴Xilinx的現場可編程門陣列。
IBM神經計算機每個模塊卡中有27個節點
每個節點均有一個Xilinx Zynq單片系統以及1GB專用RAM芯片。
節點以3D網格拓撲結構排列,並與電氣連接垂直互連。
在3D網格拓撲結構中可以看到節點數字
在聯網方面,FPGA提供模塊卡之間物理通信的訪問,以便建立多個不同的通信通道。
理論上講,單個卡可以支持高達每秒432GB的傳輸速度,而神經計算機的網絡接口可以自身調節並逐步優化, 使其匹配給定的程序。
在論文中詳細簡述了神經計算機框架的共同作者寫道,「我們系統的獨特之處在於每個節點允許特定應用的處理器卸載,這一功能在我們所知任何規模的並行計算機上均不可用。多數性能的關鍵步驟已在FPGA上卸載和優化,同時ARM處理器提供了輔助支持。」
既然對神經計算機有所瞭解,那麼IBM在神經計算機上的首次應用演示,系統是怎麼達到創紀錄的每秒120萬幀的訓練時間呢?
我們來一探究竟
用Atari遊戲測試AI
用電子遊戲來做測試,是AI和機器學習研究最好的平台。
它們不僅可以隨時拿來進行測試,而且大規模運行成本低。
比如在強化學習等特定領域中,為了獲取獎勵,AI通過與環境互動來學習最佳行為,遊戲分數便是最直接的獎勵。
遊戲中開發的AI算法已表現出出可適應更實際的用途,例如蛋白質摺疊預測研究。如果IBM神經計算機測試結果是重複的,則該系統可以用於加速這些AI算法的開發。
研究人員在神經計算機中每個卡使用了26個節點,對總共416個節點進行了實驗。
Atari遊戲應用程序的兩個實例都是在416個FPGA中每個節點上運行,最多可擴展到832個節點並行運行的實例。
每個實例都從給定的Atari 2600遊戲中提取幀,執行圖像預處理,通過機器學習模型運行圖像,並在遊戲中執行操作。
使用深度神經在FPGAs訓練遊戲的截圖
為了獲得最高的性能,研究團隊避免仿真Atari 2600,而是選擇使用FPGA在更高的頻率下實現控制枱的功能。
他們採用了開源MiSTer項目的框架,該項目旨在使用現代硬件重新創建控制枱和街機,並將Atari 2600的處理器時鐘頻率從3.58 MHz提高到150 MHz,每秒產生約2514幀。
在圖像預處理步驟中,IBM的應用程序將幀從彩色轉換為灰色,消除了閃爍,將圖像重新縮放為較小的分辨率,然後將幀堆疊為四組。
然後將它們傳遞到推理遊戲環境的AI模型和一個子模塊,該子模塊通過識別AI模型預測的最大獎勵來選擇下一幀的動作。
在五個實驗過程中,IBM研究人員在神經計算機上運行了59個Atari 2600遊戲。
結果表明,與其他強化學習技術相比,該方法的數據效率不高,總共需要60億個遊戲框架,但在Montezuma的Revenge and Pitfall等具有挑戰性、探索性的遊戲中失敗了。
在59個遊戲中有30場勝出,Deep Q-network花了10天進行訓練,而IBM團隊只用了6分鐘來訓練
在神經計算機上運行的59個Atari 2600遊戲有60億個訓練幀,在36場比賽中超過了Deep Q-network,而訓練時間減少了2個數量級。
參考鏈接:
https://venturebeat.com/2020/05/14/ibm-claims-its-neural-computer-achieves-record-ai-model-training-time/
https://arxiv.org/pdf/2003.11178.pdf
https://arxiv.org/pdf/2005.04536.pdf