[TechWeb]萊斯大學的研究人員展示了設計創新的以資料為中心的計算硬體的方法,以及將硬體與機器學習演算法共同設計的方法,這兩種演算法可以將能源效率提高兩個數量級。
機器學習是自動駕駛汽車和許多其他高科技應用背後的人工智慧形式,它的進步開創了一個新的計算時代——以資料為中心的時代,並迫使工程師們重新思考75年來幾乎沒有受到挑戰的計算體系結構的各個方面。
電氣與計算機工程助理教授林英彥(音)說:“問題是,對於目前機器學習最先進的大規模深層神經網路來說,整個系統執行所需的90%以上的電力消耗在儲存器和處理器之間的資料移動上。”。
Lin和合作者提出了兩種互補的方法來最佳化以資料為中心的處理,這兩種方法都在6月3日的國際計算機體系結構研討會(ISCA)上進行了介紹,這是有關計算機體系結構新思想和研究的主要會議之一。
資料中心架構的驅動力與一個稱為馮路諾依曼瓶頸(von Neumann瓶頸)的問題有關,這是一個效率低下的問題,源於計算架構中的記憶體和處理分離,自1945年數學家約翰路馮路諾依曼發明資料中心架構以來,這一問題一直佔據著至高無上的地位。透過將記憶體與程式和資料分離,von Neumann架構允許一臺計算機具有難以置信的多功能性;根據從記憶體中載入的儲存程式,計算機可以用來進行視訊通話、準備電子表格或模擬火星上的天氣。
但是將記憶體與處理分開也意味著即使簡單的操作(如加2加2)也需要計算機處理器多次訪問記憶體。深度神經網路中的大量操作使這種記憶瓶頸變得更糟,深度神經網路是透過“研究”大量先前示例來學習做出人性化決策的系統。網路越大,它可以完成的任務就越困難,並且顯示的網路示例越多,它的執行效果就越好。深度神經網路訓練可能需要專門的處理器庫,這些處理器需要全天候執行一週以上。基於智慧網路在智慧手機上執行任務可以在不到一個小時的時間內耗盡電池電量。
賴斯高效智慧計算(EIC)實驗室主任林說:“人們普遍認為,對於機器學習時代的以資料為中心的演算法,我們需要創新的以資料為中心的硬體架構,但機器學習的最佳硬體架構是什麼?“
她說:“沒有一個答案是萬能的,因為不同的應用程式需要的機器學習演算法在演算法結構和複雜度方面可能有很大的不同,同時具有不同的任務精度和資源消耗,如能源成本、延遲和吞吐量折衷要求。許多研究人員正在進行這方面的研究,英特爾、IBM和谷歌等大公司都有自己的設計。”
在ISCA 2020上,Lin的小組做了一個報告,提供了及時的結果,這是她和她的學生為“記憶體處理”(PIM)開發的一個創新架構,是一種將處理引入記憶體陣列的非von Neumann方法。一個有前途的PIM平臺是“電阻隨機存取儲存器”(ReRAM),一種類似flash的非易失性儲存器。儘管已經提出了其他的ReRAM-PIM加速器架構,但林說,在10多個深度神經網路模型上執行的實驗發現,適時的ReRAM-PIM加速器的能效提高了18倍,其計算密度是最具競爭力的最先進ReRAM-PIM加速器的30倍以上。
TIMELY是“時域、記憶體執行、區域性性”的縮寫,它透過消除頻繁訪問主記憶體以處理中間輸入和輸出以及本地記憶體和主記憶體之間的介面而導致效率低下的主要因素來實現其效能。
在主儲存器中,資料以數字方式儲存,但是當將其帶入本地儲存器以進行記憶體中處理時,必須將其轉換為模擬量。在以前的ReRAM PIM加速器中,結果值從模擬轉換為數字,然後傳送回主儲存器。如果將它們從主儲存器呼叫到本地ReRAM以進行後續操作,則它們將再次轉換為模擬訊號,依此類推。
透過使用本地儲存器中的模擬格式緩衝區,及時避免了不必要的訪問主儲存器和介面資料轉換的開銷。這樣,TIMELY幾乎可以將所需的資料保留在本地儲存陣列中,從而大大提高了效率。
該小組在ISCA 2020上提出的第二個建議是SmartExchange,該設計結合了演算法和加速器硬體創新以節省能源。
“訪問主儲存器(DRAM)的能量要比執行計算多花費200倍,因此SmartExchange的關鍵思想是強制執行演算法中的結構,使我們可以將成本較高的記憶體換成成本更低的記憶體,成本計算。”
她舉例說:“例如,我們的演算法有1000個引數。在傳統方法中,我們將所有1,000個儲存在DRAM中,並根據計算需要進行訪問。使用SmartExchange,我們搜尋以找到這1,000箇中的某些結構。然後,我們只需要儲存10個,因為如果我們知道它們之間的關係, 10和其餘的990,我們可以計算990中的任何一個,而不必從DRAM呼叫它們“。
她說:“我們將這10個稱為‘基礎’子集,其想法是將它們儲存在靠近處理器的本地位置,以避免或大幅度減少為訪問DRAM而支付的費用”。
研究人員使用SmartExchange演算法及其自定義的硬體加速器對七個基準深度神經網路模型和三個基準資料集進行了實驗。他們發現,與最先進的深度神經網路加速器相比,該組合將等待時間減少了多達19倍。[TechWeb]