智東西(公眾號:zhidxcom)
文 | 董温淑
智東西7月28日消息,今天,英國AI芯片創企Graphcore的高級副總裁兼中國區總經理盧濤、Graphcore技術應用總負責人羅旭與智東西等媒體分享Graphcore產品的性能及Graphcore在中國的市場策略。
Graphcore成立於2016年,經過4年潛心研究,專為AI任務打造的第一代IPU(智能處理單元)於2019年落地。本月中旬,Graphcore發佈其第二代IPU產品。盧濤稱,在運行圖像分類訓練任務時,8個基於IPU的刀片機性能相當於16個NVIDIA DGX A100 GPU,且價格更為低廉。
盧濤稱,中國市場作為AI芯片發展的一個重要市場,也是Graphcore佈局的重點。Graphcore將通過尋求雲合作伙伴、OEM合作伙伴、渠道合作伙伴佈局中國市場。
據悉,今年7月份以來,Graphcore接連推出多款軟硬件產品,致力於在計算、數據、通信三方面實現顛覆性技術突破。
回顧Graphcore 7月份在中國市場的動作。7月7日,軟件開發工具Graphcore Poplar SDK 1.2發佈、Graphcore Poplar計算圖庫源代碼正式開源;7月8日,Graphcore推出基於IPU的開發者雲;7月15日,專為AI任務設計的第二代IPU、機器智能刀片式計算單元IPU-M2000面世。
一、IPU MK2:比MK1系統性能提升8倍以上Graphcore推出的IPU(智能處理單元)是一種專為AI訓練、推理任務設計的新型處理器,採用大規模並行同構眾核架構,盧濤將其描述為“世界上最複雜的處理器”。
Graphcore第一代IPU MK1於2019年推出,據稱相比NVIDIA V100 GPU,能將自然語言處理(NLP)處理速度可提升20%~50%,為圖像分類帶來6倍的吞吐量而且是更低的時延,在一些金融模型方面訓練速度能夠提高26倍以上。
第二代IPU MK2採用台積電7nm製程技術,在823平方毫米的面積上集成594億個晶體管,算力可達250TFlops,具有900MB處理器內存儲,採用1472個獨立處理器內核、8832個單獨的並行線程。
相比第一代IPU MK1,IPU MK2系統性能提升了8倍以上。相比MK1,MK2達到2倍以上的吞吐量峯值、6倍以上的處理器內有效存儲,具有超過446GB的IPU-Machine流存儲,支持用於大規模橫向擴展的IPU-Fabric橫向擴展結構。
在數據傳輸方面,Graphcore IPU採用的Exchange-Memory通信技術相比NVIDIA採用的HBM技術,帶寬提升100多倍,容量提升大於10倍。
據悉,NVIDIA HBM技術的帶寬為1.6TB/秒,IPU-Exchange-Memory技術帶寬為180TB/秒;NVIDIA HBM技術的容量為40GByte,IPU-Exchange-Memory技術容量為450GByte。
為了優化通信效果,Grapgcore採用專為AI設計的橫向擴展結構IPU-Fabric。該結構能達到2.8Tbps的超低時延,支持64000個IPU之間的橫向擴展,可直接連接和/或通過以太網交換機連接,支持集合和全縮減操作。
盧濤稱,在運行AI任務時,數據稀疏性越高,IPU的優勢越明顯。隨着數據稀疏性升高,IPU性能可領先GPU 10倍~50倍。
二、8個IPU-Machine M2000性能比肩16個NVIDIA A100Graphcore IPU-Machine M2000是一款即插即用的機器智能刀片式計算單元,由Graphcore全新的7納米Colossus第二代GC200 IPU提供動力,由Poplar軟件棧提供支持。
IPU-Machine M2000可提供1個PetaFlop的機器智能計算、450GB的Exchange-Memory,具備2.8Tbps的IPU-Fabric超低時延通信。
另外,M2000的配置具備“彈性”,從配置1個M2000到配置64個M2000均可。
基於IPU-Machine M2000,Graphcore推出用於超大計算規模的模塊化機架規模解決方案IPU-POD。IPU-POD基於IPU-POD64參考架構,每個機架最多部署兩個IPU-POD64,最多可部署512個機架。
IPU-POD可無縫擴展多達64000個IPU,這些IPU作為一個整體或作為獨立的細分分區,可以處理多個工作負載以及滿足不同用户需求。
IPU-POD64參考架構可進行大規模、分散的橫向擴展,從而將高性能的機器智能計算擴展到超級計算規模。
根據Graphcore官方數據,M2000性能優於NVIDIA A100 GPU。
用8個NVIDIA A100 GPU與8個Graphcore M2000進行比較,結果顯示M2000解決方案的FP32算力超過A100解決方案12倍、AI計算算力超過A100解決方案3倍、AI存儲能力大於A100解決方案10倍。
在運行EfficientNet-B4圖像分類訓練任務時,8個IPU-M2000可達到與16個NVIDIA DGX A100相同的運行效果。
價格方面,8個IPU-M2000建議售價為259600美元,16個NVIDIA DGX A100售價超過三百萬美元。
三、IPU開發者雲:支持5種先進AI模型訓練、推理任務7月8日,Graphcore推出中國首款基於IPU的開發者雲。Graphcore IPU開發者雲部署在金山雲上,使用了IPU-POD64、浪潮IPU服務器NF5568M5和戴爾IPU服務器DSS8440。
IPU開發者雲支持一些當前最先進和複雜的AI模型的訓練和推理。具體包括:
1、自然語言處理類,比如BERT;2、高級計算機視覺應用類,即以分組卷積為代表的一些機器視覺類的應用,比如ResNeXt、EfficientNet、ResNet;3、時序分析類,比如LSTM、RNN、GRU等大量應用於語音應用、廣告推薦、金融算法的模型;4、排名與推薦類,比如Deep Autoencoder;5、概率模型,比如MCMC等用於算法交易的模型。
目前,Graphcore IPU開發者雲面向商業用户評測、高校研究項目、部分個人開發者提供免費試用。
四、Poplar SDK:已開源計算圖庫源代碼底層硬件形態之上,Graphcore還推出了軟件開發包The Poplar SDK 1.2。
The Poplar SDK 1.2與領先的機器學習框架集成,具有強大靈活的低級別API,增強了用於IPU上的PyTorch和Keras框架支持,具備新的庫支持和功能,可用於改善機器學習模型的性能,支持用TensorFlow和PopART中的多機數據進行並行訓練,公開Exchange-Memory的管理功能。
目前,Graphcore Poplar計算圖庫源代碼已經開源,並可在GitHub上使用。羅旭稱,Poplar工具將助力各位開發者“創建下一代機器智能”。
結語:Graphcore發力全球市場,將開設東京辦公室經過前期的潛心研發,Graphcore的IPU產品已迭代至第二代。與GPU不同,Graphcore研發的IPU是專為AI任務設計的處理器,在運行特定AI任務時性能優於傳統的GPU。
盧濤指出,目前Graphcore還未實現盈利,但對於一個新產品來説,前期的大量投入是不可避免的。他認為隨着AI訓練、推理的發展,IPU將擁有更大的市場。
在產品更新迭代的同時,Graphcore開始在全球市場佈局。目前,Graphcore在全球擁有13個分支機構,下一步計劃在日本東京開設辦公室。