英國AI芯片創企發力中國訓練/推理賽道，7月新品覆蓋“雲邊端”

智東西（公眾號：zhidxcom）

文 | 董温淑

智東西7月28日消息，今天，英國AI芯片創企Graphcore的高級副總裁兼中國區總經理盧濤、Graphcore技術應用總負責人羅旭與智東西等媒體分享Graphcore產品的性能及Graphcore在中國的市場策略。

Graphcore成立於2016年，經過4年潛心研究，專為AI任務打造的第一代IPU（智能處理單元）於2019年落地。本月中旬，Graphcore發佈其第二代IPU產品。盧濤稱，在運行圖像分類訓練任務時，8個基於IPU的刀片機性能相當於16個NVIDIA DGX A100 GPU，且價格更為低廉。

盧濤稱，中國市場作為AI芯片發展的一個重要市場，也是Graphcore佈局的重點。Graphcore將通過尋求雲合作伙伴、OEM合作伙伴、渠道合作伙伴佈局中國市場。

據悉，今年7月份以來，Graphcore接連推出多款軟硬件產品，致力於在計算、數據、通信三方面實現顛覆性技術突破。

回顧Graphcore 7月份在中國市場的動作。7月7日，軟件開發工具Graphcore Poplar SDK 1.2發佈、Graphcore Poplar計算圖庫源代碼正式開源；7月8日，Graphcore推出基於IPU的開發者雲；7月15日，專為AI任務設計的第二代IPU、機器智能刀片式計算單元IPU-M2000面世。

一、IPU MK2：比MK1系統性能提升8倍以上

Graphcore推出的IPU（智能處理單元）是一種專為AI訓練、推理任務設計的新型處理器，採用大規模並行同構眾核架構，盧濤將其描述為“世界上最複雜的處理器”。

Graphcore第一代IPU MK1於2019年推出，據稱相比NVIDIA V100 GPU，能將自然語言處理（NLP）處理速度可提升20%～50%，為圖像分類帶來6倍的吞吐量而且是更低的時延，在一些金融模型方面訓練速度能夠提高26倍以上。

第二代IPU MK2採用台積電7nm製程技術，在823平方毫米的面積上集成594億個晶體管，算力可達250TFlops，具有900MB處理器內存儲，採用1472個獨立處理器內核、8832個單獨的並行線程。

相比第一代IPU MK1，IPU MK2系統性能提升了8倍以上。相比MK1，MK2達到2倍以上的吞吐量峯值、6倍以上的處理器內有效存儲，具有超過446GB的IPU-Machine流存儲，支持用於大規模橫向擴展的IPU-Fabric橫向擴展結構。

在數據傳輸方面，Graphcore IPU採用的Exchange-Memory通信技術相比NVIDIA採用的HBM技術，帶寬提升100多倍，容量提升大於10倍。

據悉，NVIDIA HBM技術的帶寬為1.6TB/秒，IPU-Exchange-Memory技術帶寬為180TB/秒；NVIDIA HBM技術的容量為40GByte，IPU-Exchange-Memory技術容量為450GByte。

為了優化通信效果，Grapgcore採用專為AI設計的橫向擴展結構IPU-Fabric。該結構能達到2.8Tbps的超低時延，支持64000個IPU之間的橫向擴展，可直接連接和/或通過以太網交換機連接，支持集合和全縮減操作。

盧濤稱，在運行AI任務時，數據稀疏性越高，IPU的優勢越明顯。隨着數據稀疏性升高，IPU性能可領先GPU 10倍～50倍。

二、8個IPU-Machine M2000性能比肩16個NVIDIA A100

Graphcore IPU-Machine M2000是一款即插即用的機器智能刀片式計算單元，由Graphcore全新的7納米Colossus第二代GC200 IPU提供動力，由Poplar軟件棧提供支持。

IPU-Machine M2000可提供1個PetaFlop的機器智能計算、450GB的Exchange-Memory，具備2.8Tbps的IPU-Fabric超低時延通信。

另外，M2000的配置具備“彈性”，從配置1個M2000到配置64個M2000均可。

基於IPU-Machine M2000，Graphcore推出用於超大計算規模的模塊化機架規模解決方案IPU-POD_。IPU-POD基於IPU-POD₆₄參考架構，每個機架最多部署兩個IPU-POD₆₄，最多可部署512個機架。

IPU-POD可無縫擴展多達64000個IPU，這些IPU作為一個整體或作為獨立的細分分區，可以處理多個工作負載以及滿足不同用户需求。

IPU-POD₆₄參考架構可進行大規模、分散的橫向擴展，從而將高性能的機器智能計算擴展到超級計算規模。

根據Graphcore官方數據，M2000性能優於NVIDIA A100 GPU。

用8個NVIDIA A100 GPU與8個Graphcore M2000進行比較，結果顯示M2000解決方案的FP32算力超過A100解決方案12倍、AI計算算力超過A100解決方案3倍、AI存儲能力大於A100解決方案10倍。

在運行EfficientNet-B4圖像分類訓練任務時，8個IPU-M2000可達到與16個NVIDIA DGX A100相同的運行效果。

價格方面，8個IPU-M2000建議售價為259600美元，16個NVIDIA DGX A100售價超過三百萬美元。

三、IPU開發者雲：支持5種先進AI模型訓練、推理任務

7月8日，Graphcore推出中國首款基於IPU的開發者雲。Graphcore IPU開發者雲部署在金山雲上，使用了IPU-POD₆₄、浪潮IPU服務器NF5568M5和戴爾IPU服務器DSS8440。

IPU開發者雲支持一些當前最先進和複雜的AI模型的訓練和推理。具體包括：

1、自然語言處理類，比如BERT；2、高級計算機視覺應用類，即以分組卷積為代表的一些機器視覺類的應用，比如ResNeXt、EfficientNet、ResNet；3、時序分析類，比如LSTM、RNN、GRU等大量應用於語音應用、廣告推薦、金融算法的模型；4、排名與推薦類，比如Deep Autoencoder；5、概率模型，比如MCMC等用於算法交易的模型。

目前，Graphcore IPU開發者雲面向商業用户評測、高校研究項目、部分個人開發者提供免費試用。

四、Poplar SDK：已開源計算圖庫源代碼

底層硬件形態之上，Graphcore還推出了軟件開發包The Poplar SDK 1.2。

The Poplar SDK 1.2與領先的機器學習框架集成，具有強大靈活的低級別API，增強了用於IPU上的PyTorch和Keras框架支持，具備新的庫支持和功能，可用於改善機器學習模型的性能，支持用TensorFlow和PopART中的多機數據進行並行訓練，公開Exchange-Memory的管理功能。

目前，Graphcore Poplar計算圖庫源代碼已經開源，並可在GitHub上使用。羅旭稱，Poplar工具將助力各位開發者“創建下一代機器智能”。

結語：Graphcore發力全球市場，將開設東京辦公室

經過前期的潛心研發，Graphcore的IPU產品已迭代至第二代。與GPU不同，Graphcore研發的IPU是專為AI任務設計的處理器，在運行特定AI任務時性能優於傳統的GPU。

盧濤指出，目前Graphcore還未實現盈利，但對於一個新產品來説，前期的大量投入是不可避免的。他認為隨着AI訓練、推理的發展，IPU將擁有更大的市場。

在產品更新迭代的同時，Graphcore開始在全球市場佈局。目前，Graphcore在全球擁有13個分支機構，下一步計劃在日本東京開設辦公室。