Habana在英偉達牢固的AI訓練城牆上打開了一道口

在利潤豐厚的雲端AI芯片市場，英特爾和英偉達憑藉CPU和GPU分別佔領着雲端AI推理和訓練市場超九成的份額。即便如此，想要進入雲端芯片市場的挑戰者不少，但取得重大突破的挑戰者寥寥無幾，以色列公司Habana Labs算是其中一個。

近期舉行的AWS re:Invent 2020（亞馬遜 re:Invent 2020）大會上，AWS宣佈採用最多8個Habana Gaudi加速器的EC2實例，性價比相較目前基於GPU的EC2實例提升高達40%，計劃2021年上半年提供使用。

Habana Labs在英偉達牢固的雲端AI訓練市場取得的突破能否進一步擴大？AI雲端芯片市場真的只會是英特爾的英偉達佔絕對主導嗎？

用40%性價比提升突破英偉達的GPU訓練城牆

之所以説Habana Labs在英偉達AI訓練芯片的牢固城牆上打開了一道口有兩個原因，一是在AI訓練芯片市場，英偉達GPU佔有絕對的主導地位，像亞馬遜這樣的科技巨頭除了自研芯片，很少採用其它訓練芯片，這是一個標誌性的突破。

另外，Gaudi加速器此次是在TensorFlow上訓練ResNet-50模型展現出了更高的性價比，是單點突破，而非全面的優勢。

根據AWS內部的測試，Habana Labs的EC2實例比目前GPU在機器學習性價比上提升了40%。8卡的Gaudi解決方案可以在TensorFlow上每秒處理12000張圖像訓練ResNet-50模型。

雷鋒網瞭解到，當下眾多數據中心使用的Tesla V100 GPU，8卡訓練TensorFlow ResNet-50的速度是7600張/秒。今年5月發佈的最新英偉達A100 GPU 8卡則可以達到1.7萬張/秒的速度。

可以看到，相比上一代V100 GPU，Gaudi有顯著優勢，但比最新A100 GPU性能還是有一定差距。功耗方面，根據英偉達官方的數據，NVLink接口的A100 GPU最大功耗為400W，PCIe接口的A100最大功耗為250W。

Habana Labs中國區總經理於明揚告訴雷鋒網，16納米制程的Gaudi功耗在260W-300W之間，功耗比A100 GPU略有一點優勢。Habana Labs在現有製程和功耗上的表現，説明整個架構相對A100 GPU沒有任何劣勢，應該還有一定的優勢。

在工藝製程提升越來越難的當下，通過架構創新實現性能的提升更顯重要，特別是在模型參數越來越大的雲端訓練領域。於明揚説：“我們芯片架構設計有兩個重要的考量點，一個是考慮芯片本身利用數據方面的需求，再一個是通過並行化解決數據需求。”

他進一步表示，單一芯片架構變化不會那麼快，通過並行化對整個訓練系統性能的提升會更加高效、實用。業界也認識到片間互聯以及系統間互聯對整個訓練系統性能的影響，因此在互聯上花費更多精力去設計更加高效的訓練系統應對未來更大規模的模型。

Habana Gaudi的做法是每個處理器集成32GB的HBM2內存，並集成用於服務器內部處理器互聯的RoCE功能，可以使用多個基於Gaudi的系統實現高效和可擴展的分佈式訓練。

但想要打動已經使用英偉達GPU訓練AI的公司，性價比只是一方面。

“現在客户接受新產品會同時考慮性價比和軟件生態。性價比要達到主流平台的兩倍以上，客户才有動力去嘗試一個新平台。”於明揚説：“軟件方面需要客户可以很方便和快捷的將現有模型移植到新的平台，並且只有很少的性能和精度損失。”

這就需要有一個比較好的軟件生態，既提供完整的工具鏈，軟件也有很高的靈活度，最好能幫助客户實現無縫遷移。於明揚表示，“AWS選擇Habana也是這兩個考慮，一個是Habana目前在訓練上性價比是唯一能挑戰英偉達的產品，另一個是軟件的易用性也被AWS接受。”

據悉，與Gaudi匹配的Habana SynapseAI軟件套件與TensorFlow和Pythorch等流行的深度學習框架集成，並對Gaudi進行了優化。開發人員將可以獲取開放的Gaudi軟件、參考模型和文檔。

接下來，Habana Labs能否進一步打開雲端訓練市場，英特爾非常關鍵。

英特爾在AI訓練市場雙重出擊

2020年1月，英特爾宣佈以20億美元的價格收購Habana。

談及為何選擇英特爾，於明揚解釋，“考慮到保持企業的屬性不變持續提供產品和服務，減少客户的擔憂，我們更傾向於選擇一箇中立的公司。英特爾對Habana而言是最理想的，一個是因為英特爾有足夠的客户羣，可以給我們很多支持。另一個是能夠給我們帶來更加穩定的技術資源和資金支持，增加客户對我們的信任。”

Habana被英特爾收購之後獨立運營，團隊規模擴大了3倍，向Data Platform Group（數據中心事業部）彙報，在銷售和市場方面與英特爾有非常緊密的合作。

雷鋒網瞭解到，AWS在明年一月份開放Gaudi資源申請之後，大概需要經過半年的時間才會給出明確的結論，之後才能看到Gaudi是否可以有比較大的量的突破。另外，Habana在國內已經與頭部和二線互聯網公司建立了廣泛的合作，它們基本已經開始試用Habana產品，有的客户已經開始批量採購。

Habana能否進一步打開雲端訓練市場，產品的持續迭代，以及與英特爾的融合都是關鍵因素。

根據Habana的説法，其下一代雲端訓練AI芯片Gaudi2將基於台積電7nm工藝，在Gaudi效能的基礎上進一步提升。同樣明確的是，Habana會把訓練和推理的產品分開。

“推理對性價比的關注度更高，數據可以一次性加載到芯片的片內內存中效率更高。但訓練需要反覆加載數據，需要更大的片內和片外內存，還要提供高帶寬和低延遲，要將兩種特性結合是比較大的挑戰。我們會針對不同的場景提供更適合的產品，給客户更好體驗。”於明揚解釋。

這些產品都會融入英特爾的體系，於明揚透露：Gaudi計劃在明年加入oneAPI體系。

oneAPI是為了應對異構硬件帶來的軟件編程複雜性挑戰，英特爾提出的統一軟件平台，不僅將其CPU、GPU、FPGA、ASIC納入到這一體系，還希望通過DCP++支持第三方芯片。

基於統一的軟件平台，英特爾還能使用最新的Xe架構GPU角逐雲端訓練芯片市場。Xe架構的GPU是英特爾22年後再次推出高性能獨立GPU，分為Xe LP（低功耗）、Xe HP（高性能）、Xe HPC微架構，面向不同市場。

今年11月，英特爾發佈了首款數據中心GPU，基於Xe-LP架構，專為高密度、低時延的安卓雲遊戲和流媒體服務而設計。

英特爾GPU加Habana AI加速器能夠拿下多少雲端訓練市場的份額還有待觀察，但這同時也引出了一個新的問題，雲端AI芯片市場還有機會嗎？

雲端AI芯片市場還有機會嗎？

“無論是AI的訓練還是推理，CPU都扮演着重要角色，因為很多預處理AI加速卡和GPU不能處理，需要CPU與GPU/AI加速器的協同。比如推薦系統裏，數據查表和分類CPU就非常擅長。”於明揚説。

“整個AI中，CPU、GPU以及像Habana這樣的ASIC扮演着不同的角色，英特爾的優勢在於無論任何環節，英特爾都有合適的產品和解決方案。”

看到XPU（CPU、GPU、FPGA、ASIC）價值的顯然不止英特爾。

今年9月，英偉達宣佈將以400 億美元收購 Arm，Arm是創立於英國的IP公司，其Cortex CPU IP被廣泛應用，如今正積極進軍高性能計算市場，在TOP500榜單中已收穫不錯的成績。如果收購成功，Arm的CPU組合英偉達的GPU將幫助英偉達進一步提升在高性能和AI市場的競爭力。

如此看來，英特爾和英偉達不僅有性能強勁的硬件產品，還有強大的軟件和生態。除了科技巨頭自研的雲端AI芯片，其他想要進入雲端AI芯片市場的公司還有機會嗎？對於這個問題我們有理由保持積極的態度。

英特爾亞洲人工智能銷售技術總監伊紅衞説：“2019年英特爾全球人工智能收入已經達到38億美元了，AI是一個跨部門、跨產品的生意。在我看來，AI仍處於早期階段，還有很長的路可以走，現在還是大浪淘沙的時候，我深信英特爾會成為弄潮兒。”

英特爾和英偉達在雲端AI芯片市場將如何競爭？AMD收購賽靈思會帶來怎樣的變數？