智東西(公眾號:zhidxcom)
文 | 信儀
智東西10月26日報道,在最近公佈的全球“最嚴格”AI基準測試MLPerf成績榜單中,浪潮憑藉自研的AI服務器NF5488A5打破了18項推理性能紀錄,成為打破紀錄最多的AI服務器,成功問鼎AI“機王”。 在焦點賽道ResNet50基準性能測試中,NF5488A5以54.9萬/秒的推理性能問鼎,相比2019年榜單服務器全球最好成績性能提升高達3倍。
浪潮NF5488A5創造18項MLPerf推理性能紀錄
此前,MLPerf訓練榜單于今年7月公佈,NF5488A5僅用時33.37分鐘就完成了ResNet50模型基於ImageNet 數據集的訓練任務,單機性能高居榜首。自此,浪潮AI服務器NF5488A5在今年的MLPerf基準測試中取得了訓練、推理雙料冠軍。
浪潮技術負責人對智東西説:“NF5488A5如此高倍的性能的提升要取決於硬件和軟件兩個層面。而對於技術的整體升級來説,如果想要把硬件性能完全發揮出來,不是説單顆芯片好就夠了,這對於整個服務器來説是一個系統優化的工程。”
浪潮AI服務器NF5488A5
被視為全球最權威的AI軟硬件基準測試MLPerf到底是一個怎樣的存在?浪潮在MLPerf中擠進“破紀錄冠軍”行列有何意義?浪潮又是如何從Intel、NVIDIA、DELLEMC等大佬雲集的參賽隊伍中脱穎而出的?
浪潮是如何“突出重圍”在MLPerf中問鼎AI“機王”的?智東西與此次浪潮參與MLPerf項目的技術負責人進行了深入對話,解構出浪潮AI服務器飛速“成長”背後的故事。
一、打破18項推理性能紀錄, 新一代AI服務器成最大焦點在“扒開結果看過程”之前,我們首先需要知道:MLPerf是什麼?MLPerf的冠軍,到底厲害在哪?
MLPerf官網首頁
當前,AI的應用日益複雜化、多樣化,一方面,AI芯片、系統廠商紛紛給出不同的標準,以證實其產品在計算性能、單位能耗力等方面處於行業領先水平;同時,用户更關心的則是如何能從廠商給出的信息中判斷出AI算力是否能實際滿足其真實場景的需求。
因此,2018年5月全球AI基準測試組織MLPerf推出了MLPerf基準測試。MLPerf基準測試是業內首套衡量機器學習軟硬件性能的通用基準,即測試深層神經網絡在不同量級的設備(物聯網、智能手機、PC、服務器)、各種應用(自動駕駛、NLP、計算機)上的計算性能。
MLPerf由圖靈獎得主大衞·帕特森(David Patterson)於2018年聯合企業及高校成立。MLPerf基準聯盟現有 50 多家成員,包括谷歌、微軟、Facebook、阿里巴巴、浪潮等企業,以及斯坦福、哈佛等高校。本次參賽團隊共計 23 家,包含 Intel、NVIDIA、DELLEMC、Lenovo、QCT(廣達)、Fujitsu、Gigabyte(技嘉)等。目前業內最具權威性的AI基準測試非MLPerf莫屬。
MLPerf基準測試分為封閉模型分區(Closed Model Division)和開放模型分區(Open ModelDivision):
封閉模型:要求使用相同模型和優化器,並限制超參數的值等,衡量的是同一深度學習模型及對應的訓練/推理過程在不同軟硬件上的性能,考察的是軟硬件系統優化的能力。
開放模型:放開了對深度學習模型及精度的約束,只限制使用相同的數據解決相同的問題,模型或平台都不會限制,側重於深度學習模型及算法優化的能力,旨在推進ML模型和優化的創新。
今年的MLPerf基準測試包括四大場景類別,分別針對:數據中心、邊緣端、移動端和notebook端。其中,浪潮最新自研AI服務器NF5488A5打破了18項紀錄,成為榜單中打破紀錄最多的AI服務器。
原始測試成績表格
各服務器廠商的數據對比圖表(藍色為浪潮NF5488A5數據)
在數據中心場景下的16項基準測試性能指標中:對於封閉模型測試任務分區,浪潮打破了11項整機性能紀錄,NVIDIA打破4項紀錄(2項與浪潮並列)、QCT打破3項紀錄;開放模型分區的6項測試中,浪潮打破2項紀錄,NVIDIA打破1項紀錄。
在邊緣端基準測試中:對弈封閉模型測試分區,NVIDIA打破14項紀錄,浪潮打破3項紀錄;開放模型分區的4項測試中,浪潮打破2項紀錄,DELL打破1項紀錄。
浪潮NF5488A5在數據中心和邊緣端場景基準測試打破性能紀錄次數
在此次基準測試中,浪潮AI服務器NF5488A5在開放優化(Open)和固定任務(Closed)的ResNet50基準性能測試中,均表現優異。在焦點賽道ResNet50基準性能測試中,NF5488A5表現出了54.9萬/秒的推理性能,相比2019年MLPerf推理榜單的全球最好成績性能提升高達3倍。
MLPerf ResNet50推理性能2019 VS 2020對比
在短短一年的時間內,如此高倍的性能提升令人驚歎,而更讓人為之稱奇的是,NF5488A5已經量產,並非僅作為高端產品參與測試。
1年時間,18項紀錄,3倍性能提升,這些數字不止支撐着浪潮新一代AI服務器在MLPerf中問鼎AI“機王”,也代表着浪潮AI服務器在技術積累上的充足底氣。
二、是單個軟硬件的性能PK,也是整機系統優化的性能考驗NF5488A5是浪潮在MLPerf中大展光彩的“功臣”。NF5488A5單機訓練性能可達5 PetaOPS,相比浪潮上一代服務器計算性能提升234%。
在最新公佈的 MLPerf推理測試榜單中,浪潮NF5488A5問鼎 AI 推理基準測試 18項紀錄,全面覆蓋圖像分類、目標檢測、自然語言理解、智能推薦等場景。其中在ResNet50模型推理任務處理達到每秒處理54.9萬多張圖片的推理性能;Bert 自然語言理解推理任務達 26675 條/秒;DLRM 智能推薦每秒推理處理能力達 210 萬條。
在7月 MLPerf公佈的訓練測試榜單中,NF5488A5僅用時33.37分鐘,就在包含 128 萬張圖片的 ImageNet數據集上完成ResNet50模型的訓練,相當於每秒訓練 23000多張圖片,單機計算性能高居第一,可謂是最快人工智能訓練服務器。
NF5488A5是此次MLPerf全球競賽中唯一可以在4U空間內支持8塊安培架構A100芯片實現NVLink高速互聯的AI服務器。
浪潮NF5488A5在系統拓撲上採用了超低延遲設計,支持PCIe 4.0全鏈路極致優化,高頻通信單元採用一級拓撲最近連接,最大限度提升處理器到AI芯片間的通信性能。
同時,通過配置NUMA節點,確保每顆處理器與其直連的GPU之間通信性能最優,最大限度降低通信延遲。此外,NF5488A5通過深度優化系統結構設計,確保設備可在高環温下穩定運行。
在用户體驗方面,用户會在穩定性和性能兩方面體會到浪潮最新一代AI服務器的不同。即使在35攝氏度的環温下,NF5488A5也能穩定高性能的運行。NF5488A5是一款通用服務器,可以支持各類流行的AI應用場景,如計算機視覺、語音識別、智能客服等。
三、系統優化是核心競爭力早在今年4月,浪潮首席科學家王恩東提出了“智算中心”的概念,並表明圍繞智算中心打造AI算力生產、聚合、調度、釋放的四大關鍵作業模式。
浪潮首席科學家王恩東提出“智算中心”
浪潮技術負責人對智東西説:“如果要想把硬件性能完全發揮出來,僅考慮芯片的性能是不夠的,需要考慮服務器系統優化。以A100 GPU為例,將8塊A100 GPU都放在一個服務器中,如果不解決它的散熱問題,GPU可能運行幾分鐘頻率就降下來了,應用性能就會很糟糕。此外,GPU之間、CPU與GPU之間的互聯、內存等都會對深度學習的推理和訓練性能有比較大的影響。浪潮目前在服務器整機的設計優化能力是業界領先的。”
從2012年浪潮初步佈局AI服務器,到2017年4月浪潮成立AI&HPC產品部並正式邁入AI產業,再到今年浪潮的AI服務器創造了全球最快性能紀錄,8年的時間,這其中的每一個腳印都印刻着浪潮在硬件、軟件及整機上的技術積累。
結語:AI服務器落地兩步走浪潮NF5488A5 AI服務器一舉打破 18 項 MLperf 推理性能紀錄,展示出我國自主服務器頭部玩家在AI這條路上越走越寬、越走越穩。
在浪潮看來,AI算力的多元化支持將會是AI服務器發展的一個主要趨勢。AI產業目前正處於落地階段,首先要將AI算法賦能到用户的實際業務場景中,隨後通過軟硬件協同優化持續提升用户的AI應用性能。
從浪潮在 MLperf 中的表現來看,浪潮已在產業AI化中佔據了有利位置,我們也期待浪潮與其他玩家一起加速推進產業AI化進程。