征服全球最嚴AI測試，性能飆升三倍！浪潮AI服務器如何做到？

智東西（公眾號：zhidxcom）

文 | 信儀

智東西10月26日報道，在最近公佈的全球“最嚴格”AI基準測試MLPerf成績榜單中，浪潮憑藉自研的AI服務器NF5488A5打破了18項推理性能紀錄，成為打破紀錄最多的AI服務器，成功問鼎AI“機王”。在焦點賽道ResNet50基準性能測試中，NF5488A5以54.9萬/秒的推理性能問鼎，相比2019年榜單服務器全球最好成績性能提升高達3倍。

浪潮NF5488A5創造18項MLPerf推理性能紀錄

此前，MLPerf訓練榜單于今年7月公佈，NF5488A5僅用時33.37分鐘就完成了ResNet50模型基於ImageNet 數據集的訓練任務，單機性能高居榜首。自此，浪潮AI服務器NF5488A5在今年的MLPerf基準測試中取得了訓練、推理雙料冠軍。

浪潮技術負責人對智東西説：“NF5488A5如此高倍的性能的提升要取決於硬件和軟件兩個層面。而對於技術的整體升級來説，如果想要把硬件性能完全發揮出來，不是説單顆芯片好就夠了，這對於整個服務器來説是一個系統優化的工程。”

浪潮AI服務器NF5488A5

被視為全球最權威的AI軟硬件基準測試MLPerf到底是一個怎樣的存在？浪潮在MLPerf中擠進“破紀錄冠軍”行列有何意義？浪潮又是如何從Intel、NVIDIA、DELLEMC等大佬雲集的參賽隊伍中脱穎而出的？

浪潮是如何“突出重圍”在MLPerf中問鼎AI“機王”的？智東西與此次浪潮參與MLPerf項目的技術負責人進行了深入對話，解構出浪潮AI服務器飛速“成長”背後的故事。

一、打破18項推理性能紀錄，新一代AI服務器成最大焦點

在“扒開結果看過程”之前，我們首先需要知道：MLPerf是什麼？MLPerf的冠軍，到底厲害在哪？

MLPerf官網首頁

當前，AI的應用日益複雜化、多樣化，一方面，AI芯片、系統廠商紛紛給出不同的標準，以證實其產品在計算性能、單位能耗力等方面處於行業領先水平；同時，用户更關心的則是如何能從廠商給出的信息中判斷出AI算力是否能實際滿足其真實場景的需求。

因此，2018年5月全球AI基準測試組織MLPerf推出了MLPerf基準測試。MLPerf基準測試是業內首套衡量機器學習軟硬件性能的通用基準，即測試深層神經網絡在不同量級的設備（物聯網、智能手機、PC、服務器）、各種應用（自動駕駛、NLP、計算機）上的計算性能。

MLPerf由圖靈獎得主大衞·帕特森（David Patterson）於2018年聯合企業及高校成立。MLPerf基準聯盟現有 50 多家成員，包括谷歌、微軟、Facebook、阿里巴巴、浪潮等企業，以及斯坦福、哈佛等高校。本次參賽團隊共計 23 家，包含 Intel、NVIDIA、DELLEMC、Lenovo、QCT（廣達）、Fujitsu、Gigabyte（技嘉）等。目前業內最具權威性的AI基準測試非MLPerf莫屬。

MLPerf基準測試分為封閉模型分區（Closed Model Division）和開放模型分區（Open ModelDivision）：

封閉模型：要求使用相同模型和優化器，並限制超參數的值等，衡量的是同一深度學習模型及對應的訓練/推理過程在不同軟硬件上的性能,考察的是軟硬件系統優化的能力。

開放模型：放開了對深度學習模型及精度的約束，只限制使用相同的數據解決相同的問題，模型或平台都不會限制，側重於深度學習模型及算法優化的能力，旨在推進ML模型和優化的創新。

今年的MLPerf基準測試包括四大場景類別，分別針對：數據中心、邊緣端、移動端和notebook端。其中，浪潮最新自研AI服務器NF5488A5打破了18項紀錄，成為榜單中打破紀錄最多的AI服務器。

原始測試成績表格

各服務器廠商的數據對比圖表（藍色為浪潮NF5488A5數據）

在數據中心場景下的16項基準測試性能指標中：對於封閉模型測試任務分區，浪潮打破了11項整機性能紀錄，NVIDIA打破4項紀錄（2項與浪潮並列）、QCT打破3項紀錄；開放模型分區的6項測試中，浪潮打破2項紀錄，NVIDIA打破1項紀錄。

在邊緣端基準測試中：對弈封閉模型測試分區，NVIDIA打破14項紀錄，浪潮打破3項紀錄；開放模型分區的4項測試中，浪潮打破2項紀錄，DELL打破1項紀錄。

浪潮NF5488A5在數據中心和邊緣端場景基準測試打破性能紀錄次數

在此次基準測試中，浪潮AI服務器NF5488A5在開放優化(Open)和固定任務(Closed)的ResNet50基準性能測試中，均表現優異。在焦點賽道ResNet50基準性能測試中，NF5488A5表現出了54.9萬/秒的推理性能，相比2019年MLPerf推理榜單的全球最好成績性能提升高達3倍。

MLPerf ResNet50推理性能2019 VS 2020對比

在短短一年的時間內，如此高倍的性能提升令人驚歎，而更讓人為之稱奇的是，NF5488A5已經量產，並非僅作為高端產品參與測試。

1年時間，18項紀錄，3倍性能提升，這些數字不止支撐着浪潮新一代AI服務器在MLPerf中問鼎AI“機王”，也代表着浪潮AI服務器在技術積累上的充足底氣。

二、是單個軟硬件的性能PK，也是整機系統優化的性能考驗

NF5488A5是浪潮在MLPerf中大展光彩的“功臣”。NF5488A5單機訓練性能可達5 PetaOPS，相比浪潮上一代服務器計算性能提升234%。

在最新公佈的 MLPerf推理測試榜單中，浪潮NF5488A5問鼎 AI 推理基準測試 18項紀錄，全面覆蓋圖像分類、目標檢測、自然語言理解、智能推薦等場景。其中在ResNet50模型推理任務處理達到每秒處理54.9萬多張圖片的推理性能；Bert 自然語言理解推理任務達 26675 條/秒；DLRM 智能推薦每秒推理處理能力達 210 萬條。

在7月 MLPerf公佈的訓練測試榜單中，NF5488A5僅用時33.37分鐘，就在包含 128 萬張圖片的 ImageNet數據集上完成ResNet50模型的訓練，相當於每秒訓練 23000多張圖片，單機計算性能高居第一，可謂是最快人工智能訓練服務器。

NF5488A5是此次MLPerf全球競賽中唯一可以在4U空間內支持8塊安培架構A100芯片實現NVLink高速互聯的AI服務器。

浪潮NF5488A5在系統拓撲上採用了超低延遲設計，支持PCIe 4.0全鏈路極致優化，高頻通信單元採用一級拓撲最近連接，最大限度提升處理器到AI芯片間的通信性能。

同時，通過配置NUMA節點，確保每顆處理器與其直連的GPU之間通信性能最優，最大限度降低通信延遲。此外，NF5488A5通過深度優化系統結構設計，確保設備可在高環温下穩定運行。

在用户體驗方面，用户會在穩定性和性能兩方面體會到浪潮最新一代AI服務器的不同。即使在35攝氏度的環温下，NF5488A5也能穩定高性能的運行。NF5488A5是一款通用服務器，可以支持各類流行的AI應用場景，如計算機視覺、語音識別、智能客服等。

三、系統優化是核心競爭力

早在今年4月，浪潮首席科學家王恩東提出了“智算中心”的概念，並表明圍繞智算中心打造AI算力生產、聚合、調度、釋放的四大關鍵作業模式。

浪潮首席科學家王恩東提出“智算中心”

浪潮技術負責人對智東西説：“如果要想把硬件性能完全發揮出來，僅考慮芯片的性能是不夠的，需要考慮服務器系統優化。以A100 GPU為例，將8塊A100 GPU都放在一個服務器中，如果不解決它的散熱問題，GPU可能運行幾分鐘頻率就降下來了，應用性能就會很糟糕。此外，GPU之間、CPU與GPU之間的互聯、內存等都會對深度學習的推理和訓練性能有比較大的影響。浪潮目前在服務器整機的設計優化能力是業界領先的。”

從2012年浪潮初步佈局AI服務器，到2017年4月浪潮成立AI&HPC產品部並正式邁入AI產業，再到今年浪潮的AI服務器創造了全球最快性能紀錄，8年的時間，這其中的每一個腳印都印刻着浪潮在硬件、軟件及整機上的技術積累。

結語：AI服務器落地兩步走

浪潮NF5488A5 AI服務器一舉打破 18 項 MLperf 推理性能紀錄，展示出我國自主服務器頭部玩家在AI這條路上越走越寬、越走越穩。

在浪潮看來，AI算力的多元化支持將會是AI服務器發展的一個主要趨勢。AI產業目前正處於落地階段，首先要將AI算法賦能到用户的實際業務場景中，隨後通過軟硬件協同優化持續提升用户的AI應用性能。

從浪潮在 MLperf 中的表現來看，浪潮已在產業AI化中佔據了有利位置，我們也期待浪潮與其他玩家一起加速推進產業AI化進程。