英偉達刷新AI推理紀錄，兩款全新GPU首秀

2021-04-22 由哈愛朵發佈於科技

雷鋒網消息，時隔半年，MLPerf組織發佈最新的MLPerf Inference v1.0結果，這一版本的基準測試內容雲端推理依舊包括推薦系統、自然語言處理、語音識別和醫療影像等一系列工作負載，邊緣AI推理測試則不包括推薦系統。

MLPerf Inference v1.0

所有主要的OEM都提交了MLPerf測試結果，其中，在AI領域佔有優勢地位的英偉達此次是唯一一家提交了從數據中心到邊緣所有MLPerf基準測試類別數據的公司，並且憑藉A100 GPU刷新了紀錄。不僅如此，超過一半提交成績的系統都採用了英偉達的AI平台。

不過，初創公司提交其AI芯片推理性能Benchmark的依舊很少。

AI推理最高性能半年提升45%

雷鋒網在MLPerf Inference v0.7結果發佈的時候已經介紹過，英偉達去年5月發佈的安培架構A100 Tensor Core GPU在雲端推理的基準測試性能是最先進英特爾CPU的237倍。經過半年的優化，英偉達又將推薦系統模型DLRM，語音識別模型RNN-T和醫療影像3D U-Net模型的性能進一步提升，提升幅度達最高達45%，與CPU的性能差距也提升至314倍。

從架構的角度看，GPU架構用於推理優勢並不明顯，但英偉達依舊憑藉其架構設計配合軟件優化刷新了MLPerf AI雲端和邊緣推理的Benchmark紀錄。MLPerf的Benchmark證明了A100 GPU性能，但其不菲的售價也是許多公司難以承受的。

今天，更具性價比的英偉達A30（功耗165W）和A10（功耗150W） GPU也在MLPerf Inference v1.0中首秀，A30 GPU強於計算，支持廣泛的AI推理和主流企業級計算工作負載，如推薦系統、對話式AI和計算機視覺。

A10 GPU更側重圖像性能，可加速深度學習推理、交互式渲染、計算機輔助設計和雲遊戲為混合型AI和圖形工作負載提供支持。可以應用於AI推理和訓練的A30和A20 GPU今年夏天開始會應用於各類服務器中。

A100雲端AI推理性能比CPU高314倍

A100經過半年的優化，與CPU的性能差距從v0.7時最多237倍的差距增加到了最高314倍。具體來看，在數據中心推理的Benchmark中，在離線（Offline）測試，A100比最新發布的A10有1-3倍的性能提升，在服務器（Server）測試中，A100的性能最高是A10的近5倍，在兩種模式下，A30的性能都比A10高。

值得注意的是，英特爾本月初最新發布的第三代至強可擴展CPU Ice Lake的推理性能相比上一代Cooper Lake在離線測試的ResNet-50和SSD-Large模型下有顯著提升，但相比A100 GPU體現出17-314倍的性能差距。

高通AI 100的雲端AI推理在MLPerf Inference v1.0測試下表現不錯，其提交的離線和服務器測試下的ResNet-50和SSD-Large模型成績顯示，高通AI 100的推理性能均比英偉達新推出的A10 GPU高，其它模型的成績高通並未提交。

從每瓦性能來看，高通A100在提交成績的ResNet-50和SSD-Large模型中比A100更高，但性能比A100低。

賽靈思的VCK5000 FPGA在圖像分類ResNet-50的測試中表現不錯。

Jetson系列是唯一提交所有邊緣推理測試成績的芯片

A系列GPU在雲端AI推理的性能優勢可以延續至邊緣端。MLPerf的邊緣AI推理Benchmark分為Single-Stream和Multi-Stream，A100 PCIe、A30、A10在Single-Stream的所有模型下都有顯著的性能優勢，高通A100在ResNet-50模型下也優勢明顯，不過高通也僅提交了這一模型的成績。

這些產品用於邊緣AI推理有些大材小用，英偉達的Jetson家族的AGX Xavier和Xavier NX更適合邊緣場景，根據提交的數據，Centaur公司在ResNet-50模型中優勢明顯，SSD-Small模型下的性能與Jetson Xavier NX性能相當。

邊緣AI推理的Multi-Stream Benchmark，只有英偉達提交了成績，A100 PCIe版本的性能最高是Jetson AGX Xavier和Xavier NX的60倍。

在英偉達此次提交的結果中，多項是基於Triton推理服務器，其支持所有主要框架的模型，可在GPU及CPU上運行，還針對批處理、實時和串流傳輸等不同的查詢類型進行了優化，可簡化在應用中部署AI的複雜性。

雷鋒網瞭解到，在配置相當的情況下，採用Triton的提交結果所達到的性能接近於最優化GPU能夠達到性能的95%，和最優化CPU99%的性能。

另外，英偉達還使用Ampere架構的多實例GPU性能，在單一GPU上使用7個MIG實例，同時運行所有7項MLPerf離線測試，實現了與單一MIG實例獨立運行幾乎完全相同的性能。

小結

MLPerf Benchmark結果的持續更新，可以為在IT基礎設施投資的企業提供一些有價值的參考，也能推動AI的應用和普及。在這個過程中，軟件對於AI性能的提升非常重要，同樣是A100 GPU，通過有針對性的優化，半年實現了45%的性能提升。

同時也不難發現，英偉達正在通過持續的軟硬件優化，以及更豐富的產品組合，保持其在AI領域的領導力，在AI領域想要超越英偉達似乎正在變得越來越難。

轉載請註明：英偉達刷新AI推理紀錄，兩款全新GPU首秀 - 楠木軒