楠木軒

Marvell ThunderX3處理器解析:96核心384線程、ARM芯片之王

由 沈建伏 發佈於 科技

長久以來,服務器、數據中心領域一直是x86 CPU架構的天下,但是隨着市場需求、應用負載的多元化,隨着雲計算、邊緣計算、高性能計算的不斷演進,RISC-V、ARM等架構也都迎來了新的爆發機遇,尤其是ARM,眾多巨頭紛紛參與,生態建設也是如火如荼。

比如最近,亞馬遜就發佈了ARM架構的64核心Graviton2,安晟培(Ampere)則推出了80核心的Altra。現在,Mavell(美滿電子)奉上了第三代ARM芯片“ThunderX3”。

Marvell的大名很多人可能不太熟悉,但這家歷史悠久的半導體企業其實隨時都在你身邊,比如機械硬盤主控,絕大部分都出自Marvell的手筆,SSD主控也有豐富的產品。

Marvell成立於1995年,總部位於美國加州聖克拉拉,在美國、以色列、印度、德國、中國都設有研發中心,全球員工超過5000人,全球專利超過1萬件,2020財年收入27億美元,核心業務覆蓋存儲、網絡、計算三大領域,特別是擁有超過15年的高性能多核心CPU研發經驗。

Mavell旗下擁有完整的CPU處理器產品線,包括Armada、Octeon TX、Octeon Fusion、ThunderX四大系列,尤其是已經悄然成為全球最大的ARM服務器處理器供應商,應用範圍、生態支持都獨步全球,累計出貨量已突破1億顆。

2017年,Marvell還以約60億美元的價格收購了美國無工廠半導體企業Cavium(凱為半導體),進一步增強了ARM平台的設計能力。

既然有了成熟的x86,為何要大力推廣ARM?它有什麼吸引整個行業的呢?

Marvell認為,在架構、工藝、性能、能效、生態等多個方面,ARM都展現出了更優秀的品質,雖然不會也不能全方位取代x86,但是在部分特定領域,尤其是雲計算、高性能計算等,已經明顯超越x86。

架構方面,x86一直是一個架構打天下,從服務器數據中心到桌面筆記本消費級,都基於同一個架構衍生不同的產品,缺乏靈活性,尤其是在並行處理方面,而且規模越做越大,也導致成本、功耗越來越無法滿足需求。

工藝方面,Intel已經失去了領導地位,至強系列至今還是14nm,AMD雖然走到了7nm,但又在架構上“取巧”使用chiplet多芯片誰家,導致內存帶寬、內存延遲明顯不足,ARM方面則跟着台積電一路走到了7nm,並即將進入5nm。

性能和能效方面,Marvell認為ARM架構的單線程性能已經是一流水準,多線程和平台性能更是遙遙領先,內存帶寬、延遲同樣優秀,而且功耗低、能效高。

生態方面,x86雖然歷史悠久,但負擔也很重,比如考慮各種歷史甚至是消費級兼容性,ARM則沒有過多拖累,架構直接為服務器優化而生。

同時,軟硬件行業對ARM的支持也越來越豐富,比如Marvell ThunderX2已經被20多家終端客户部署在大規模雲計算、高性能計算市場,包括微軟Azure、HPE、Cray、Atos、洛斯阿拉莫斯國家實驗室、桑迪亞國家實驗室、勞倫斯利弗莫爾國家實驗室、橡樹嶺國家實驗室、布里斯托大學、萊徹斯特大學等等。

甚至,Intel的一些軟硬件技術同樣支持ARM平台,NVIDIA、AMD GPU同樣也支持。

接下來説説具體產品。Marvell ThunderX系列嚴格遵循每兩年升級一代的路線圖,ThunerX2系列誕生於2018年,而在今天的主角ThunerX3之後,2022年還將看到ThunerX4,工藝也是一路升級,28nm、16nm、7nm……

ThunerX3採用台積電7nm DUV工藝製造,基於Marvell自主研發架構,指令集兼容ARM v8.3 ,最多96個核心,而且繼續支持4線程,也就是最多384個線程,是上一代的整整三倍,而且支持雙路並行,此時單系統可提供128個核心、768個線程。

同時,頻率方面基準最高2.4GHz,最高加速3.1GHz,比上代還提高了100MHz。

新的內核集成四個128-bit Neon SIMD單元,就寬度而言等效於一個x86 AVX-512,從而大大提高了浮點性能。Intel至強最高端型號兩個,AMD霄龍則是每核心兩個256-bit SIMD單元,基本等效。

內存支持八通道DDR4,頻率達3200MHz,並支持64條PCIe 4.0(16個控制器),比上代PCIe 3.0更進一步而且增加了8條通道,未來還會隨着PCIe 5.0/6.0標準的演進而升級。

當然了,企業級的RAS、虛擬化這些都是必不可少的元素。

接下來説説性能,當然都是來自Marvell官方的數據,而且具體性能表現取決於特定的工作負載。

綜合性能方面,ThunderX3對比上代IPC(每時鐘週期指令數)性能提升超過25%,基本可視為架構本身的進步幅度,而結合更高的運行頻率,單核心性能提升超過60%,再加上大大增加的核心數,整體性能提升可以超過3倍!

對比x86雙雄,ThunderX3的優勢不在於絕對性能,而是更好的能效,相比於AMD Rome二代霄龍可高出30%,對比Intel二代可擴展至強更是領先多達1.2倍。

ThunderX3並不貪大求全,主攻市場只有兩個,一是雲計算,包括大數據、數據庫、流媒體、Web、搜索、存儲、移動應用開發、手遊等等,其高度並行、豐富I/O、超低延遲、ARM原生都是獨特優勢。

性能方面,單核心四線程可以帶來可觀的性能提升,常見應用中最多可以提升達80%,特定負載下甚至能見到3-4倍的提升。

對比AMD二代霄龍、Intel二代可擴展至強,ThunderX3在雲端也毫不示弱,所服務的領域內已經全面勝出,而且延遲更低,而且支持更多數量的虛擬機。

第二個主攻方向就是高性能計算,包括政府部門、天氣預報、油氣勘探、計算機輔助工程、生物基因、電子設計自動化等,高內存帶寬、高能效、高並行性的特點可以説非常適合。

對比兩家x86方案, ThunderX3在浮點、內存帶寬指標以及量子化學、計算流體動力學、計算化學、矢量物理等應用方面,都有着不俗的表現。

對於ThunderX3的市場前景,Marvell也是非常積極樂觀,透露現在部署ThunderX2的超過20家客户,都在準備升級ThunderX3,而後續的ThunderX4還會繼續帶來大幅度的提升。

中間的是上代ThunderX2