460億個電晶體！寒武紀首顆7nm AI晶片亮相，全面支援訓練和推理

2021-01-21由勞新忠釋出於科技

芯東西（公眾號：aichip001）

編輯 | 心緣

芯東西1月21日訊息，今天，寒武紀正式亮出其首顆AI訓練晶片思元290及玄思1000智慧加速器。

該晶片採用臺積電7nm製程工藝，整合460億個電晶體，支援MLUv02擴充套件架構，全面支援AI訓練、推理或混合型人工智慧計算加速任務。

目前寒武紀思元290晶片及加速卡已與部分硬體合作伙伴完成適配，並已實現規模化出貨。

寒武紀智慧加速卡MLU290-M5

一、晶片採用MLUv02擴充套件架構，峰值算力較上一代提升4倍

寒武紀訓練產品線採用自適應精度訓練方案，面向網際網路、金融、交通、能源、電力和製造等領域的複雜AI應用場景。MLUv02架構為寒武紀MLU200全產品線共享，滿足雲、邊、端三個場景的算力需求。

雲端訓練對AI算力的要求更為苛刻，因此寒武紀對思元290的MLUv02架構進行了多項擴充套件，包括業內領先的MLU-Link多芯互聯技術、高頻寬HBM2記憶體、高速片上匯流排NOC以及新一代PCIe 4.0介面。

相比寒武紀思元270晶片，思元290晶片實現峰值算力提升4倍、記憶體頻寬提高12倍、晶片間通訊頻寬提高19倍，結合7nm製程可提供更優效能功耗比，以及多MLU系統的擴充套件能力。

MLU290的MLUv02架構進行了多項擴充套件

寒武紀首款訓練智慧加速卡MLU290-M5，搭載思元290智慧晶片，採用開放加速模組OAM設計，具備64個MLU核、1.23TB/s記憶體頻寬及全新MLU-Link多芯互聯技術，最大散熱功耗350W，AI峰值算力達1024 TOPS（INT4）。

寒武紀MLU290-M5智慧加速卡搭載了思元290智慧晶片，採用開放加速模組OAM設計，具備64個MLU Core，1.23TB/s記憶體頻寬以及全新MLU-Link多芯互聯技術，在350W的最大散熱功耗下提供AI算力高達1024 TOPS（INT4）。

寒武紀智慧加速卡MLU290-M5產品規格

二、一臺玄思1000計算單元可替代一個小型超算中心

寒武紀玄思1000智慧加速器可在2U機箱內整合4顆思元290智慧晶片，首款智慧加速器玄思1000包含4片思元290智慧加速卡，最大AI算力超過4100萬億次每秒（4.1 PetaOPS INT4）。

寒武紀稱，一臺玄思1000計算單元就足以替代一個小型傳統超級計算中心。

玄思1000採用了高速本地快閃記憶體、Mellanox InfiniBand網路，對外提供高速MLU-Link介面，打破智慧晶片、伺服器、POD與叢集的傳統資料中心橫向擴充套件架構，實現AI算力在計算中心級縱向擴充套件。

玄思1000支援計算中心級縱向擴充套件

玄思1000內建高頻寬低延時的MLU-Link多芯互聯技術，實現內部4顆思元290進行高速互聯，同時打破伺服器、緊耦合微叢集（POD）與叢集的傳統資料中心橫向擴充套件架構，將AIDC構建為節點、POD乃至超大規模混合擴充套件架構（Hybrid Scale-out），實現AI算力計算中心級縱向擴充套件，滿足高效能、高擴充套件性、靈活性、高魯棒性的要求。

三、並行通訊總頻寬提升19倍，重新思考未來AIDC基礎架構

算力已成為驅動AI產業化和產業AI化發展的關鍵要素。近年來，AI演算法模型的複雜程度高速增長，對算力和訓練速度提出了更高的要求。為了構建更強大的計算平臺，多晶片間的互聯技術已成為市場剛需。

下一代人工智慧計算中心（AIDC）要求更多智慧晶片無縫協同、並行執行的同時，還能保持高計算效率，從而提供超級巨大的算力，以應對超大規模訓練的需要。

對此，寒武紀重新思考了未來AIDC的基礎架構，在玄思1000智慧加速器內部和外部採用統一的MLU-Link多芯互聯技術進行通訊，使得思元290智慧晶片的互聯範圍可以從單機擴充套件到POD乃至整個計算中心。

思元290採用MLU-Link多芯互聯技術進行互聯，頻寬、靈活性全面優於PCIe 3.0

寒武紀推出的MLU-Link多芯互聯技術，首次搭載於寒武紀思元290晶片，每顆思元290的多芯互聯總頻寬高達600GB/s。該技術支援多顆思元晶片無縫互聯，支援跨系統互聯，將縱向擴充套件能力整合到整個AIDC，可端到端加速大型AI模型訓練。

MLU-Link具備豐富的互聯特性，突破PCIe頻寬和互聯的瓶頸，相比思元270晶片透過PCIe並行的通訊方式，頻寬提高19倍。

思元290相較思元270並行通訊總頻寬提升19倍

玄思1000配置8個對外互聯的MLU-Link介面，支援跨系統互聯構建MLU POD。標準配置支援MLU POD 16、24、32。

玄思1000支援8個400G MLU-Link和2個200G網路介面，總頻寬高達3600 Gbps，是傳統異構伺服器的2倍

在POD內部，所有思元290晶片均可透過MLU-Link多芯互聯技術進行通訊，在頻寬和延時方面實現了突破。

在POD外部，透過玄思1000內建的網絡卡與其他系統進行通訊，實現了AI訓練叢集效能、擴充套件性和魯棒性的協同提升。

POD內所有思元晶片透過MLU-Link全互聯

除了標準配置的POD之外，在計算中心條件允許的前提下，透過MLU-Link多芯互聯技術，可實現1024顆或更多思元290互聯，不需要額外的網絡卡即可實現無縫加速。

四、支援實現4個相互隔離的例項

不同場景下的AI訓練對計算和儲存的要求千差萬別，如何提供更靈活也更穩定的服務，但同時讓算力得到充分地利用，是AIDC面臨的持續挑戰。

寒武紀虛擬化技術vMLU，支援在思元290上實現4個相互隔離的AI計算例項，每個例項獨佔計算、記憶體和編解碼資源。

例項之間的硬體資源互不干擾，即使在虛擬化環境下，仍可保持90%以上的高效率，幫助客戶充分利用硬體資源。

思元290上實現4個相互隔離的AI計算例項

vMLU還能幫助思元290晶片提供更好的靈活性。透過熱遷移技術，雲管理員可將正在執行的AI負載及其應用程式移動到另外一臺主機上，從而平衡整個AIDC的負載，並實現更好的容災功能。

vMLU 熱遷移

五、搭配寒武紀Neuware訓練軟體棧，支援多種應用訓練推理

寒武紀Neuware軟體棧為思元290晶片提供完善的軟體及應用生態，支援業界主流的TensorFlow和PyTorch等深度學習框架，使用者不需要改變使用習慣，即可在思元290晶片上實現圖形影象、語音、NLP、搜尋推薦等多種應用的訓練和推理。

其中，基於Horovod分散式訓練框架與MLU-Link多芯互聯技術相互配合，使思元290在單機多卡、多機多卡的場景下達到業界領先的訓練加速比。

寒武紀Neuware提供完善的開發工具包和社群支援，幫助使用者在思元290晶片進行方便、靈活的定製開發及部署工作。配合BANG智慧程式語言及配套除錯工具，使用者可以為自定義的演算法提供最佳效能調優。

寒武紀Neuware軟體棧

結語：寒武紀已建立雲邊端一體生態

隨著寒武紀首顆訓練晶片思元290智慧晶片及加速卡、玄思1000智慧加速器訓練產品線亮相，寒武紀已建立“雲邊端一體、軟硬體協同、訓練推理融合”的新生態。

在完整產品體系搭建後，下一步，寒武紀不僅將面臨研發方面的持續創新最佳化，也將迎來多樣化的人工智慧應用場景與需求的產品化考驗。

來源：寒武紀