460億個電晶體!寒武紀首顆7nm AI晶片亮相,全面支援訓練和推理
芯東西(公眾號:aichip001)
編輯 | 心緣
芯東西1月21日訊息,今天,寒武紀正式亮出其首顆AI訓練晶片思元290及玄思1000智慧加速器。
該晶片採用臺積電7nm製程工藝,整合460億個電晶體,支援MLUv02擴充套件架構,全面支援AI訓練、推理或混合型人工智慧計算加速任務。
目前寒武紀思元290晶片及加速卡已與部分硬體合作伙伴完成適配,並已實現規模化出貨。
寒武紀智慧加速卡MLU290-M5
一、晶片採用MLUv02擴充套件架構,峰值算力較上一代提升4倍寒武紀訓練產品線採用自適應精度訓練方案,面向網際網路、金融、交通、能源、電力和製造等領域的複雜AI應用場景。MLUv02架構為寒武紀MLU200全產品線共享,滿足雲、邊、端三個場景的算力需求。
雲端訓練對AI算力的要求更為苛刻,因此寒武紀對思元290的MLUv02架構進行了多項擴充套件,包括業內領先的MLU-Link多芯互聯技術、高頻寬HBM2記憶體、高速片上匯流排NOC以及新一代PCIe 4.0介面。
相比寒武紀思元270晶片,思元290晶片實現峰值算力提升4倍、記憶體頻寬提高12倍、晶片間通訊頻寬提高19倍,結合7nm製程可提供更優效能功耗比,以及多MLU系統的擴充套件能力。
MLU290的MLUv02架構進行了多項擴充套件
寒武紀首款訓練智慧加速卡MLU290-M5,搭載思元290智慧晶片,採用開放加速模組OAM設計,具備64個MLU核、1.23TB/s記憶體頻寬及全新MLU-Link多芯互聯技術,最大散熱功耗350W,AI峰值算力達1024 TOPS(INT4)。
寒武紀MLU290-M5智慧加速卡搭載了思元290智慧晶片,採用開放加速模組OAM設計,具備64個MLU Core,1.23TB/s記憶體頻寬以及全新MLU-Link多芯互聯技術,在350W的最大散熱功耗下提供AI算力高達1024 TOPS(INT4)。
寒武紀智慧加速卡MLU290-M5產品規格
二、一臺玄思1000計算單元可替代一個小型超算中心寒武紀玄思1000智慧加速器可在2U機箱內整合4顆思元290智慧晶片,首款智慧加速器玄思1000包含4片思元290智慧加速卡,最大AI算力超過4100萬億次每秒(4.1 PetaOPS INT4)。
寒武紀稱,一臺玄思1000計算單元就足以替代一個小型傳統超級計算中心。
玄思1000採用了高速本地快閃記憶體、Mellanox InfiniBand網路,對外提供高速MLU-Link介面,打破智慧晶片、伺服器、POD與叢集的傳統資料中心橫向擴充套件架構,實現AI算力在計算中心級縱向擴充套件。
玄思1000支援計算中心級縱向擴充套件
玄思1000內建高頻寬低延時的MLU-Link多芯互聯技術,實現內部4顆思元290進行高速互聯,同時打破伺服器、緊耦合微叢集(POD)與叢集的傳統資料中心橫向擴充套件架構,將AIDC構建為節點、POD乃至超大規模混合擴充套件架構(Hybrid Scale-out),實現AI算力計算中心級縱向擴充套件,滿足高效能、高擴充套件性、靈活性、高魯棒性的要求。
三、並行通訊總頻寬提升19倍,重新思考未來AIDC基礎架構算力已成為驅動AI產業化和產業AI化發展的關鍵要素。近年來,AI演算法模型的複雜程度高速增長,對算力和訓練速度提出了更高的要求。為了構建更強大的計算平臺,多晶片間的互聯技術已成為市場剛需。
下一代人工智慧計算中心(AIDC)要求更多智慧晶片無縫協同、並行執行的同時,還能保持高計算效率,從而提供超級巨大的算力,以應對超大規模訓練的需要。
對此,寒武紀重新思考了未來AIDC的基礎架構,在玄思1000智慧加速器內部和外部採用統一的MLU-Link多芯互聯技術進行通訊,使得思元290智慧晶片的互聯範圍可以從單機擴充套件到POD乃至整個計算中心。
思元290採用MLU-Link多芯互聯技術進行互聯,頻寬、靈活性全面優於PCIe 3.0
寒武紀推出的MLU-Link多芯互聯技術,首次搭載於寒武紀思元290晶片,每顆思元290的多芯互聯總頻寬高達600GB/s。該技術支援多顆思元晶片無縫互聯,支援跨系統互聯,將縱向擴充套件能力整合到整個AIDC,可端到端加速大型AI模型訓練。
MLU-Link具備豐富的互聯特性,突破PCIe頻寬和互聯的瓶頸,相比思元270晶片透過PCIe並行的通訊方式,頻寬提高19倍。
思元290相較思元270並行通訊總頻寬提升19倍
玄思1000配置8個對外互聯的MLU-Link介面,支援跨系統互聯構建MLU POD。標準配置支援MLU POD 16、24、32。
玄思1000支援8個400G MLU-Link和2個200G網路介面,總頻寬高達3600 Gbps,是傳統異構伺服器的2倍
在POD內部,所有思元290晶片均可透過MLU-Link多芯互聯技術進行通訊,在頻寬和延時方面實現了突破。
在POD外部,透過玄思1000內建的網絡卡與其他系統進行通訊,實現了AI訓練叢集效能、擴充套件性和魯棒性的協同提升。
POD內所有思元晶片透過MLU-Link全互聯
除了標準配置的POD之外,在計算中心條件允許的前提下,透過MLU-Link多芯互聯技術,可實現1024顆或更多思元290互聯,不需要額外的網絡卡即可實現無縫加速。
四、支援實現4個相互隔離的例項不同場景下的AI訓練對計算和儲存的要求千差萬別,如何提供更靈活也更穩定的服務,但同時讓算力得到充分地利用,是AIDC面臨的持續挑戰。
寒武紀虛擬化技術vMLU,支援在思元290上實現4個相互隔離的AI計算例項,每個例項獨佔計算、記憶體和編解碼資源。
例項之間的硬體資源互不干擾,即使在虛擬化環境下,仍可保持90%以上的高效率,幫助客戶充分利用硬體資源。
思元290上實現4個相互隔離的AI計算例項
vMLU還能幫助思元290晶片提供更好的靈活性。透過熱遷移技術,雲管理員可將正在執行的AI負載及其應用程式移動到另外一臺主機上,從而平衡整個AIDC的負載,並實現更好的容災功能。
vMLU 熱遷移
五、搭配寒武紀Neuware訓練軟體棧,支援多種應用訓練推理寒武紀Neuware軟體棧為思元290晶片提供完善的軟體及應用生態,支援業界主流的TensorFlow和PyTorch等深度學習框架,使用者不需要改變使用習慣,即可在思元290晶片上實現圖形影象、語音、NLP、搜尋推薦等多種應用的訓練和推理。
其中,基於Horovod分散式訓練框架與MLU-Link多芯互聯技術相互配合,使思元290在單機多卡、多機多卡的場景下達到業界領先的訓練加速比。
寒武紀Neuware提供完善的開發工具包和社群支援,幫助使用者在思元290晶片進行方便、靈活的定製開發及部署工作。配合BANG智慧程式語言及配套除錯工具,使用者可以為自定義的演算法提供最佳效能調優。
寒武紀Neuware軟體棧
結語:寒武紀已建立雲邊端一體生態隨著寒武紀首顆訓練晶片思元290智慧晶片及加速卡、玄思1000智慧加速器訓練產品線亮相,寒武紀已建立“雲邊端一體、軟硬體協同、訓練推理融合”的新生態。
在完整產品體系搭建後,下一步,寒武紀不僅將面臨研發方面的持續創新最佳化,也將迎來多樣化的人工智慧應用場景與需求的產品化考驗。
來源:寒武紀