楠木軒

日本開闢ARM新賽道重奪第一,中國超算理應居安思危

由 公羊淑軍 發佈於 經典

  近日,國際超算大會發布最新一期的全球超算TOP500榜單,日本超算“富嶽”(Fugaku)超越美國“頂峯”(Summit)登頂榜首,在業內引起了強烈反響。這也是日本在闊別8年之後,重返超算TOP500第一。相較之下,此前曾獲第一的中國“神威•太湖之光”和“天河2號A”雖然依然處在前5之列,但在其分別停更4年和7年之後,與排名前三的日本和美國正在拉開差距。

  整體發展:追求“機海戰術“大而不強,算力效率從旗鼓相當到大幅落後

  所謂好漢不提當年勇。但為了客觀反映中國超算這幾年額髮展變化和當下的實際表現,我們以2016年6月的超算TOP500排名作為起點,直到今年6月剛剛公佈的最新超算TOP500止,看看中國、美國和日本間在超算領域間競爭的演變。

  需要説明的是,我們之所以選擇2016年6月超算TOP500排名作為起點,是因為在那一年,中國不僅首次囊括冠、亞軍,神威•太湖之光”還是首次採用完全自主芯片(申威SW26010)問鼎,意義非同尋常。同時在總套數上,中國也首次超越美國,遠甩日本,可以説,那是中國在超算TOP500中的高光時刻和最高水平。

  2016年6月,中國進入TOP500的總套數為167套,市場份額為33.4%,平均每套實際算力為1264326Gflops,平均每套理論算力2198992 Gflops,效率為57.5%。

  相比之下,美國進入TOP500的總套數165套,市場份額為33%,平均每套實際算力為1049834 Gflops,平均每套理論算力1493272 Gflops,效率為70%。

  日本進入TOP500的總套數為29套,市場份額為5.8%,平均每套實際算力為1344897 Gflops,平均每套理論算力1675728 Gflops,效率為79.7%。

  對比結果為,中國進入TOP500的套數與美國旗鼓相當,平均每套實際算力是美國的1.2倍;平均每套理論算力是美國的1.47倍,效率是美國的82.1%,除了效率一項落後外,在重要的實際算力和理論算力上均超越美國。

  與日本相比,中國進入TOP500的套數是其5.69倍,平均每套實際算力是其94%,平均每套理論算力是其1.31倍,效率是其72.1%。

  由此看,在事關超算真正競爭力的平均每套實際算力、平均每套理論算力以及效率上,中國與美國及日本各有領先,但總體呈現出旗鼓相當的趨勢,尤其是與美國相比,在套數接近的情況下,平均每套實際算力和平均每套理論算力均處在領先的位置。

  時至2020年6月,中國進入TOP500的總套數為226套,市場份額為45.2%,平均每套實際算力為2502447Gflop,平均每套理論算力5242039Gflop,效率為47.74%。

  相比之下,美國進入TOP500的總套數為113套,市場份額22.6%,平均每套實際算力5501377Gflop,平均每套理論算力7825818Gflop,效率為70.3%。

  日本進入TOP500的總套數為29套,市場份額5.8%,平均每套實際算力18193362Gflop,平均每套理論算力23846850 Gflop,效率為76.29%。

  對比結果為,中國進入TOP500的套數是美國的2倍,平均每套實際算力是美國的45.5%,平均每套理論算力是美國的67%,效率是美國的67.9%。

  與日本相比,中國進入TOP500的套數是其7.79倍,平均每套實際算力是其13.75%,平均每套理論算力是其21.98%,效率是其62.58%。

  4年後的今天,中國超算在總套數高速增長(相對於美國的減少和日本的不變),在關鍵性的每套實際算力、平均每套理論算力以及效率上與美國和日本相比,均出現了非對稱性的大幅下滑,“大而不強“的趨勢相當明顯。

  核心之爭:“神威•太湖之光”和“天河2號A”被超越前後均未更新

  如果説前述是我國超算從2016年6月之後的4年間,整體在走提升套數,低效率競爭的模式,那麼在代表超算核心競爭力的TOP5中,曾經在2016年6月首次包攬冠、亞軍的“神威•太湖之光”和“天河2號A”至今,幾乎處在停更的狀態。

  例如“神威•太湖之光”,在2016年6月首奪超算TOP500冠軍之後,直到今年6月最新的超算TOP500榜單發佈,沒有任何更新。相比之下,“天河2號A”也僅是在2016年6月緊隨“神威•太湖之光”拿下超算TOP500亞軍2年之後的2018年6月進行了一次更新,其中Rmax從此前的33862.7TFlop/s提升至61444.5TFlop/s;Rpeak則從54902.4 TFlop/s提升至110678.7 TFlop/s。

  儘管如此,2018年6月,超算TOP500的榜單中的TOP5還是發生了逆轉。“神威•太湖之光”和“天河2號A”保持了2年,4次榜單冠、亞軍的位置分別被美國的Summit和Sierra替代。

  更讓我們不解的是,在被超越之後,本來理應通過更新與美國Summit和Sierra 爭位的“神威•太湖之光”和“天河2號A”卻遲遲沒有更新。

  相反,倒是當時位列第三的美國Sierra進行了更新,其Rmax從此前的71610TFlop/s提升至94640TFlop/s;Rpeak則從119193.6TFlop/s提升至125712TFlop/s,從而藉此在半年之後,即2018年11月發佈的,新的超算TOP500排行中擠掉了排名第二的“神威•太湖之光”。

  與Sierra類似,雖然美國的Summit在2018年6月拿下了超算TOP500的冠軍,但其仍在一年之後的2019年6月進行了更新,其Rmax從此前的143500TFlop/s提升至148600TFlop/s;Rpeak保持不變,但顯然提升了效率。

  所謂不進則退。正是由於中國“神威•太湖之光”和“天河2號A“在領先和被超越之後的“不進”與美國落後與領先的“進“,不僅讓中國超算喪失了TOP500的霸主和亞軍的位置,而且與美國Summit和Sierra的差距越來越大。

  與此同時,日本在2012年6月超算TOP500痛失冠軍寶座後,也一直在“進“,經過6年的時間(據稱2014年開始研發“富嶽”),終於在今年6月重回榜首。而且出道即巔峯,其Rmax竟然是排名第二美國Summit的2.8倍,是中國排名第四“神威•太湖之光”的4.48倍。

  很顯然,在經過4年之後,中國在超算核心TOP5的競爭中,也從領先變成了落後,重要的是落後的幅度還不小。而這和我們在2016年6月奪取超算TOP500冠、亞軍之後一直沒有更新密切相關。試想一下,如果我們在這4年間有所更新,即便是今天現在的排名,至少也不會存在這麼大的差距。

  知其然需知所以然:中國核心超算增長的瓶頸在哪裏?

  按照中國對於超算的重視程度及對於國家的戰略意義,對於像“神威•太湖之光”和“天河2號A“主動放棄更新的可能性微乎其微,尤其是在2018年6月雙雙被美國超越之後。那麼究竟是何原因,讓中國的超算在4年的時間內基本處在停滯不前的狀態?

  業內有一種解釋是,美國為了限制和阻礙中國超算的發展,分別在2015年和2019年將與中國超算密切相關的企業,例如國家超級計算長沙中心、國家超級計算廣州中心、國家超級計算天津中心、國防科技大學(NUDT)、無錫江南計算技術研究所、中科曙光、海光、成都海光集成電路公司、成都海光微電子技術公司等列入“美國出口管制實體清單“,進而確實在某種程度上影響了中國超算的發展。

  不過,從國內媒體的相關報道和後來中國超算的表現看,好像並非如此。

  例如2015年,美國禁運重點針對的天河2號,雖然該超算升級受到一定延宕,但是在 2017 年還是順利完成,受到禁運的加速器產品由原來的 Intel Xeon Phi 31S1P 換成了國防科技大學自主研發的 Matrix-2000。升級之後,在計算能力大幅提升的同時,能耗反而從天河2號的 17.8MW 下降到 16.9MW,另外,禁運之後江南計算所研發的“神威•太湖之光“在2016 年6 月份開始領銜全球 TOP500 排行榜,其使用的處理器是咱們的自研芯片—申威 SW26010。

  不過在我們看來,既然美國將中國相關超算企業加入了“美國出口管制實體清單“,就肯定會有一定的負面影響,只是在這種負面影響下,我們通過自主努力能夠抵消多少和需要多長的時間。

  另外一種解釋是,中國整體的超算水平並不高,儘管像“神威•太湖之光”擁有自研芯片申威 SW26010。

  理由是,根據阿姆達爾定律,處理器並行運算與效率的提升並非線性關係,這意味着,當處理器達到一定數量,對於效率的提升將非常有限。基於此,真正具備實力的超算廠商,基本都是通過優化CPU(中央處理器)與GPU(圖形處理器)之間的連接網絡結構來提升GPU和協處理器性能,增加內存容量、擴充存儲容量、增大網絡帶寬等,最終在高性能計算系統、網絡架構、系統軟件、應用支撐等關鍵技術上取得突破。

  基於此,超算是綜合技術實力的考量,芯片,尤其是芯片數量並非是惟一關鍵的因素。

  而當我們去看“神威•太湖之光”的配置時,驚奇地發現,在超算TOP500榜單中的TOP5,甚至是TOP10中,其處理器的核心數遠遠大於其他系統。

  例如針對最新發布的超算TOP500排名第一的日本“富嶽”,“神威•太湖之光”的核心數是其1.45倍,是排名第二美國Summit和第三Sierra的4.41倍及6.77倍。但其Rmax僅為“富嶽”的22%、Summit的62.6%和Sierra的98%。這裏需要説明的是,雖然“神威•太湖之光”的Rmax接近排名第三的Sierra,但這是在核心數為其6.77倍的前提下取得的。

  對此,有業內人士認為,“神威•太湖之光”在2016年6月超算TOP500奪冠後4年一直沒有更新,可能與其為了奪冠,在初期依賴“堆疊”處理器(採用了高達 40,960 個 SW26010處理器)過猛就已經達到了提升效率的閾值,導致後續再通過處理器數量提升超算效率勢必遭遇瓶頸有關。也有業內認為,中國超算除了自主芯片外,在諸如網絡架構、內存、系統軟件等方面與美日仍存差距,畢竟超算是一個系統工程。

  綜上,我們認為,中國超算與當時的巔峯狀態相比,正處在瓶頸,甚至下滑狀態,其競爭和發展方式也從質變成量(套數),尤其是作為代表的“神威•太湖之光”和“天河2號A“奪冠後數年的停滯不前,加上此次日本開闢ARM新賽道以絕對領先優勢奪冠,這些無不值得我們超算的業內人士居安思危。