楠木軒

他們搬動了百萬行代碼“大山”

由 舒培榮 發佈於 科技

運行中的“神威·太湖之光”超級計算機。 國家超級計算無錫中心供圖

位於江蘇省無錫市國家超級計算無錫中心的“神威·太湖之光”超級計算機。 國家超級計算無錫中心供圖

“神威·太湖之光”超算應用團隊與“神威”超級計算機合影。 國家超級計算無錫中心供圖

2018年,甘霖(右一)獲國際電氣和電子工程師協會“高性能專委會傑出新人獎”。國家超級計算無錫中心供圖

又是夏季。在江蘇無錫蠡湖畔一座大樓裏,1000平方米的房間內,除了空調聲,聽不到任何聲音。

5年前的一個夏日,付昊桓走進了這座大樓。彼時,這位“80後”清華大學教授帶領20多名師生來此,想借用這裏的超算資源,研發氣候模擬軟件。當付昊桓抬頭看到“國家超級計算無錫中心”10個大字時,他沒有想到,1年後,這個名字會蜚聲海內外。

2016年6月,新一期“全球超級計算機500強”公佈,安裝在國家超級計算無錫中心的“神威·太湖之光”奪冠。此後“神威·太湖之光”連續四次雄踞“全球超級計算機500強”榜首。

2016年11月,基於“神威·太湖之光”的應用成果折桂“戈登·貝爾獎”,實現了中國在該獎項上“零的突破”。

近日,本報記者採訪了“神威·太湖之光”超算應用團隊,聽他們講述中國超算奇蹟背後的努力與付出。

首次亮相——

展位上的資料被一搶而空

2016年6月20日,在德國法蘭克福舉行的國際超算大會上,付昊桓受邀作了報告。此時他的頭銜已是國家超級計算無錫中心副主任。

原來,2015年底,無錫在全國範圍內尋找運營和管理超算平台的團隊。因為有暑期合作的基礎,無錫相中了清華大學教授楊廣文的團隊。作為團隊中的研發負責人,付昊桓跟隨楊廣文奔赴無錫。

“神威·太湖之光”也來到了無錫。2016年,“神威·太湖之光”在國家超級計算無錫中心安裝使用。

付昊桓在國際超算大會上做的報告結束後,無錫中心展位突然湧來了大批參觀者,展位的地毯都被踩得捲起邊兒。參觀者好奇地問着各種問題,幾百本宣傳資料被一搶而空。

這是“神威·太湖之光”首次亮相國際舞台,可謂一鳴驚人。國際超算大會發布了新一期“全球超級計算機500強”榜單,“神威·太湖之光”榮登榜首。

“神威·太湖之光”有多快?它是世界首台峯值運算能力超過每秒10億億次、擁有千萬核的超級計算機,1分鐘的計算能力,相當於全球70多億人同時用計算器不間斷計算32年。

超級計算機是為解決工程和科學中的重大難題而生,因此如何應用是關鍵。“神威·太湖之光”成為世界最快計算機後,不少超算專家拋出這樣一個問題:中國贏得了超算“速度戰”,還能不能贏得“應用戰”?

零的突破——

讓評審委員會主席感到驚訝

2016年,無錫中心團隊作出了一個雄心勃勃的舉動——申報“戈登·貝爾獎”。“戈登·貝爾獎”被稱為世界高性能計算應用領域的“諾貝爾獎”,自1987年設立以來,從未有中國團隊獲獎。

在衝刺“戈登·貝爾獎”的最後一個月裏,團隊成員們開啓了“7×24小時”模式。對於那次備戰,並行優化部主管劉釗記憶猶新。

“大量數據需要在‘神威·太湖之光’上處理。辦公室角落裏堆放着行軍牀,每個人的辦公桌上都擺着洗漱用品。”劉釗説,他們有時候每天只睡兩三個小時,經常有人忙到凌晨三四點鐘才休息。

大夥兒這麼拼,還有一個原因,那就是怕浪費錢。超級計算機用電量大,“神威·太湖之光”運行一天,電費就要20萬元左右。“我們通宵調試和運行程序,這樣機器的利用率才能最大化。”劉釗説。

經過一個個燈火通明的夜晚,時間走到了2016年11月17日。這一天,在美國鹽湖城,一年一度的“戈登·貝爾獎”正在揭曉。

基於“神威·太湖之光”的“千萬核可擴展全球大氣動力學全隱式模擬”應用項目獲獎!這個項目是由中科院軟件所等單位與國家超級計算無錫中心合作完成的。項目名稱被念出來後,付昊桓淡定地從座位上站了起來。

這是中國超算應用團隊近30年來首次獲得“戈登·貝爾獎”。有評論指出,這次“零的突破”標誌着中國科研人員正將超算的速度優勢轉化為應用優勢。

1年後,由付昊桓團隊完成的“非線性地震模擬”應用再次斬獲“戈登·貝爾獎”,實現了中國超算應用在此項大獎上的蟬聯。

有一組數字同樣令人振奮。2016年,全球有6個項目獲“戈登·貝爾獎”提名,其中基於“神威·太湖之光”的應用佔3個,佔據半壁江山。2017年,有3個項目獲提名,其中基於“神威·太湖之光”的應用佔2個,佔比達到了2/3。

“戈登·貝爾”獎項評審委員會主席曾這樣表示,“我們很驚訝你們有這種毅力,把這樣一座‘大山’搬了過來。”“大山”指的是百萬行代碼,付昊桓團隊為什麼要“搬”這百萬行代碼?

衝破封鎖——

核心部件全部國產化

30多年前,擺在中國超算用户面前的是一個神秘的“玻璃房”:美國人把一台超級計算機賣給中國,用不透明的玻璃包裹得嚴嚴實實,中國技術人員未獲授權不得入內。

“以今天的眼光來看,那個所謂的超級計算機,充其量只是一台高性能電腦。但對當時的中國來説,卻是一個難以企及的高峯。”國家超級計算無錫中心主任楊廣文説。

上世紀末,中國邁入獨立設計和製造超級計算機的國家之列,但在核心處理器等關鍵部件與技術方面受制於人。

步入“十二五”,在國家“863”項目重點支持下,中國超級計算機發展不斷取得突破。在“全球超級計算機500強”榜單上,“中國製造”的身影越來越多。內置英特爾芯片的“天河二號”異軍突起,成為世界上第一台實現“全球超級計算機500強”六連冠的超級計算機。

然而,2015年4月,美國政府宣佈,把與超級計算機相關的4家中國機構列入限制出口名單,這直接導致“天河二號”無法如期完成攻關目標。

每次技術封鎖帶來的都是自力更生。經過大力研發,2015年底,國家並行計算機工程技術研究中心成功研製出“神威·太湖之光”,它首次採用國產核心處理器“申威26010”,實現了所有核心部件的國產化。隨後,“神威·太湖之光”在無錫安裝運行。

只有5釐米見方的薄塊“申威26010”成為中國打破技術封鎖的一柄利器。25平方釐米的方寸之間,集成了260個運算核心、數十億晶體管,達到了每秒3萬多億次計算能力。

從此,中國在高性能計算及應用領域擁有了更強的話語權。今年6月發佈的“全球超級計算機500強”榜單中,中國的超級計算機佔據226席,數量繼續位列全球第一。

硬件誕生了,軟件開發就成了下一個挑戰。“神威·太湖之光”採用的是全國產的新型片上融合異構芯片,原有基於國外x86架構設計的大量科學及工程計算軟件,無法直接在“神威·太湖之光”上高效運行。

在進行“全球氣候模式的高性能模擬”研究時,甘霖就要面對這個挑戰。他是付昊桓在清華大學帶的第一個博士生,還是國家超級計算無錫中心主任助理。

甘霖説,一般的應用也就幾千到幾萬行代碼,而地球系統模式代碼近百萬行。這些是各國氣候學家在過去幾十年裏積累的對大氣、海洋、陸面等各個圈層變化機制的理解,每個人寫代碼的風格不同。為此,他們需要逐條進行代碼的轉換、移植乃至重新設計,最後才能為“神威·太湖之光”所用,這是個“愚公移山”的過程。

“移山”之路是佈滿困難和阻礙的,“神威·太湖之光”在應用之路上能邁開步子嗎?

廣受認可——

從“毛頭小子”到“專家”

2016年6月,“神威·太湖之光”一舉成名後,很多人慕名而來,尋求合作。喬宇是2017年進入應用平台開發部的。入職不久,他所在團隊接到了上海一家發動機生產企業的合作項目。

出乎喬宇意料的是,他第一次與上海方面的人見面時,對方竟是一臉不屑。原來,無錫中心的這支團隊平均年齡不到30歲。瞧着一張張稚嫩的臉,客户心裏沒底:這羣“毛頭小子”能行嗎?

一年時間,團隊不僅出色完成了項目,還順手幫對方解決了一些技術難題,結項時,對方改稱他們為“專家”。“我們的團隊逐漸受到認可,合作項目也越來越多了。”喬宇説。

從2016年6月20日平台開放以來,國內外多個應用項目通過使用“神威·太湖之光”獲得突破,誕生了100多項應用成果,涉及氣候氣象、海洋、航空航天、生物、材料、高能物理、藥物、生命科學等眾多領域。

“神威·太湖之光”成功實現對“天宮一號”回收路徑的精準模擬,20天完成了原本需要12個月的計算量;“千萬核可擴展大氣動力學全隱式模擬”可以讓天氣預報精確地推測出下一分鐘一公里範圍內的氣候詳情……

儘管取得了這些亮眼的成績,團隊成員們仍在馬不停蹄地奮戰,為的是讓運算再快一些。

最近,劉釗在忙一個項目——對500年來全球大氣和海洋數據進行模擬。根據計劃,這個項目將耗時1年。“後來,我們又不斷對算法進行優化,預計三四個月就能完成這個項目。”劉釗説。

在“神威·太湖之光”不斷創造奇蹟的同時,很多人將目光投向了背後的應用團隊:這是一羣怎樣的人?

聚集人才——

在高鐵上寫完博士論文

甘霖是國際電氣和電子工程師協會“高性能專委會傑出新人獎”獲得者,是摘得該獎的首位中國學者。

攻讀博士期間,甘霖加入了“神威·太湖之光”應用研發團隊。有兩個多月的時間,他幾乎每週都要往返北京和無錫一次,單程5個小時,這成為甘霖寶貴的論文寫作時光。

甘霖回憶説:“高鐵座位舒服,干擾也比較少,很適合寫文章。”他的博士論文,大約3/4是在高鐵上完成的。有意思的是,一次,他的鄰座是一位地球物理勘探領域的教授,交談一番後,他還收穫了一些論文修改意見。

2016年初,即將博士畢業的甘霖,拿到了幾家企業的工作邀請,工作環境和薪水都很誘人。那時,“神威·太湖之光”的應用研發工作也走到了關鍵節點。是去企業,還是留在“神威·太湖之光”應用團隊?甘霖選擇了後者。“能將個人努力和國家科學進步聯繫在一起,是一件非常幸福的事。”甘霖説。

很快,在導師的帶領下,甘霖與團隊其他成員一起來到無錫,開始為國產超級計算機打造屬於自己的應用。

甘霖説:“年輕就是我們最大的優勢。我們有足夠的時間去嘗試,10個想法裏只要有1個是對的,就能創造出巨大的變革。”

為解決特定領域專業人才短缺的問題,無錫中心推出一種全新的機制——與應用單位共同成立專題聯合實驗室,實驗室負責人由應用方學科帶頭人擔當,無錫中心提供計算與應用支持。

楊廣文認為,超算是一門交叉性很強的學科,“要讓不同專業方向的科研人才聚集在一起,合力幹一件件大事。”

“神威·太湖之光”大事記

2015年底,國家並行計算機工程技術研究中心完成“神威·太湖之光”的研製。

2016年6月,“神威·太湖之光”榮登“全球超級計算機500強”榜首,此後連續四次蟬聯第一。

2016年11月,基於“神威·太湖之光”的“千萬核可擴展全球大氣動力學全隱式模擬”項目獲得“戈登·貝爾獎”。

2017年11月,基於“神威·太湖之光”的“非線性大地震模擬”項目獲得 “戈登·貝爾獎”。

資料來源:國家超級計算無錫中心

(記者 潘旭濤)

《 人民日報海外版 》( 2020年08月18日 第 05 版)