阿里雲彈性高性能計算E-HPC:攀登性能“高峯”,加速行業創新

【環球網科技報道 記者 林迪】“我們以前把彈性計算比喻成‘構築一個青藏高原’,其實它是一個算力的高原,旨在為全社會提供更好的算力基礎。經過近幾年的發展,我們能夠賦能客户去構築自己的一個‘珠穆朗瑪峯’。”近日,在2020年全國高性能計算學術年會(HPC CHINA)期間,阿里巴巴集團研究員、阿里雲智能彈性計算負責人張獻濤(花名“旭卿”)在接受環球網報道記者採訪時表示,“當彈性計算遇到高性能計算,阿里雲高性能計算平台滿足了客户對於算力的要求,利用這個平台的優勢,客户就可以把自己的應用搬上‘珠穆朗瑪峯’。”

阿里雲彈性高性能計算E-HPC:攀登性能“高峯”,加速行業創新

高性能計算的青藏高原

2017年9月,阿里雲宣佈推出全新一代異構計算加速平台,在業界第一次覆蓋了包括AMD、NVidia的GPU和Intel、XILINX的FPGA在內的所有6款主流異構實例。彼時,阿里雲高性能計算研發負責人何萬青曾指出,“如果把傳統超算中心比作‘珠穆朗瑪峯’,那麼阿里雲的E-HPC則是將高性能計算做更普惠的覆蓋,成為高性能計算的‘青藏高原’。 在青藏高原上看,世界之巔珠穆朗瑪,相對而言是4千多米,通過神龍超級計算集羣,你隨時可以構築在阿里雲上的珠穆朗瑪。”

2020年阿里雲彈性計算產品年度發佈會上,阿里雲宣佈推出第三代神龍雲服務器,即第三代彈性裸金屬服務器(ECS Bare Metal Instance),它是基於阿里雲完全自主研發的下一代虛擬化技術而打造的新型計算類服務器產品,兼具虛擬機的彈性和物理機的性能及功能特性。與上一代虛擬化技術相比,它不僅保留了普通雲服務器的彈性體驗,而且保留了物理機的性能與特性,全面支持嵌套虛擬化技術。

在張獻濤看來,企業用户需要更強的計算性能、更快的網絡接入、更高的存儲讀寫能力,意味着存儲的IOPS要高、網絡的PPS要高、網絡的帶寬存儲能力要高,而解決這些問題的根本則在於——變革虛擬化技術。“傳統服務器主要依賴堆硬件提升性能,而阿里雲自研的神龍架構,基於硬件雲原生理念,創新性打破了虛擬化技術與CPU、內存、網卡等硬件的天然鴻溝,可發揮出比傳統物理機更強的性能。”張獻濤説到。

基於第三代神龍雲服務器的阿里雲第六代增強型實例,全系搭配ESSD系列雲盤,存儲轉發能力最多提升四倍;支持10Gbps突發內網帶寬,單卷延時大幅下降;性能等級按需配置,在線無損變配;同時ESSD使用門檻大幅下降50%,性價比大幅提升。此外,阿里雲ECS的單實例穩定性從原來的99.95%提升到99.975%,跨AZ多實例穩定性從原來的99.99%提升到99.995%,均為全球最高水準。

依託神龍架構的創新突破,超算中心可以在雲上瞬間生成,只需在彈性裸金屬上用高速的ROCE/IB網絡進行互聯,再連接VPC、雲盤、以及雲上的其他產品,構建整個HPC軟件棧加上連接雲端並行文件系統,用户就可以得到一個能媲美或超越超算中心的雲超算中心,具備相當高的並行效率,並且具備雲的彈性。

助力行業攀登性能“高峯”

據介紹,《流浪地球》製作方MORE VFX(墨鏡天合)已將算力需求最大的渲染環節遷上阿里雲。傳統的後期處理,對計算力的需求會隨項目而變,低谷期利用率不高、高峯期資源無保障,且排隊嚴重。為了解決這一問題,MORE VFX通過專線上雲,利用阿里雲高性能計算E-HP服務,在雲端完成渲染,一天可以處理原本一週的量,大大縮短了渲染等待時間。

採訪中,阿里雲智能高性能計算負責人何萬青告訴記者,MORE VFX後期特效量極大,且對於計算力的需求隨項目而變。其自有本地農場數百台多核服務器在低谷期利用率不高,在高峯期任務排隊又嚴重,這就需要藉助外部渲染農場服務器才能完成任務。而農場服務器老舊,性能不高;只能依靠硬盤寄送方式,資產安全性差;同時資源缺乏彈性。這些問題困擾着MORE XFV,最終選擇了渲染上雲利用阿里雲高性能計算服務(E-HPC)平台,在雲端完成渲染任務。

阿里雲彈性高性能計算E-HPC:攀登性能“高峯”,加速行業創新

值得關注的是,在渲染任務上雲過程中,結合後期製作公司的業務流程需求,阿里雲團隊提供了混合雲渲染方案,同時通過為MORE VFX定製文件異步緩存能力,有效降低了超大規模集羣渲染時對專線帶寬的壓力。另外,通過阿里雲高性能計算緩存層的橫向、縱向擴展能力,能夠平滑分解渲染節點對緩存層的吞吐和IO壓力,從而提供極強的資源彈性。

據報道,通過阿里雲高性能計算集成的行業通用軟件deadline、計費和報表功能,渲染集羣可以根據任務排隊情況自動伸縮,使得運維極其簡單,大大節省了MORE VFX IT部門的工作量。

目前,阿里雲高性能計算已覆蓋工業製造、生命科學、油氣勘探和影視特效等多個行業,除了流浪地球製作方MOREVFX等頂級視效企業之外,還服務了吉利和上汽等知名車企,並在新冠疫情期間公益支持了全球健康藥物研發中心(GHDDI)、中山大學等全球十多家醫療與科研機構進行新冠相關研發工作。

值得一提的是,今年8月份,Gartner發佈的最新雲廠商產品評估報告顯示,阿里雲在計算大類中,以92.3%的高得分率拿下全球第一,並且刷新了該項目的歷史最佳成績;在存儲和IaaS基礎能力大類中,阿里雲也位列全球第二。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2095 字。

轉載請註明: 阿里雲彈性高性能計算E-HPC:攀登性能“高峯”,加速行業創新 - 楠木軒