雲計算正在定義硬件

近年來,騰訊雲、阿里雲等新進IT廠商的身影頻繁的出現在政企市場中,政府、企業第一時間想到的是直接購買雲服務,而並非再去購買服務器,搭建系統。

而這一變化,也讓雲計算成為一個創新之地。

雲已經超過IT基礎設施的範疇

 “隨着雲計算承載的業務規模越來越大,傳統服務器難以完全滿足雲計算數據中心場景下對超大規模、需求多樣、高性價比、安全可靠以及軟硬件一體化等方面的要求。”

説這句話的是騰訊雲服務器與供應鏈管理部總經理劉裕勳,實際上,隨着雲計算產業的發展,從技術的角度説,雲計算已經超過IT基礎設施的範疇,正向上定義軟件應用服務,向下定義芯片、服務器等IT硬件。

在劉裕勳看來,隨着雲原生理唸的不斷推進,雲基礎架構的演進過程中會呈現出三個特點:高複雜度、高性價比、安全性。

雲計算正在定義硬件

當海量業務承載在雲基礎架構設施的時候,業務的多樣性,對於軟硬件一體化的系統實際上提出了更高的要求。面臨這樣的複雜度,雲廠商必須要聯合芯片產商、整機廠商進行深度的定製化,以此來解決各種複雜場景下的兼容性問題。

而高性價比,我們以英特爾的CPU為例,CPU的另外一個名字叫通用計算。而這也就代表着,搭載通用CPU的服務器具有很高的通用性,但是實際的應用中,勢必會造成性能的浪費。

對於普通用户來説,可能十幾上百台服務器就是應用的極限了,但是互聯網大廠的服務器動輒就是上萬甚至幾十萬台,因此每台性能的略微降低累積起來都是一個不得了的數字

更重要的是,由於互聯網應用的特殊性,相當一部分新採購的服務器都要進行針對性的優化,或者需要進行部分配件的調整與革新,也就需要投入大量的人力、精力和財力,造成資源的浪費。

因此對於以騰訊云為代表的雲廠商來説,勢必要從整機的設計上面,去精簡不需要的功能;優化整機的散熱能力,降低能耗。配備一個非常強的供應鏈的管控。去降低計算力的單位成本,並進而將這種成本紅利釋放給數百萬的雲上用户。

而在安全方面,從芯片層面就進行定製化,勢必能更好的保證整機系統的安全可靠。

打造雲計算的基礎設施

可見的是,面對未來將呈現井噴式增長的海量數據,對於騰訊雲這般體量的雲服務商來説,自研服務器將是一條必須要走的路線。

就在2020 Techo Park開發者大會“下一代軟硬一體化的雲計算基礎設施”分論壇上,騰訊雲重磅發佈星星海首款自研GPU服務器和星星海新一代自研雙路服務器,後者也是國內首款搭載即將發佈的第三代英特爾至強可擴展處理器(Ice Lake)的雙路服務器。

劉裕勳表示:“在雲遊戲場景中,客户對單卡TCO,單用户成本非常敏感,迫切需要降低成本。但現存所有GPU服務器機箱長度過長,當遇到需要低延時邊緣部署時,無法滿足需求,會出現單卡掛死,導致整機掛死的情況”

針對類似的場景和業務需求,星星海首款自研GPU服務器在設計上,支持在同一框架內,靈活更換主板,支持多平台兼容,使得業務在面對GPU 選擇時獲得非常充分的競爭優勢;同時結合業務對PCIe帶寬要求低的特點,支持16卡GPU+4路intel服務器,達到業界最高密度,可大幅降低單卡TCO。

同時支持邊緣部署,提高帶寬穩定性,在可用性上,這款GPU服務器的RAS特性以及PCIe熱插拔特性,使得單GPU故障對整機無影響。

星星海新一代自研雙路服務器則是基於即將發佈的第三代英特爾至強可擴展處理器,採用英特爾的10納米制程,能夠滿足通用計算、異構計算、裸金屬、高性能計算等全業務場景需求。

測試數據顯示,與搭載第二代英特爾至強處理器的雙路服務器相比,新款服務器的浮點性能提高70%,同時單機最高支持的內存可達12TB,可充分滿足大型數據庫等業務需求。

經測試,星星海新一代自研雙路服務器通過深度優化定製,計算密度提升50%;通過高性能散熱器和研發創新獨立風道設計,散熱方案支持CPU功效提升45%;基於增強的可靠性、可用性和可服務性(RAS)技術,可多維度全覆蓋故障診斷、精細化定位等問題明確故障,使宕機率減少50%。

軟硬一體化成趨勢

事實上,在騰訊雲自研服務器的邏輯中,單純硬件的更新是不足以支撐未來雲計算的業務的。

在騰訊看來,隨着雲計算承載的業務規模呈現指數級增長,軟件和硬件的結合成為剛需。

據騰訊雲服務器運營中心專家工程師牛犇介紹,在來料質量方面,騰訊雲採取基於業務模型的來料篩選機制,通過雲業務模型與硬盤底層參數建模,分析參數統計分佈,定製化篩選標準,使得硬盤年化故障率顯著降低至1/5。

在運營監控方面,騰訊雲的硬盤智能監控系統通過多維度硬盤健康評分和AI 故障預測,使硬盤故障提前識別率提升至80%。

據雷鋒網瞭解到,截止目前,騰訊數據中心正在運行的服務器超過100萬台,經統計,硬件故障導致的系統宕機中,內存故障佔比排第一。

騰訊雲通過優化算法進行內存篩選、優選X4顆粒內存條、使能多種內存RAS特性等方式大大提升了服務器的可靠性,並通過部署MCA Recovery技術,有效緩解了不可糾正錯誤的影響,減少40%以上內存故障導致的宕機。

此外,在網絡、運維等方面,騰訊雲也都打造了軟硬一體化解決方案,去進行優化。

其實不僅僅是自研服務器,以騰訊云為代表的雲服務廠商也在數據中心、雲端軟件等領域也進行了廣泛的投入。

對此,劉裕勳對雷鋒網表示到,雲上的客户是非常的“挑剔”的,同時雲計算市場的競爭也很激烈,客户都希望用低成本,高質量的產品,客户要求的苛刻會推動我們去做更多的變革和演進。

在此背景下,通過自研服務器、自研數據中心技術、再到上層的IaaS、PaaS、SaaS平台的協同打造,勢必能夠更好地滿足用户的業務需求。(雷鋒網)

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2263 字。

轉載請註明: 雲計算正在定義硬件 - 楠木軒