騰訊雲星星海重磅發佈兩款自研新品 打造軟硬一體雲計算基礎設施

12月20日,在騰訊2020 Techo Park開發者大會“下一代軟硬一體化的雲計算基礎設施”分論壇上,騰訊雲重磅發佈星星海首款自研GPU服務器和星星海新一代自研雙路服務器,後者也是國內首款搭載即將發佈的第三代英特爾至強可擴展處理器(Ice Lake)的雙路服務器。此外,騰訊雲還分享了在雲計算、存儲、網絡、運維在軟硬一體化趨勢下的創新和實踐。

星星海首款自研GPU服務器

會上,騰訊雲服務器與供應鏈管理部總經理劉裕勳表示,隨着雲計算承載的業務規模越來越大,傳統服務器難以完全滿足雲計算數據中心場景下對超大規模、需求多樣、高性價比、安全可靠以及軟硬件一體化等方面的要求。通過軟硬一體化的不斷髮展,騰訊雲可以結合開發者的多元化需求提供更高性能、更佳性價比的體驗。

騰訊雲星星海重磅發佈兩款自研新品 打造軟硬一體雲計算基礎設施

此次,騰訊雲在深入理解業務需求的基礎上,重磅推出星星海首款自研GPU服務器。

在雲遊戲場景中,客户對單卡TCO,單用户成本非常敏感,迫切需要降低成本。但現存所有GPU服務器機箱長度過長,當遇到需要低延時邊緣部署時,無法滿足需求,會出現單卡掛死,導致整機掛死的情況。

針對類似的場景和業務需求,星星海首款自研GPU服務器在性能、能效、安全特性、可靠性等層面進行了大膽的自主創新和突破。

在設計上,全球首創在同一框架內,靈活更換主板,支持多平台兼容,使得業務在面對GPU 選擇時獲得非常充分的競爭優勢;同時結合業務對PCIe帶寬要求低的特點,支持16卡GPU+4路intel服務器,達到業界最高密度,可大幅降低單卡TCO。

在創新上,創業界最短機框,支持邊緣部署,提高帶寬穩定性,極大降低業務延時(最高可降近百毫秒);在可用性上,這款GPU服務器的RAS特性以及PCIe熱插拔特性,使得單GPU故障對整機無影響,可用性大幅度提升。

星星海新一代自研雙路服務器,雲上建設提前享受技術紅利

隨着AI、5G、車聯網和物聯網等技術的大規模部署,企業對於算力、存儲等方面的要求也更加苛刻。星星海新一代自研雙路服務器是國內首款搭載即將發佈的第三代英特爾至強可擴展處理器(Ice Lake)的雙路服務器,為用户提供更高內存帶寬,更快I/O吞吐,更強實例性能,並幫助用户基於英特爾深度學習加速(英特爾DL Boost)技術,獲得處理器內置AI加速能力。

星星海新一代自研雙路服務器基於即將發佈的第三代英特爾至強可擴展處理器,採用英特爾的10納米制程,能夠滿足通用計算、異構計算、裸金屬、高性能計算等全業務場景需求。測試數據顯示,與搭載第二代英特爾至強處理器的雙路服務器相比,新款服務器的浮點性能提高70%,同時單機最高支持的內存可達12TB,可充分滿足大型數據庫等業務需求。

經測試,星星海新一代自研雙路服務器通過深度優化定製,計算密度提升50%;通過高性能散熱器和研發創新獨立風道設計,散熱方案支持CPU功效提升45%;基於增強的可靠性、可用性和可服務性(RAS)技術,可多維度全覆蓋故障診斷、精細化定位等問題明確故障,使宕機率減少50%。

面對雲業務的需求, 星星海新一代自研雙路服務器大幅提升騰訊雲計算矩陣戰略能力,為用户提供更強的計算性能,實現彈性部署,有效降低雲服務總體成本。憑藉對硬件系統架構設計和前瞻性基礎技術研究,星星海新一代自研雙路服務器可以支持未來3-5年的前瞻性架構演變,讓雲上開發部署提前享受技術紅利。

英特爾全球大客户總監米琦表示:“英特爾將基於‘以數據為中心’的全面產品組合、強大合作伙伴生態系統和持續不斷的技術創新構築堅實智慧雲基石,一如既往地攜手騰訊,共同加速智慧雲計算與新基建的發展,擁抱數字經濟。”

騰訊雲星星海重磅發佈兩款自研新品 打造軟硬一體雲計算基礎設施

值得一提的是,這兩款服務器都是出自星星海硬件實驗室,也是騰訊首個硬件工程實驗室,該實驗室專注於硬件系統架構設計和前瞻性基礎技術研究。目前騰訊雲星星海已經發布了多款自研硬件產品,包括四款自研服務器和一款智能網卡,並且在計算、存儲、網絡等全線硬件產品領域申請超過20多項專利。

軟硬一體化成趨勢,騰訊雲打造雲計算基礎設施

在數據大爆發的時代背景下,雲計算承載的業務規模呈現指數級增長,軟件和硬件的結合成為剛需。未來,軟硬件一體化技術會進一步發展,為用户提供更強壯的基礎設施平台,提升雲計算的性能、提高資源利用率,最終為用户提供穩定、更具性價比的服務。

此次分論壇上,除了發佈兩款全新服務器自研硬件產品,在雲計算軟硬一體化的大趨勢下,騰訊雲還重點分享了在存儲、網絡和運維等方面的具體實踐,為業界提供了更多的參考。

隨着磁存儲技術和工藝製程的發展,硬盤容量越來越大,故障率和故障恢復時長也隨之變長,這會對雲上開發帶來很大的穩定性挑戰。為了給開發者提供更為穩健的雲服務,騰訊雲通過對硬盤來料質量,運營監控和技術創新等手段進行智能化運營。

騰訊雲服務器運營中心專家工程師牛犇介紹,在來料質量方面,騰訊雲採取基於業務模型的來料篩選機制,通過雲業務模型與硬盤底層參數建模,分析參數統計分佈,定製化篩選標準,使得硬盤年化故障率顯著降低至1/5。在運營監控方面,騰訊雲的硬盤智能監控系統通過多維度硬盤健康評分和AI 故障預測,可使硬盤故障提前識別率提升至80%。

騰訊雲星星海重磅發佈兩款自研新品 打造軟硬一體雲計算基礎設施

目前,騰訊數據中心正在運行的服務器超過100萬台,經統計,硬件故障導致的系統宕機中,內存故障佔比排第一。騰訊雲星星海實驗室副總監李志高認為,解決數據中心服務器宕機率高的關鍵路徑是降低內存故障率和減少內存故障導致的宕機。

騰訊雲星星海重磅發佈兩款自研新品 打造軟硬一體雲計算基礎設施

騰訊雲通過優化算法進行內存篩選、優選X4顆粒內存條、使能多種內存RAS特性等方式大大提升了服務器的可靠性。此外,騰訊雲也是業內首家在雲計算領域大規模研發部署MCA Recovery技術的雲服務商,該技術能夠有效緩解不可糾正錯誤的影響,減少40%以上內存故障導致的宕機。

騰訊雲的規模正在飛速發展,雲網絡內部網關及邊界網關帶寬性能需求也伴隨着騰訊雲的規模在快速提升,雲網絡面臨着性能壓力、運維壓力和可運維性方面的挑戰。為此,騰訊雲通過可編程芯片硬件的解決方案使得網絡帶寬提升的同時,成本縮減約為原來的三十分之一。

傳統網關升級通過冷升級的方式,依賴上聯交換機的hash能力和underlay網絡路由收斂時間,而騰訊雲可編程芯片硬件解決方案通過單節點熱升級的方式,onl控制面把配置按照數據面格式固化在內存存,利用tonfino dma控制器,升級後reload配置,整個熱升級過程可以控制在20ms之內。

騰訊雲網絡產品中心專家工程師陳曦表示,目前該項解決方案已經應用在騰訊雲多個高性能的業務場景之中,除了騰訊內部業務大量上雲之外,也即將應用在用户idc和本地專有云互通、用户idc數據遷移上雲等。

騰訊雲星星海重磅發佈兩款自研新品 打造軟硬一體雲計算基礎設施

而在網絡存儲虛擬化軟硬協同方面,搭配騰訊雲自研智能網卡能實現雲主機鏡像(公有鏡像,自定義鏡像)全兼容,兼容現有騰訊云云主機各類鏡像包括linux和windows。騰訊雲容器服務 TKE 藉助智能網卡推出下一代容器網絡方案。

據騰訊雲網絡產品中心研發副總監王亮介紹,該方案可無縫的支持和存量的雲主機進行相互熱遷移,能快速進行雲主機和容器服務部署,並且依託軟硬件協同實現的高密度彈性網卡,支持一個 Pod 獨佔一張彈性網卡,不再經過節點網絡協議棧(default namespace),極大縮短了容器訪問鏈路,縮短了訪問時延,並使 PPS 可以達到整機上限。除此之外,方案還實現了短鏈接場景下 QPS 相比之前容器網絡方案(策略路由方案,網橋方案)提升 50%-70%;長鏈接場景下 QPS 提升 40%-60%。

騰訊雲星星海重磅發佈兩款自研新品 打造軟硬一體雲計算基礎設施

以全新自研服務器產品為核心,圍繞網絡、存儲和運維等細分領域提供多樣解決方案,騰訊雲正通過軟硬一體化的方式,打造面向下一代的雲計算基礎設施,為各行各業提供更優質的雲計算服務,促進全社會的數字化轉型升級。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 3151 字。

轉載請註明: 騰訊雲星星海重磅發佈兩款自研新品 打造軟硬一體雲計算基礎設施 - 楠木軒