楠木軒

騰訊雲首次揭秘:規避40%服務器宕機的背後技術

由 納喇傲兒 發佈於 科技

本文轉自【TechWeb】;

雲時代到來,雲服務變成像水電一樣的基礎服務。作為雲計算的底層承載,服務器的RAS特性(Reliability、Accessibility、Serviceability)決定着雲服務的質量,也影響着雲上用户業務運行的連續性。

然而,服務器難免因發生硬件故障導致宕機。據統計,硬件故障是服務器宕機的重要因素,而內存故障佔了硬件故障整體的50%。

為了給客户提供安全、穩定的雲計算服務,騰訊雲聯合英特爾共同探索影響服務器宕機的關鍵因素,率先引用並積極完善MCA Recovery技術,同時通過結合硬件品控等手段,成功規避40%由內存故障引起的服務器宕機事故,有效保證雲上用户的業務連續性。

騰訊雲也是首家在雲計算領域大規模研發和使用MCA Recovery技術的雲服務商。

內存故障:服務器的最大殺手

硬件故障是服務器宕機的重要因素,而內存故障佔了硬件故障整體的50%。如果能夠有效解決內存故障引起的服務器宕機問題,服務器宕機情況將能夠得到極大的改善。

由於內存不可糾正錯誤的出現,內存故障只能被減少,不可被消除。因此如何降低內存故障對宕機的影響、保證系統正常運行成為更有價值的研究方向,而MCA Recovery技術則是降低內存故障負面影響的關鍵技術之一。

MCA Recovery技術:內存故障的重要突破點

MCA Recovery(Machine Check Architecture Recovery)技術源自2010年英特爾提出的硬件自檢機制。然而,由於以往CPU RAS特性的收費門檻與小規模雲廠商對宕機的高容忍度,所以業界缺少對該技術的深入研究和工程實踐,導致技術性能未被最大限度地發掘出來。

經過多維度的對比測試,騰訊雲工程師發現:MCA Recovery技術能夠有效緩解不可糾正錯誤的影響,縮小內存故障情況下對業務的負面影響範圍。在使用MCA Recovery技術後,發生不可糾正錯誤的服務器不會立即重啓系統,而是標記和傳遞故障數據,待消費者根據實際情況進行靈活處理,從而規避不可糾正錯誤導致系統立即重啓的問題,更大限度地保證了系統的可用性。

在技術研究基礎上,騰訊雲推動MCA Recovery技術的應用落地,成為首家大規模研發和使用該技術的企業。配合壓測、硬件品控等各項手段,騰訊雲服務器內存質量得到很大改善,成功減少由內存故障引起的服務器宕機事故達40%,客户體驗進一步提升。

MCA Recovery技術的應用推廣

MCA Recovery技術幫助騰訊雲更好地滿足客户需求。

以遊戲客户為例,由於成本、架構設計等原因,部分遊戲客户採用數據、計算、日誌全部集中於同一台服務器的集中式部署架構,導致單機可用性要求高。騰訊雲利用MCA Recovery 技術,建立OS適配、隱患通知、熱遷移規避、下線維修、重新上線等配套流程,延長機器uptime,極致地滿足客户需求。

同時騰訊雲開發一套自動化注錯工具,有效檢測MCA Recovery流程觸發是否正常。此注錯工具已成為騰訊內部規範,同時也推廣到服務器廠商,方便行業早期識別相關隱患。

騰訊雲還與英特爾及主板廠商緊密合作,推動行業技術合作進步。在技術研究過程中,騰訊雲與廠商緊密合作,有效修復多個底層固件問題。同時與英特爾的聯合項目推動一系列知識沉澱,如騰訊-英特爾技術白皮書(詳見閲讀原文),積累大量的軟硬件知識儲備,為客户提供更安全、穩定、高效的雲服務。

英特爾高級技術總監Niveditha Sundaram表示:“經過大量線上故障分析診斷和雙方通力協作,騰訊雲成功將英特爾平台的MCA Recovery技術運用部署,並將由內存故障導致的服務器宕機率大幅降低了40%,其敏捷高效的運維堪稱業界典範。我們深信雙方合作必將在騰訊未來的數據中心基建中誕生更多成果,並給最終客户帶來更好的體驗。”