文|包校千
編輯|石亞瓊
來源 | 數字時氪(微信ID:digital36kr)
封面|視覺中國
**
東數西算,讓數據中心成為行業關注的焦點。
本質上,這是雙碳背景下的能源供需再分配,發揮西部可再生能源的優勢。而當下,國內數據中心在綠電供能未完全放開的情況下,數據中心的節能減排、降本增效,仍然在眼下被放置於首位。
PUE(Power Usage Effectiveness),即電源使用效率,是一項衡量數據中心運營、管理水平的關鍵指標,也是數據中心綠色、節能、環保程度的代名詞。
圍繞“碳中和”的時代命題下,這一名詞更是被行業觀察家們頻繁提及。
根據國際正常運行時間協會2014年的數據中心調查,全球大型數據中心PUE的合理值界於1.6-2.0之間,PUE平均值為1.7。而國內數據中心同期PUE為 2.5-3.0,IDC行業整體處於粗放式的發展階段。
一直以來,歐美國家的數據中心行走在綠色節碳的最前沿。全球數據中心節能領域的佼佼者——Google,在2016年為已經很節能高效的15座數據中心,節省了40%以上的冷卻耗能,約佔數據中心用電總成本的15%,PUE降低至1.12。
過去6年,Google數據中心被外界津津樂道,也成為IDC行業用智能技術“武裝”自己的學習範本。基於此,本文着重討論如下問題:
1.Google實現綠色低碳的秘笈究竟是什麼?
2.國內數據中心節能減排的切入點和主要路徑是什麼?
3.國內領先的數據中心有哪些具體實踐和成果?
4.數據中心未來會朝怎樣的方向發展?
能效比行業高1/32014年,Google消耗了440.3萬兆瓦時的電力,相當於36.7萬户美國家庭全年的總用電量。對於Google來説,即便是節省幾個百分點的耗電量,都意味着巨大的經濟效益。
其中,數據中心的用電耗能所佔比重很大。無論是Google覆蓋全球的網絡服務還是手機應用,都需要數據中心來提供支持。
根據美國能源信息管理局的數據,美國商業用電價格通常為25美元/兆瓦時到40美元/兆瓦時。數據中心用電如果能減少10%,就能幫助Google節省數億美元的支出。
然而,每個數據中心的體系結構和環境都很獨特,這個高度複雜的動態環境牽扯大量的參數,傳統的公式工程學和人工手段很難優化。
此時,基於通用智能框架的AI派上了用場,由Google數據中心部門和Deepmind來操刀。
這個項目萌生於2014年,起因是青年工程師Jim Gao在網上觀看斯坦福大學教授吳恩達的教學視頻後,受到的啓發。他認為用類神經網絡可以提高Google數據中心的效率。他和團隊的想法也很簡單:再小的提升也有巨大的節能效果,對於減少碳排放,幫助抑制氣候變化能夠起到很大作用。
為期12個月的開發階段中,AI預測PUE的精準度被優化到了99.6%。為了讓模型準確預測數據中心的效率,算法從數千個傳感器中提取出數據中心冷卻系統的快照,輸入到深層神經網絡;然後根據不同組合預測潛在行為對能源消耗的影響,幫助Google決定何時清理熱交換器,從而提高設備冷卻性能。
Google每個數據中心都有各自的供電和冷卻設施,而且分佈在不同的氣候區。雖然季節性天氣變化也會影響PUE值,但對於谷歌遍佈世界各地的所有數據中心,都已成功地把PUE值保持到一個較低的水平,即使在濕熱的亞特蘭大夏季也不例外。
2018年前後,Google完成了這套AI系統的升級,不需要人工干預即可直接控制數據中心的製冷系統,而且可以被數據中心的操作專家有效監控。同時,這套基於雲端的AI控制系統已經為Google多家數據中心應用,節約了大量的能源。
Google全球數據中心副總裁Joe Kava在博客中表示,在歐洲,Google數據中心的能耗通常比一般的數據中心低三分之一,但團隊仍然在努力使用更少的能源。例如把弗雷德里西亞數據中心打造成為丹麥最節能的數據中心之一,利用先進的機器學習技術確保每瓦電量都使用得當。
數據中心為什麼是“電老虎”Google AI第一次聲名大噪,是在2016年的那場AI與真人的圍棋對決。在機器學習和算法的神秘面紗被揭開後。中國對於AI技術的熱忱,以及可落地場景的探索,掀起了一股前所未有的熱潮。
中國IDC行業也深受啓蒙,開始研究如何利用AI技術為數據中心提高能效。Google利用AI算法控制數據中心製冷系統的思路,在這個時期也被傳導至國內,加速中國大型數據中心走向節能減碳的陣營中。
市場也察覺到了一種變化:以前,產業界關心用於人工智能的數據中心;後來,他們更在意用於數據中心的人工智能。
這一趨勢發生在AI的黃金時期。大規模的服務器串聯而成的計算系統支撐了海量的數據處理和運算,一座座數據中心拔地而起。數據中心機架數量由2016 年的 124 萬架上升至 2019 年的 227 萬架,四年間上漲 83.1%。
這些耗電量大,功率密度高達30-50kW,有些甚至已經升級為100kW的機架,對數據中心的能耗帶來了更大挑戰。
不過,傳統的大型數椐中心機房IT設備僅佔用電耗能的46%,另有40%以上用在了泵、冷卻器和冷卻塔等大型工業製冷設備上。為了維持機房恆定温度,數據中心通常把進風温度控制在20-25度。
根據PUE=數據中心總耗電/IT設備耗電的計算公式,不難看出製冷環節是導致數據中心能耗飆升的主要元兇,也是PUE居高不下的原因。
如今,行業級的AI智能解決方案,正以提高能源利用效率的方式,推進中國數據中心的建設和升級。
2019年,我國在用超大型、大型數據中心的平均PUE分別為1.63和1.54,規劃在建的數據中心,平均設計PUE在1.5左右。雖然行業專家坦承,我國數據中心的總體能耗仍與國際先進水平相差30%以上,且只有一小部分新建數據中心PUE可做到1.4以下,但這一差距正以肉眼可見的速度縮窄。
年度減排=種16萬棵樹在國內,華為是第一家用AI幫助數據中心在冷卻環節做複雜決策的企業。
傳統的製冷系統管理雖然久經驗證,但高度依賴運維人員的經驗,IT團隊時常人手不足,或沒有足夠的資源來密切關注7*24小時的複雜流程,缺乏一定的靈活性和精確性。
Google數據中心的智能路線,讓行業愈發看到AI既能夠勝任全天候的實時監控,又能在大量系統參數發生變化時,發揮及時應對的技術優勢。
廊坊雲數據中心是華為公有云的北方基地以及華北地區的數據樞紐,也是華為落地AI的首個項目。
出於節能減排和控制成本的考慮,華為廊坊雲數據中心在建設之初,就採用了行級精密空調、高效供配電,冷熱通道隔離等設計方案,還部署了間接蒸發式自然冷卻(IEC)系統,並利用外部冷源,降低製冷系統的電力消耗。
儘管設計方案在當時很超前,但如此複雜的體系,限制了數據中心的運維調整空間,系統給無法根據系統的實際用量做出精確的調整,只能在幾個固定模式之間來回切換。
而大數據與AI的結合,讓華為數據中心找到了算法的最優解。廊坊雲數據中心率先成為了“試驗田”。
2018年5月,華為把iCooling能效優化技術方案部署在廊坊雲數據中心的1500個機架上,節省了8%的電力消耗,年平均PUE從1.42降低至1.26。算下來,每年可省下630多萬度電,減少超過300萬千克的二氧化碳排放,效果等同於種下了16萬棵樹。
這套系統的邏輯和上述Google的智能解決方案類似:系統從700多個監控點、傳感器中收集數據,然後對數據與系統PUE數值、能效之間的關聯度進行分析,識別出最重要的21種變量後,再對深度神經網絡進行訓練,建立動態的PUE模型。
最終,這套PUE模型的預測準確性達到99.5%。有了它,華為邊緣AI推理平台Atlas 200可在1分鐘內,從40萬中初始組合中找出最佳的製冷策略,準確性和速度遠超資深數據中心工程師的能力。
從自動化邁向智能化基於華為自建大型節能數據中心的能力,以及iCooling等軟件解決方案的技術優勢,華為開始扮演IDC服務商的角色,參與外部數據中心的建設。
例如2019年12月,中國移動寧夏數據中心(中衞)正式投產時,定位於超大規模、綠色節能的世界一流數據中心。根據官方披露的數據,在第一階段冬季自然冷卻的場景下,華為iCooling AI能效優化技術,幫助該數據中心的總能耗降低了3.2%,每年可節電40多萬度。
當AI學習能力得到進一步增強,數據中心負載提升和製冷方式的切換,其目標是完成每年節省600萬度電的任務,相當於減少約300萬千克的二氧化碳排放。
按照中國工信部的要求,2022年新建大型、超大型數據中心PUE必須達到1.4 以下。如何運用新技術、新架構降低能源損耗、實現數據中心的綠色發展,成為IDC行業的關注熱點。
以華為烏蘭察布雲數據中心為例,採用間接蒸發冷卻解決方案和iCooling能效優化技術,年均PUE降低至1.15。與傳統冷凍水解決方案相比,該數據中心每年可節省耗電量超過1600萬度,每年減少二氧化碳排放量約8140噸。
再比如,貴安華為雲數據中心在2021年9月投入使用時,對外宣佈的PUE是1.12,相當於大部分的電力資源都在數據中心中被利用起來,基本與Google數據中心的能耗持平。華為對此也給予了很高的評價,認為達到了業界領先水平。
這其中,AI和大數據分析技術起到了削峯平谷的作用,服務器可根據業務功率變化實時調整製冷功率,提升能效和運維效率。滿負荷運行情況下,理論上每年可節省10.1億度電和81萬噸的碳排放。
同樣引入AI技術的,還有百度陽泉數據中心。其深度學習模型根據室外天氣濕度、温度和負荷,自主判斷並切換製冷模式、預冷模式和節約模式這三種冷水機組運行模式。
此外,陽泉數據中心的AI智能預警功能,可以根據負載預判設備的運行情況,然後給出維護策略。單體數據中心的年均PUE最高可降至1.08,PUE明顯優於1.59的全球平均水平。
在數據中心自我進化的過程中,AI技術所能應用的範疇遠不止調整PUE、降低能耗。
陽泉數據中心已經從自動化向智能化的方向發展。例如數據中心在2018年嘗試採用無紙化智能巡檢,相關數據上傳到遠端電腦,專家系統通過分析現場運行數據,保障系統的穩定性。
隨着一系列AI技術在數據中心運營和管理中的作用越來越廣泛,大公司在智能運維、風險管理、安全管理等方面,對AI給予了比較大的期許。
數據中心的日常運維,有50%的人力消耗在巡檢工作中。按照華為設計的數據中心AI無人巡檢方案,遠程抄表、圖像識別、聲音識別等多種技術,可讓90%的人工巡檢內容轉變成自動化、遠程無人處理。
除此之外,華為基於自動駕駛技術的AI-Robot ,已經從圖像/聲音/氣味識別、温度雲圖、資產管理等維度,自主規劃路線,實時上報巡檢信息,並生成巡檢報告。
如今,AI幫助數據中心開啓了節能減排的新時代,而無人智能運維從“超前”變為“眼前”,既需要更多的成熟方案和技術攻堅,也取決於市場能否爆發新的需求。但無可否認,智能化的底座在給IDC行業帶來從追趕到超越的更多信心。
(本文完)