杉巖數據CEO陳堅:新基建需要以數據為核心的“新存儲”

杉巖數據CEO陳堅:新基建需要以數據為核心的“新存儲”

2020年4月20日,國家發改委首次明確了“新基建”的範圍,包括信息基礎設施、融合基礎設施、創新基礎設施三個方面。同時,國家發改委相關負責人表示,初步研究認為,新型基礎設施是以新發展理念為引領,以技術創新為驅動,以信息網絡為基礎,面向高質量發展需要,提供數字轉型、智能升級、融合創新等服務的基礎設施體系。

新基建涵蓋了眾多的數字化基礎設施:雲計算、人工智能、工業互聯網、5G、物聯網、數據中心、智能計算中心等信息基礎設施,以智能交通、智慧能源為代表的融合基礎設施。可以看出,新基建技術中最核心的資產便是數據。物聯網讓採集的數據種類和數量越來越多,5G讓數據傳輸的速率越來越快,雲計算在不斷地對數據進行計算處理,AI在不斷地挖掘數據的價值,這些技術連接的關鍵紐帶便是存儲。在新基建推動的當下,存儲可以説是推動產業向高端化發展的剛需。

根據國際諮詢機構IDC的預測,到2025年智能終端數量將達到400億個,全球數據總量也將從2020年的44ZB躍升到180ZB,其中30%屬於實時數據,75%來自邊緣和終端,而這些數據中,將會有80%的數據是非結構化數據。

數據不僅總量巨大,增長速度也十分驚人。舉個例子,一個大型三甲醫院每天生成數TB數據;一個智能質檢的生產線每天生成數百TB數據;一座智慧城市每天產生的數據量更是高達數百PB。基於此,IT技術人員不得不重新考慮存儲的效率以及架構問題,“新基建”需要以數據為核心的“新存儲”。

新存儲特質之一 ——海量數據的可持續高效存儲

面對如此龐大的數據存儲量以及可預見性的數據增長量,新的存儲架構必須要考慮的第一個點就是如何以更高擴展性、更高吞吐/低時延以及更高性價比實現容量管理。首先要有高擴展性,滿足因為業務量、數據精細度提升導致的數據量增加的隨時擴容需求;其次要有高吞吐/低時延,保障在海量數據、海量小文件場景下,數據可以快速地讀取和調用;當然用户也很看重整體方案的性價比。

數據存儲到公有云是一種可選解決方案,租用公有云廠商的存儲空間節省自建存儲的硬件採購成本,根據數據存儲量採購相應存儲空間。不過,數據調用的成本也在隨着數據量的增加而增加,數據使用成本甚至超過了原有的硬件採購成本,比如美國國家航天局(NASA)也不得不因為每個月上百萬美元的數據訪問費用,而開始考慮將數據從亞馬遜雲平台遷回自建數據中心。

以分佈式技術為核心架構的新存儲,擺脱了傳統存儲數據共享困難、擴容受控制器性能限制等問題,通過將軟件部署於通用服務器,用去中心化架構支持彈性擴展和高併發訪問,消除了容量和性能的約束,實現更優秀的存儲能力,可以輕鬆支撐EB級存儲規模;千萬級IOPS和TB級聚合帶寬能夠滿足高併發訪問需求,加之部署簡單、靈活擴展的特點,為當下日益增長的海量數據提供極致容量、極致性能、極致可靠和極致性價比的存儲系統底層支撐。

新存儲特質之二 ——海量數據的高效管理

僅解決了數據存儲的問題,對於新基建的需求來説遠遠不夠,還要進一步解決存儲數據的管理問題。

數據就像我們人一樣,也有着它的生命週期,從產生到消亡,有很多個階段。舉個例子:一個病人去醫院就診拍攝X光片,剛產生的結果數據我們稱之為熱數據,這類數據對於數據的讀寫效率和即時性有很高的要求。就診結束之後的一至兩年內,病人會進行復診,診斷數據不需要實時讀取但也需要能夠快速獲得,這類數據稱之為温數據;病人康復後,根據醫療行業就診數據需要至少保存20年的要求,就診數據可以保存到成本相對較低的存儲介質中,待有需要時再調取,這類數據我們稱之為冷數據。因此,新基建所需的新存儲系統需要具備數據生命週期管理的能力。

另外不得不提的一個數據管理場景便是邊緣計算和中心計算,雲邊協同的數據管理能力對存儲系統支撐數據中心與邊緣之間的數據匯聚和分發至關重要。特別是5G的發展,工業互聯網、物聯網技術的應用,數據更多會從攝像頭、傳感器、移動設備等不同的邊緣端產生,而傳統的SAN/NAS存儲只能在局域網內訪問,無法提供雲邊協同統一的數據管理能力。新存儲需要打破傳統存儲訪問協議的限制,能夠基於互聯網協議實現數據跨網絡的統一管理和訪問,從而能夠直接與數據中心之外的物聯網設備、智能終端直接交互數據,滿足當前和未來數據交互的需求。

當下應用度較高的混合雲場景數據也需要進行數據管理。眾多公有云大廠都已經推出了相應的部署模式,出於安全和成本的考量,部分企業選擇將互聯網相關業務部署在公有云,同時將重要數據存放在私有云,以兼顧業務靈活和數據安全。企業私有云存儲需要和公有云存儲結合起來,實現業務無感知的數據上雲、下雲的融合和流動。在這樣的發展趨勢下,需要新存儲能夠提供與公有云存儲相兼容的協議,以及可跨互聯網數據傳輸的能力。將公有云存儲與私有云存儲打通,形成混合雲存儲的共同底座來構建企業數據湖,這也是發展的必然。

任何技術的變革都需要一個過渡階段,新存儲的部署越來越多,傳統存儲也還會長期存在並在其生命週期中繼續發揮作用。因此,通過對異構存儲的整合實現數據統一管理,不僅有效保護客户既有投資,也應該是新基建趨勢下對新存儲系統的要求。

新存儲特質之三 ——海量數據的價值挖掘

數據最終的價值呈現一定是為應用服務的,人工智能和大數據分析技術的發展,驅動數據產生更多的應用價值。所以在數據的價值挖掘,我認為新存儲系統的終極需求必須能夠更好地利用人工智能、服務於人工智能,賦能大數據價值挖掘。

在利用人工智能方面,傳統SAN/NAS系統因為受限於訪問協議的限制,無法感知數據,只能在存儲底層利用數據訪問IO分類、使用容量統計、存儲硬件錯誤碼等信息進行統計分析,來實現存儲系統自動化運維與管理等維度,以存儲系統自身管理效率改進為目標的 “基礎智能”。

而真正的智能存儲,我認為最重要的核心價值應該是基於數據感知,能夠對數據進行加工和處理,進而賦能應用對數據的價值挖掘和價值呈現。所以新存儲系統需要能夠預集成一些通用的、面向業務場景的數據預處理功能和算法(如亞馬遜的S3 Select),然後通過與業務系統進行數據感知,充分利用存儲系統閒置的計算能力,實現某種程度上的數據處理功能卸載和垂直優化,降低業務對存儲的訪問壓力,從而大幅提升應用系統數據處理和分析效率。

另外,基於海量非結構化數據的價值挖掘分析,基本都要依賴機器學習、深度學習等人工智能技術。在人工智能場景中,數據要經歷採集、清洗、訓練、推理、歸檔等過程。人工智能各個階段對存儲系統要求差異非常大,比如在採集階段,需要存儲系統支持互聯網遠程訪問協議、吞吐量要大;在數據清洗階段,需要存儲系統支持基於標籤的檢索,最好能支持視頻自動抽幀等能力;而在訓練階段,則要求存儲系統具備高併發低時延的高性能能力;最後在歸檔階段,則需要低成本的存儲系統。如果採用傳統存儲產品,一般需要不同類型存儲系統來搭配使用,以滿足成本、性能、檢索等多方面要求,但這又勢必造成數據在不同存儲系統之間的孤島。因此,新智能存儲應該具有基於標籤的數據檢索、多種訪問協議接口互通能力、滿足高性能、低延時,以及低成本歸檔能力,從而實現機器學習不同AI管道階段數據的統一存儲,避免產生數據孤島,並且提高數據在各個AI管道的流轉效率。

總而言之,新基建為中國的產業升級清晰地指明瞭方向,數字化基礎設施的廣泛建設以及隨之產生的新型應用需求將帶來數據爆發式的增長。海量數據藴含巨大的價值,存儲必將是新基建堅實的底座。更多樣化的數據模式、日益複雜的數據管理以及高效的數據利用對存儲提出了更高的要求,無論是對於傳統存儲廠商還是創新型存儲廠商,是挑戰,更是機遇。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 3091 字。

轉載請註明: 杉巖數據CEO陳堅:新基建需要以數據為核心的“新存儲” - 楠木軒