本文轉自【美通社】;
北京2021年3月12日 /美通社/ -- HDFS(Hadoop Distributed File System)作為通用的分佈式文件系統,可以提供高可擴展、低成本、高可靠的海量數據存儲,並廣泛應用於大數據存儲和分析方向。
近年來伴隨5G、物聯網、人工智能等領域的快速發展,數據量規模不斷增大,同時隨着大數據應用的多樣化發展,對數據的利用也更加成熟與深入,更大數據量以及更加靈活的數據處理場景對HDFS的數據存儲與數據讀寫吞吐提出了越來越高的要求。
為應對這些挑戰,浪潮着力研發與集成的面向分佈式文件系統的智能存儲管理技術Smart Storage Management(簡稱SSM)應運而生。通過多項新技術及特性來解決存儲場景中的各類挑戰,助力大數據產品提供更加高效、智能的存儲解決方案。
現今存儲技術面臨哪些疑難挑戰?
説到疑難挑戰,首先當推基於異構存儲介質的數據存儲管理。從硬件平台來看, HDFS的設計初衷是基於通用的廉價硬件提供可靠、高吞吐的數據存儲和訪問。但隨着硬件的迅速發展,傳統的磁盤性能和存儲容量都已達到瓶頸,新硬件如固態硬盤、非易失性內存和SMR磁盤等受到廣泛關注。
目前,HDFS已有的功能和研究雖然可以兼容多類型的異構介質,實現對異構存儲介質的訪問和使用,但沒有很好的機制讓其智能感知不同設備的I/O特性,並根據數據的訪問特徵動態改變存儲方式,在異構的環境下最大程度發揮各類硬件的性能優勢。
其次則是面向大規模存儲的容量壓力。為了系統的可靠性,傳統HDFS通過副本策略來保障數據的安全,通常默認為三副本,但存儲利用率僅為1/3。如果使用糾刪碼(Erasure Code,EC)來替換副本策略確實可以提供與副本相同的容錯能力,並使用較少的存儲空間,但在典型的糾刪碼中如果要求存儲額外開銷不超過50%的話,相應的糾刪碼卻會佔用更多的計算資源,所以當系統面臨存儲壓力時,用户常常希望將不常使用的數據使用糾刪碼存儲,降低存儲壓力。
但目前的HDFS技術僅支持基於目錄的副本到糾刪碼轉換,轉換後業務訪問文件的路徑將發生改變,並無便捷的機制自動化進行。
面向應用負載的自適應存儲挑戰也不容忽視。從上層應用來看,一方面在大數據Hadoop生態系統不斷髮展的過程中,HDFS因其自身的穩定可靠、簡單易用、擴展性高等優點使越來越多上層應用和系統將其作為統一的底層存儲,其上存儲的數據類型和支持的分析負載也越來越多元化。
另一方面,在企業中不同部門和用户經常基於同一份全量數據進行查詢分析,帶來同一份數據服務多樣的查詢負載。在這種應用場景下,基於人工制定策略的存儲優化就難以生效,勢必需要提供基於應用負載的自適應優化技術來應對。
智能存儲管理(SSM)技術 聚焦兩核心、三場景、四技術、五特性
面對異構環境下如何最大程度發揮各類硬件性能優勢的難題以及來自存儲的數據類型和支持的分析負載越來越多元化與應用負載的自適應優化等方面的挑戰,智能存儲管理(SSM)提供了智能化的解決方案。
何為智能存儲管理Smart Storage Management(SSM)?
概念上,智能存儲管理(SSM)被定義為面向 HDFS的智能管理架構,主要提供針對新型存儲設備、高速網絡、新計算的存儲優化與數據優化解決方案,實現端到端的數據管理服務,聚焦點可以概括為“兩核心、三場景、四技術、五特性”。『兩大核心』SSM的核心是基於數據熱度的智能化管理來實現自動化面向存儲的全生命週期優化。在數據熱度方面,典型的應用場景中通常80%的計算工作負載用於處理20%的數據,在動態變化環境中針對局部數據進行優化尤其困難。
面對該問題,SSM通過收集文件系統操作數據與狀態信息,利用多項指標分析數據訪問模式,從文件級別定義數據熱度,針對熱度信息統籌規劃相應地優化數據管理方式。
在智能決策方面,SSM建立了基於規則的智能決策體系,圍繞現有的大數據存儲模式智能地構建了實用的解決方案。未來,SSM目標將利用歷史數據和指標學習,從而使系統具有預測數據訪問模式與持久學習能力,實現穩定可持續的智能化管理。「三種場景」目前SSM在三種典型場景下表現突出,例如多存儲模式。SSM適用於數據存儲模式豐富的應用場景,可以提供更加靈活的存儲模式選擇;在數據優化上則提供了小文件合井、數據災備、數據壓縮等新功能,適用於對數據優化有需求的應用場景;智能化管理是面向大規模集羣的數據管命週期的自動化管理。
『四項技術』SSM主要通過四項技術實現智能的存儲管理,主要包括通過分佈式集羣自治技術解決管理服務的高可用問題來實現存儲管理集羣去中心化;利用分佈式事件驅動技術實現面向高併發場景的輕量級計算服務與監督機制,提升管理操作執行效率與容錯性。
基於規則的智能存儲管理技術解決存儲數據量巨大、數據增量高、數據類型混雜難以管理的問題,實現數據生命週期的智能化管理;憑藉數據熱度感知技術解決存儲資源利用不均、資源浪費問題,實現數據冷熱分層等。
『五種特性』面向用户場景,SSM最終體現為五類典型的特性增強,主要包括如下:
- 異構存儲增強:結合智能規則管理與數據熱度感知,充分發揮異構存儲訪問效率;
- 糾刪碼增強:針對文件級的副本與糾刪碼、糾刪碼間快速轉換,效率提升30%;訪問路徑不變。
- 小文件合併增強:自動感知小文件,減緩NameNode壓力,讀性能提升一倍;
- 自動化數據災備:全自動跨域數據增量備份;
- 透明化自動壓縮:自選壓縮模式,無感知壓縮。
總體來看,智能存儲管理(SSM),以數據熱度識別及智能化的決策體系為核心,配置面向應用場景的技術優化整體方案(異構存儲增強、糾刪碼增強、小文件合併、自動化災備、透明化壓縮),自動化智能化的解決HDFS存儲面向異構介質、存儲空間及應用負載等方向的挑戰,大大提升HDFS分佈式存儲的易用性及適用場景。
基於智能存儲管理(SSM)技術 浪潮雲海Insight帶來更優體驗
作為面向海量數據存儲、計算、挖掘的一站式企業級大數據解決方案,浪潮雲海Insight大數據平台採用新型技術架構可承擔企業大規模數據的採集集成、多樣存儲、規模計算以及智能分析挖掘等工作,支撐企業數據中心業務模型快速落地,助力企業信息化智能轉型。
具體來説雲海Insight團隊從客户需求出發,結合業務場景對智能存儲管理技術(SSM)進行全面的方案驗證及增強,最終在大數據平台中將智能存儲管理技術產品化,包括智能存儲的一鍵安裝、可視化運維、基於票據的認證架構等,解決了用户針對大數據平台的備份災備、數據生命週期管理、小文件合併等技術的訴求,提供了更優秀的用户體驗。
舉個例子,某客户的業務場景中,雲海Insight團隊將其近兩個月的訪問頻次高的數據定義為熱數據,使用三副本存儲;後四個月的訪問頻次低的數據定義為冷數據,使用糾刪碼存儲。通過SSM定義數據熱度判定策略以及完成自動化的文件及從副本到糾刪碼的轉換,最終總存儲空間節省三分之一,且業務無需任何改變,大大提升了系統的可用性。
經過多方實踐驗證,面向HDFS的智能存儲管理技術能夠免去外界觸發完成數據管理並進一步細化管理粒度,實現一次規則定製即可完成數據生命週期管理的解決方案,達成效果:
- 冷熱數據在異構介質間的快速遷移可提升數據訪問效率2倍以上;
- 數據存儲在副本與糾刪間的自動快速轉換節省存儲空間超過50%;
- 憑藉透明化的數據壓縮、小文件合併以及平台級自動數據備份及遷移等方式可達成業務無感知,全面提升大數據平台的智能數據管理能力。
隨着大數據與人工智能的蓬勃發展,人工智能賦予存儲管理無限可能,利用智能算法提高大數據的調度和智能管理能力已成為技術發展的必然趨勢。未來,智能存儲管理技術(SSM)將基於深度學習優化計算框架,浪潮雲海Insight也將進一步從整體上提升存儲管理的智能化水平,為用户提供更優秀的解決方案。
消息來源: 浪潮信息