首先,需要明確的是,HBase寫入速度比讀取速度要快,根本原因LSM存儲引擎。
LSM樹全稱是基於日誌結構的合併樹(Log-Structured Merge-Tree)。No-SQL數據庫一般採用LSM樹作為數據結構,HBase也不例外。
眾所周知,RDBMS一般採用B+樹作為索引的數據結構,如圖所示。RDBMS中的B+樹一般是3層n路的平衡樹。B+樹的節點對應於磁盤數據塊。因此對於RDBMS,數據更新操作需要5次磁盤操作(從B+樹3次找到記錄所在數據塊,再加上一次讀和一次寫)。
在RDBMS中,數據隨機無序寫在磁盤塊中,如果沒有B+樹,讀性能會很低。B+樹對於數據讀操作能很好地提高性能,但對於數據寫,效率不高。對於大型分佈式數據系統,B+樹還無法與LSM樹相抗衡。
LSM樹可以看成n層合併樹。LSM樹本質上就是在讀寫之間取得平衡,和B+樹相比,它犧牲了部分讀性能,用來大幅提高寫性能。
在HBase中,它把隨機寫轉換成對MemStore和HFile的連續寫。下圖展示了LSM樹數據寫的過程。
數據寫(插入,更新):數據首先順序寫入HLog (WAL), 然後寫到MemStore。在MemStore中,數據是一個2層B+樹(圖中的C0樹)。MemStore滿了之後,數據會被刷到StoreFile (HFile)。在StoreFile中,數據是3層B+樹(圖中的C1樹),並針對順序磁盤操作進行優化。
數據讀:首先搜索MemStore,如果不在MemStore中,則到StoreFile中尋找。
數據刪除:不會去刪除磁盤上的數據,而是為數據添加一個刪除標記。在隨後的major compaction中,被刪除的數據和刪除標記才會真的被刪除。
LSM數據更新只在內存中操作,沒有磁盤訪問,因此比B+樹要快。對於數據讀來説,如果讀取的是最近訪問過的數據,LSM樹能減少磁盤訪問,提高性能。
【來源:軟件架構】
聲明:轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯繫,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]