HBase讀取數據快還是寫數據快?

首先,需要明確的是,HBase寫入速度比讀取速度要快,根本原因LSM存儲引擎。

LSM樹全稱是基於日誌結構的合併樹(Log-Structured Merge-Tree)。No-SQL數據庫一般採用LSM樹作為數據結構,HBase也不例外。

HBase讀取數據快還是寫數據快?
專欄
Hadoop v3.1大數據技術快速入門
作者:軟件架構
19.8幣
45人已購
查看
一、RDBMS採用B+樹作為索引的數據結構

眾所周知,RDBMS一般採用B+樹作為索引的數據結構,如圖所示。RDBMS中的B+樹一般是3層n路的平衡樹。B+樹的節點對應於磁盤數據塊。因此對於RDBMS,數據更新操作需要5次磁盤操作(從B+樹3次找到記錄所在數據塊,再加上一次讀和一次寫)。

在RDBMS中,數據隨機無序寫在磁盤塊中,如果沒有B+樹,讀性能會很低。B+樹對於數據讀操作能很好地提高性能,但對於數據寫,效率不高。對於大型分佈式數據系統,B+樹還無法與LSM樹相抗衡。

HBase讀取數據快還是寫數據快?
HBase讀取數據快還是寫數據快?
專欄
Kafka v2.3 快速入門與實踐
作者:軟件架構
29.6幣
62人已購
查看
二、HBase中的LSM樹

LSM樹可以看成n層合併樹。LSM樹本質上就是在讀寫之間取得平衡,和B+樹相比,它犧牲了部分讀性能,用來大幅提高寫性能。

在HBase中,它把隨機寫轉換成對MemStore和HFile的連續寫。下圖展示了LSM樹數據寫的過程。

HBase讀取數據快還是寫數據快?

數據寫(插入,更新):數據首先順序寫入HLog (WAL), 然後寫到MemStore。在MemStore中,數據是一個2層B+樹(圖中的C0樹)。MemStore滿了之後,數據會被刷到StoreFile (HFile)。在StoreFile中,數據是3層B+樹(圖中的C1樹),並針對順序磁盤操作進行優化。

數據讀:首先搜索MemStore,如果不在MemStore中,則到StoreFile中尋找。

數據刪除:不會去刪除磁盤上的數據,而是為數據添加一個刪除標記。在隨後的major compaction中,被刪除的數據和刪除標記才會真的被刪除。

LSM數據更新只在內存中操作,沒有磁盤訪問,因此比B+樹要快。對於數據讀來説,如果讀取的是最近訪問過的數據,LSM樹能減少磁盤訪問,提高性能。

【來源:軟件架構】

聲明:轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯繫,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1082 字。

轉載請註明: HBase讀取數據快還是寫數據快? - 楠木軒