HBase讀取數據快還是寫數據快？一、RDBMS采用B+樹作為索引的數據結構二、HBase中的LSM樹

發布時間：2023-07-03 12:28:05 作者：網友整理

首先，需要明確的是，HBase寫入速度比讀取速度要快，根本原因LSM存儲引擎。

LSM樹全稱是基于日志結構的合并樹（Log-Structured Merge-Tree）。No-SQL數據庫一般采用LSM樹作為數據結構，HBase也不例外。

一、RDBMS采用B+樹作為索引的數據結構

眾所周知，RDBMS一般采用B+樹作為索引的數據結構，如圖所示。RDBMS中的B+樹一般是3層n路的平衡樹。B+樹的節點對應于磁盤數據塊。因此對于RDBMS，數據更新操作需要5次磁盤操作（從B+樹3次找到記錄所在數據塊，再加上一次讀和一次寫）。

在RDBMS中，數據隨機無序寫在磁盤塊中，如果沒有B+樹，讀性能會很低。B+樹對于數據讀操作能很好地提高性能，但對于數據寫，效率不高。對于大型分布式數據系統，B+樹還無法與LSM樹相抗衡。

二、HBase中的LSM樹

LSM樹可以看成n層合并樹。LSM樹本質上就是在讀寫之間取得平衡，和B+樹相比，它犧牲了部分讀性能，用來大幅提高寫性能。

在HBase中，它把隨機寫轉換成對MemStore和HFile的連續寫。下圖展示了LSM樹數據寫的過程。

數據寫（插入，更新）：數據首先順序寫入HLog (WAL)，然后寫到MemStore。在MemStore中，數據是一個2層B+樹(圖中的C0樹）。MemStore滿了之后，數據會被刷到StoreFile (HFile)。在StoreFile中，數據是3層B+樹（圖中的C1樹），并針對順序磁盤操作進行優化。

數據讀：首先搜索MemStore，如果不在MemStore中，則到StoreFile中尋找。

數據刪除：不會去刪除磁盤上的數據，而是為數據添加一個刪除標記。在隨后的major compaction中，被刪除的數據和刪除標記才會真的被刪除。

LSM數據更新只在內存中操作，沒有磁盤訪問，因此比B+樹要快。對于數據讀來說，如果讀取的是最近訪問過的數據，LSM樹能減少磁盤訪問，提高性能。

分享到：

標簽：HBase