日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

這是圖解MySQL的第4篇文章,這篇文章會讓你

  • 明白什么是索引,徹底理解B+樹和索引的關系;
  • 徹底理解主鍵索引、普通索引、聯合索引;
  • 了解什么是HASH索引,InnoDB和MyISAM索引的不同實現方式;
  • 輕松理解后續的索引使用規則。

 

1. 準備工作

為了更好地解釋索引,我們先建個表。

CREATE TABLE `user_innodb` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `gender` tinyint(1) DEFAULT NULL,
  `phone` varchar(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

我創建了一個存儲引擎為InnoDB的表user_innodb,其中包含主鍵id、姓名字段(name)、性別字段(gender,用0,1表示不同性別)、手機號字段(phone),并批量初始化了500W+條數據。

注:數據全部是模擬產生的,性別不做嚴格區分;手機號如有雷同,純屬巧合

mysql> SELECT COUNT(*) FROM user_innodb;
+----------+
| COUNT(*) |
+----------+
|  5283424 |
+----------+
1 row in set (0.31 sec)
圖解|從根上徹底理解MySQL的索引

 

例1:為name創建索引之前

mysql> SELECT * FROM user_innodb WHERE name = "蟬沐風";
+---------+-----------+--------+-------------+
| id      | name      | gender | phone       |
+---------+-----------+--------+-------------+
| 1099999 | 蟬沐風    |      0 | 13203398311 |
+---------+-----------+--------+-------------+
1 row in set (0.96 sec)

例2:為name創建索引之后

mysql> SELECT * FROM user_innodb WHERE name = "蟬沐風";
+---------+-----------+--------+-------------+
| id      | name      | gender | phone       |
+---------+-----------+--------+-------------+
| 1099999 | 蟬沐風    |      0 | 13203398311 |
+---------+-----------+--------+-------------+
1 row in set (0.03 sec)

例3:根據主鍵id進行查詢

mysql> select * from user_innodb where id = 1099999;
+---------+-----------+--------+-------------+
| id      | name      | gender | phone       |
+---------+-----------+--------+-------------+
| 1099999 | 蟬沐風    |      0 | 13203398311 |
+---------+-----------+--------+-------------+
1 row in set (0.00 sec)

可以看到,創建索引之前搜索name為蟬沐風的記錄花費時間為0.96秒,為name字段創建索引后,搜索時間僅為0.03秒,可見索引的作用之大。

但是我們沒有顯式為主鍵創建索引,為什么主鍵查詢也這么快?我在上一篇文章中解釋了主鍵查詢快的原因,但是只解釋了一半,現在我來解釋另一半。

雖然我希望每一篇文章都講述一個獨立的知識點,但是對于MySQL這種復雜的軟件,各種細節之間盤根錯節,想深入理解一個知識點很多時候需要其他知識點的加持,在繼續閱讀之前,強烈推薦你花10分鐘先讀一下這篇文章。

如果你實在不想看,我會簡單總結一下之前講的內容。

強烈推薦閱讀:圖解|12張圖解釋MySQL主鍵查詢為什么這么快

2. 前置知識

現在我們已經知道了,InnoDB存儲引擎為我們提供了4種不同的行格式來保存我們向MySQL中插入的數據,在這里我們統一稱之為記錄。

記錄是保存在InnoDB頁中的,InnoDB存儲引擎將數據劃分為若干個頁,以頁作為磁盤和內存之間交互的最小單位。InnoDB中頁的大小默認為16KB。也就是默認情況下,一次最少從磁盤中讀取16KB的數據到內存中,一次最少把內存中16KB的內容刷新到磁盤上。存儲用戶記錄的頁我們統一叫做數據頁,它只是眾多類型的InnoDB頁中的一種而已,其他類型的頁我們無需關注。

非常非常重要的一點是,在一個數據頁中,用戶記錄是按照主鍵由小到大的順序串聯而成的單向鏈表。

但是一個數據頁中的記錄可能非常多,為了逃避低效的遍歷,InnoDB引擎的設計者想出了一種絕妙的搜索方法,把數據頁中的所有記錄(包括偽記錄)分成若干個小組(并對每個小組內的組員數量做了規定),每個小組選出組內最大的一條記錄作為“小組長”,接著把所有小組長的地址拿出來,編成目錄。

舉個例子,下面的圖片展示了一個數據頁中的所有記錄被分組的情況:

圖解|從根上徹底理解MySQL的索引

 

上圖中的所有記錄(包括偽記錄)分成了4個小組,每個小組的“組長”被單獨提拔,單獨編制成“目錄”,InnoDB官方稱之為「槽」。槽在物理空間中是連續的,意味著通過一個槽可以很輕松地找到它的上一個和下一個,這一點非常重要。

槽的編號從0開始,我們查找數據的時候先找到對應的槽,然后再到小組中進行遍歷即可,因為一個小組內的記錄數量并不多,遍歷的性能損耗可以忽略。而且每個槽代表的“組長”的主鍵值也是從小到大進行排列的,所以我們可以用二分法進行槽的快速查找。

圖中包含4個槽,分別是0、1、2、3,二分法查找之前,最低的槽low=0,最高的槽high=3。現在我們再來看看在這個數據頁中,我們查詢id為7的記錄,過程是怎樣的。

  1. 使用二分法,計算中間槽的位置,(0+3)/2=1,查看槽1對應的“組長”的主鍵值為4,因為4<7,所以設置low=1,high保持不變;
  2. 再次使用二分法,計算中間槽的位置,(1+3)/2=2,查看槽2對應的“組長”的主鍵值為8,因為8>7,所以設置high=2,low保持不變;
  3. 現在high=2,low=1,兩者相差1,已經沒有必要繼續進行二分了,可以確定我們的記錄就在槽2中,并且我們也能知道槽2對應的“組長”的主鍵是8,但是記錄之間是單向鏈表,我們無法向前遍歷。上文提到過,我們可以通過槽2找到槽1,進而找到它的“組長”,然后沿著“組長”向下遍歷直到找到主鍵為7的記錄就可以了。

當用戶記錄多到一個數據頁裝不下的時候,就再申請一個數據頁,各個數據頁在邏輯上使用雙向鏈表進行連接,因此新分配的數據頁編號就沒必要非得按照從小到大的順序進行排列了,如下圖所示:

圖解|從根上徹底理解MySQL的索引

 

因此,雖然在一個數據頁內能夠做到主鍵的快速查詢,但是InnoDB存儲引擎不知道你要查找的記錄所在的頁號,那也只能從第一頁開始沿著雙向鏈表一直進行查找,遍歷每一頁,至于在每一個數據頁中是怎么查找的,你已經很清楚了。

很顯然,InnoDB引擎有辦法能夠快速定位到你要的主鍵數據所在的數據頁,而不是從第一頁開始遍歷,否則不可能有例3那樣的查詢速度。

那么,InnoDB是怎么做到的呢?

3. InnoDB索引

3.1 主鍵索引登場

為了方便描述,我們假設一個數據頁最多只能放3條用戶記錄,那么user_innodb表的前12條數據的保存形式如下圖:

圖解|從根上徹底理解MySQL的索引

 

大家看這些連接起來的數據頁像不像組成一本書的每一章?自然,數據頁中的每一條記錄就是章中的每一個小節了。

圖解|從根上徹底理解MySQL的索引

 

那么為了加快檢索,我們可以模擬書籍章節目錄,給數據頁添加一個目錄。

圖解|從根上徹底理解MySQL的索引

 

如上圖,我們為4個數據頁創建了一個目錄,每個數據頁對應了一條記錄,為了區別于用戶記錄,我們稱之為目錄項記錄,目錄項記錄同樣是按照主鍵從小到大的順序進行單向鏈接的。

不同于用戶記錄中包含了完整的數據,目錄項記錄只包含了數據頁的最小主鍵值和對應的數據頁號。既然都是記錄,InnoDB的設計者直接用數據頁來存儲目錄項記錄了,所以上圖中頁32的頁面結構和其他數據頁是完全一樣的。

接下來我們看看加了個目錄是如何提高我們的查詢效率的,以查詢主鍵id為8的記錄為例,步驟大致如下:

  1. 先找到存儲目錄項的數據頁32,通過二分法快速定位到對應的目錄項記錄,因為7<8<10,所以定位到對應的記錄所在的頁應該是頁14;
  2. 然后在頁14中進行查找就可以了,查找的方法我們之前介紹過了。

目前的頁面并不多,所以對查詢效率的提升并不十分明顯,但是一旦數據頁的數量飛速增長,這種通過添加目錄的方式帶來的查詢優勢會被無限放大!但是同時有個問題,數據頁多了,目錄項記錄在一個數據頁中不夠用了怎么辦?

再加一個數據頁。我們再添加2條用戶記錄,看一下添加之后的樣子:

注:實際上一個頁面中能夠存放的記錄(用戶記錄/目錄項記錄)數目是非常多的,為了方便畫圖,我只是假設了數據頁最多存放3條用戶記錄,最多存放4條目錄項記錄

圖解|從根上徹底理解MySQL的索引

 

現在假設要查找主鍵ID為14的記錄,我們還是先得找到存儲目錄項的數據頁,可是現在有2個這種數據頁,分別是頁32、頁124,我怎么知道要定位到哪一個目錄項數據頁呢?從頁32開始遍歷嗎?別開玩笑了,我們做這么多就是為了不想遍歷。這樣吧,我們為存儲目錄項的數據頁再生成一個目錄。我們來捋一捋關系。

前面舉過例子,存儲用戶記錄的數據頁相當于章,用戶記錄相當于小節,為章節生成目錄就得到了存儲目錄項記錄的數據頁(頁32和頁124),相當于是一本書,然后再為書編一個目錄,就相當于是個書架。

圖解|從根上徹底理解MySQL的索引

 

對應到存儲結構上那就是下圖:

圖解|從根上徹底理解MySQL的索引

 

按照上圖,我們又添加了一個數據頁99,用來保存頁32和頁124對應的2條目錄,現在要查找主鍵ID為14的記錄,需要經歷這幾個步驟:

  1. 就從頁99中,快速檢索到對應的目錄項數據頁124;
  2. 在頁124中,快速檢索到對應的數據頁27;
  3. 在頁27中,快速檢索到主鍵為14的記錄。

到這里為止,你已經悄悄地掌握了B+樹了。沒錯,上面我們一步步推導出來的搜索結構就是大名鼎鼎的B+樹,而MySQL給它起了一個更響亮的名字——索引

B+樹最底層的節點(對應圖中存儲用戶記錄的數據頁)被稱為葉子節點,其他的節點自然叫做非葉子節點了,更特殊地,B+樹最頂部的節點叫做根節點

有一個值得我們關注的細節,這棵B+樹的葉子節點存儲了我們完整的用戶記錄(就是我們插入表的所有數據),而且,這是用戶記錄在InnoDB引擎中的唯一存儲方式。也就是所謂的“索引即數據,數據即索引”。

更方便地一點是,這個關于主鍵的索引完全是由InnoDB存儲引擎自動生成的,不需要我們顯式地書寫創建索引的語句。這個索引叫做主鍵索引,又叫做聚簇索引

主鍵索引有兩個特點:

  1. 按照主鍵的大小對用戶記錄和數據頁進行排序,記錄用單向鏈表連接,數據頁使用雙向鏈表連接;
  2. B+樹的葉子節點保存了用戶的完整記錄。

現在終于解釋完為什么主鍵查詢這么快了,搞明白主鍵索引之后,普通索引和聯合索引就太簡單了!

3.2 普通索引

主鍵索引是在搜索條件為主鍵的時候才會發揮作用,但是我要以name='蟬沐風'為搜索條件怎么辦?通過主鍵索引的講解,我們首先會想到這么一個方案:再創建一個B+樹(我們稱為name索引),其中用戶記錄和數據頁按照name字段進行排序,B+樹的葉子節點保留完整的用戶數據,這樣就可以實現對name列的快速搜索了。

但是如此一來,表中數據就被完整記錄了2次(主鍵索引的葉子節點和name索引的葉子節點),要是我們為其他字段再建立索引,磁盤空間可想而知。因此,我們得想個其他的辦法。

我們已經知道根據主鍵查詢用戶記錄是非常快的了,那我們可以想個辦法根據name字段來迅速找到主鍵,然后再根據主鍵查找用戶記錄啊。這個辦法同樣離不開B+樹。

圖解|從根上徹底理解MySQL的索引

 

這棵B+樹和聚簇索引的B+樹有點區別:

  1. 葉子節點存放的不再是完整的用戶記錄,而是只記錄name列和主鍵值;
  2. 數據頁中存放的用戶記錄和目錄項記錄由原本的按照主鍵排序變為按照name列排序;
  3. 目錄項記錄除了存儲索引列(name)和頁號之外,同時還存儲了主鍵值;(大家可以想一想,為什么要存儲主鍵值)

有了這棵B+樹,你就可以通過name列快速找到主鍵值了,查找的方式和根據主鍵值查找用戶記錄的方式完全一樣,只不過前者查到的是主鍵值,后者查找到的是一條完整的用戶記錄罷了。

你可能對字符串進行二分法感到有點奇怪,甚至沒有接觸過的相關知識的讀者連對字符串進行排序都會覺得很詫異。其實在創建表的時候我們可以對字符串字段指定字符集和比較規則,如果你不指定,MySQL會默認給你設置,總之,MySQL總會找到一個方式對字符串進行排序。

現在得到主鍵的id了,然后根據主鍵id到主鍵索引中查找到完整的用戶記錄,這個過程叫做回表。如果沒有為name列設置唯一性約束,那就可能找到多個符合條件的主鍵id,多回幾次表就可以了。

對name這種單個列添加的索引叫做普通索引,也叫二級索引

如果同時對多個列建立索引,那B+樹的存儲又會是什么樣子呢?這就是聯合索引了,理解了上面的內容,再理解聯合索引只是水到渠成的事罷了。

3.3 聯合索引

假設我們為name列和phone列建立聯合索引(注意我描述的順序),自然也是創建一棵B+樹,這棵B+樹和之前又稍微有點不同:

  1. 葉子節點存放的是name列、phone列和主鍵值;
  2. 目錄項記錄除了存儲索引列(name、phone)和頁號之外,同時還存儲了主鍵值;(大家可以想一想,為什么要存儲主鍵值)
  3. 數據頁中存放的用戶記錄和目錄項記錄由原本的按照主鍵排序變為按照name列排序,如果name列相同,那就按照phone列排序;(如果phone列再一樣呢?你現在明白為什么要存儲主鍵值了嗎?)

再畫個圖吧(有點偷懶了哈,數據頁號沒換):

圖解|從根上徹底理解MySQL的索引

 

還是和二級索引一樣,利用B+樹快速定位到數據頁,然后頁內快速定位到記錄,找到記錄中的主鍵id,再回表,如果找到多條符合條件的記錄,就多回幾次表。

4. InnoDB其他的索引方式

以上介紹的是B+樹索引,它其實是InnoDB存儲引擎提供的眾多索引中的一種而已,但卻是使用最多、面試中最常被問到的一種索引。除此之外,還提供了其他的索引方式,例如我的TablePlus工具(mac上的MySQL連接工具)提供了4種。

圖解|從根上徹底理解MySQL的索引

 

4.1 HASH

如果你用過JAVA的HashMap或者Python的字典,你對這個概念就應該很清楚了。

哈希表是一種采用鍵值對(Key-Value)存儲數據的結構,它會根據索引字段生成哈希碼和指針,指針指向表中的數據。不可避免地,多個索引字段值經過哈希函數的換算,會出現同一個值的情況,處理這種情況的一種方法就是創建一個單向鏈表。如下圖所示,我們為name字段創建HASH索引:

圖解|從根上徹底理解MySQL的索引

 

哈希索引有3個重要特點:

  1. 查詢速度非常非常快,時間復雜度是O(1),因為哈希索引中的數據不是按照順序存儲的,所以不能用于排序;
  2. 查詢數據的時候要根據鍵值計算哈希碼,所以它只能支持等值查詢(=、IN),不支持范圍查詢(>、<、>=、<=、BETWEEN、AND);
  3. 如果哈希沖突,就得采用添加單向鏈表的方法解決,會造成效率下降。

另外,雖然提供了HASH的索引方法,但是在InnoDB中無法顯式創建一個HASH索引,所謂地支持哈希索引其實指的是自適應哈希索引(AHI),是InnoDB自動為BufferPool中的熱點頁創建的索引。雖然TablePlus在創建索引的時候能夠選擇HASH,但是實際創建完之后顯示類型仍然是BTREE。

4.2 FULLTEXT

如果你的數據表有一個大文本字段,你想查詢這個字段中包含「蟬沐風」的所有記錄,你可能會采用LIKE '%蟬沐風%'的方式進行查詢,但是索引的最左匹配原則告訴你這樣的查詢效率太低了,這時候全文索引就出現了。

為了說明問題,我們假設一個文本字段存儲了這樣一段文字:

我叫蟬沐風,歡迎大家關注我的微信公眾號

想要快速根據某個詞進行查詢,首先要對這段文本進行分詞,得到下列分詞結果:

我/叫/蟬/沐/風/,/歡迎/大家/關注/我/的/微信/公眾號

然后建立每個分詞和用戶記錄(在搜索領域中的專業術語叫做文檔)的對應關系,生成一個單詞文檔矩陣

圖解|從根上徹底理解MySQL的索引

 

然后就可以根據某個單詞進行查詢了,這也是現代搜索引擎的基本原理,感興趣的話可以搜索一下倒排索引,再感興趣可以了解一下Elastic Search。

4.3 SPATIAL

是對空間數據的索引,我沒使用過,就暫時解釋這么多了。

5. MyISAM的索引方案

圖解|從根上徹底理解MySQL的索引

 


不同的存儲引擎存放數據的方式不一樣,產生的文件數量和格式也不一樣,InnoDB文件包含2個,MEMORY文件包含1個,MyISAM文件包含3個。我們接下來關注的就是MyISAM中的文件。

  • .MYD文件,D代表Data,是MyISAM的數據文件,存放用戶記錄,也就是我們插入的表數據;
  • .MYI文件,I代表Index,是MyISAM的索引文件。一個索引就會有一棵B+樹,所有的B+樹都保存在這個文件當中。

也就是說,不同于InnoDB的“索引即數據”的思想,MyISAM存儲引擎中的索引和數據是分開存儲的。

MyISAM中的B+樹長啥樣子呢?其實樣子和InnoDB差不多,區別就是MyISAM的B+樹的葉子節點存儲的是用戶記錄對應的磁盤地址,所以從索引文件.MYI中找到對應的索引鍵(建立索引的列的值)后,會到.MYD中找到對應的用戶記錄。以主鍵為例我再再再畫個圖:

圖解|從根上徹底理解MySQL的索引

 


 

原文地址:
https://www.cnblogs.com/chanmufeng/p/15992676.html

分享到:
標簽:MySQL
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定