首页 > 资讯 > 数据库 >MySQL高级篇之索引的数据结构详解

256

分享到

MySQL高级篇之索引的数据结构详解

2024-04-02 19:04:59 256人浏览泡泡鱼

摘要

目录1.为什么使用索引？2.索引的优缺点3.InnoDB中的索引3.1 设计索引3.2 常见索引概念3.2.1 聚簇索引3.2.2 非聚簇索引3.2.3 联合索引4.InnoDB与M

1.为什么使用索引？

假如给数据使用 二叉树 这样的数据结构进行存储，如下图所示

2.索引的优缺点

Mysql 官方对索引的定义为：索引（Index ）是帮助 mysql 高效获取数据的数据结构。
索引的本质：索引是数据结构。你可以简单理解为 “ 排好序的快速查找数据结构 ” ，满足特定查找算法。这些数据结构以某种方式指向数据，这样就可以在这些数据结构的基础上实现高级查找算法。
优点
（1 ）类似大学图书馆建书目索引，提高数据检索的效率，降低 数据库的 io 成本，这也是创建索引最主要的原因。
（ 2 ）通过创建唯一索引，可以保证数据库表中每一行数据的唯一性。
（ 3 ）在实现数据的参考完整性方面，可以加速表和表之间的连接。换句话说，对于有依赖关系的子表和父表联合查询时，可以提高查询速度。
（ 4 ）在使用分组和排序子句进行数据查询时，可以显著减少查询中分组和排序的时间，降低了 CPU 的消耗。
缺点
（ 1 ）创建索引和维护索引要耗费时间，并且随着数据量的增加，所耗费的时间也会增加。
（ 2 ）索引需要占磁盘空间，除了数据表占数据空间之外，每一个索引还要占一定的物理空间，存储在磁盘上，如果有大量的索引，索引文件就可能比数据文件更快达到最大文件尺寸。
（ 3 ）虽然索引大大提高了查询速度，同时却会降低更新表的速度。当对表中的数据进行增加、删除和修改的时候，索引也要动态地维护，这样就降低了数据的维护速度。
索引是个好东西，可不能乱建，它在空间和时间上都会有消耗：

空间上的代价：每建立一个索引都要为它建立一棵 B+ 树，每一棵 B+ 树的每一个节点都是一个数据页，一个页默认会占用 16KB 的存储空间，一棵很大的 B+ 树由许多数据页组成，那就是很大的一片存储空间。
时间上的代价：每次对表中的数据进行增、删、改操作时，都需要去修改各个 B+ 树索引。而且我们讲过， B+ 树每层节点都是按照索引列的值从小到大的顺序排序而组成了双向链表。不论是叶子节点中的记录，还是内节点中的记录（也就是不论是用户记录还是目录项记录）都是按照索引列的值从小到大的顺序而形成了一个单向链表。而增、删、改操作可能会对节点和记录的排序造成破坏，所以存储引擎需要额外的时间进行一些记录移位，页面分裂、页面回收等操作来维护好节点和记录的排序。如果我们建了许多索引，每个索引对应的 B+ 树都要进行相关的维护操作，会给性能拖后腿。

3.InnoDB中的索引

在没有索引的情况下，不论是根据主键列或者其他列的值进行查找，由于我们并不能快速的定位到记录所在的页，所以只能从第一个页沿着双向链表一直往下找，在每一个页中根据我们上面的查找方式去查找指定的记录。因为要遍历所有的数据页，所以这种方式显然是超级耗时的。如果一个表有一亿条记录呢？此时索引应运而生。

3.1 设计索引

先建一张表：

CREATE TABLE index_demo(
    c1 INT,
    c2 INT,
    c3 CHAR(1),
    PRIMARY KEY(c1)
) ROW_FORMAT = Compact;

这个新建的 index_demo 表中有 2 个 INT 类型的列， 1 个 CHAR(1) 类型的列，而且我们规定了 c1 列为主键，这个表使用 Compact 行格式来实际存储记录的。这里我们简化了 index_demo 表的行格式示意图：

我们只在示意图里展示记录的这几个部分：
record_type ：记录头信息的一项属性，表示记录的类型， 0 表示普通记录、 2 表示最小记录、 3 表示最大记录、 1 暂时还没用过，下面讲。
next_record ：记录头信息的一项属性，表示下一条地址相对于本条记录的地址偏移量，我们用箭头来表明下一条记录是谁。
各个列的值：这里只记录在 index_demo 表中的三个列，分别是 c1 、 c2 和 c3 。
其他信息：除了上述 3 种信息以外的所有信息，包括其他隐藏列的值以及记录的额外信息。
把一些记录放到页里的示意图就是：

我们在根据某个搜索条件查找一些记录时为什么要遍历所有的数据页呢？因为各个页中的记录并没有规律，我们并不知道我们的搜索条件匹配哪些页中的记录，所以不得不依次遍历所有的数据页。所以如果我们想快速的定位到需要查找的记录在哪些数据页中该咋办？我们可以为快速定位记录所在的数据页而建立一个目录，建这个目录必须完成下边这些事：
下一个数据页中用户记录的主键值必须大于上一个页中用户记录的主键值。给所有的页建立一个目录项。

以页 28 为例，它对应目录项 2 ，这个目录项中包含着该页的页号 28 以及该页中用户记录的最小主键值 5 。我们只需要把几个目录项在物理存储器上连续存储（比如：数组），就可以实现根据主键值快速查找某条记录的功能了。比如：查找主键值为 20 的记录，具体查找过程分两步：
1. 先从目录项中根据二分法快速确定出主键值为 20 的记录在目录项 3 中（因为 12 < 20 < 209 ），它对应的页是页 9 。
2. 再根据前边说的在页中查找记录的方式去页 9 中定位具体的记录。
至此，针对数据页做的简易目录就搞定了。这个目录有一个别名，称为索引。

迭代 1次：目录项纪录的页，我们把前边使用到的目录项放到数据页中的样子就是这样：

从图中可以看出来，我们新分配了一个编号为 30 的页来专门存储目录项记录。这里再次强调目录项记录和普通的用户记录的不同点：
目录项记录的 record_type 值是 1 ，而普通用户记录的 record_type 值是 0 。
目录项记录只有主键值和页的编号两个列，而普通的用户记录的列是用户自己定义的，可能包含很多列，另外还有 InnoDB 自己添加的隐藏列。
了解：记录头信息里还有一个叫 min_rec_mask 的属性，只有在存储目录项记录的页中的主键值最小的目录项记录的 min_rec_mask 值为 1 ，其他别的记录的 min_rec_mask 值都是 0 。
相同点：两者用的是一样的数据页，都会为主键值生成 Page Directory （页目录），从而在按照主键值进行查找时可以使用二分法来加快查询速度。
现在以查找主键为 20 的记录为例，根据某个主键值去查找记录的步骤就可以大致拆分成下边两步：
1. 先到存储目录项记录的页，也就是页 30 中通过二分法快速定位到对应目录项，因为 12 < 20 < 209 ，所以定位到对应的记录所在的页就是页 9 。
2. 再到存储用户记录的页 9 中根据二分法快速定位到主键值为 20 的用户记录。

迭代 2 次：多个目录项纪录的页

从图中可以看出，我们插入了一条主键值为 320 的用户记录之后需要两个新的数据页：
为存储该用户记录而新生成了页 31 。因为原先存储目录项记录的页 30 的容量已满（我们前边假设只能存储 4 条目录项记录），所以不得不需要一个新的页 32 来存放页 31 对应的目录项。
现在因为存储目录项记录的页不止一个，所以如果我们想根据主键值查找一条用户记录大致需要 3 个步骤，以查找主键值为 20 的记录为例：
1. 确定目录项记录页。我们现在的存储目录项记录的页有两个，即页 30 和页 32 ，又因为页 30 表示的目录项的主键值的范围是 [1, 320) ，页 32 表示的目录项的主键值不小于 320 ，所以主键值为 20 的记录对应的目录项记录在页 30 中。
2. 通过目录项记录页确定用户记录真实所在的页。在一个存储目录项记录的页中通过主键值定位一条目录项记录的方式说过了。
3. 在真实存储用户记录的页中定位到具体的记录。

迭代 3 次：目录项记录页的目录页

如图，我们生成了一个存储更高级目录项的页 33 ，这个页中的两条记录分别代表页 30 和页 32 ，如果用户记录的主键值在 [1, 320) 之间，则到页 30 中查找更详细的目录项记录，如果主键值不小于 320 的话，就到页 32 中查找更详细的目录项记录。
我们可以用下边这个图来描述它：

这个数据结构，它的名称是 B+ 树。

3.2 常见索引概念

索引按照物理实现方式，索引可以分为 2 种：聚簇（聚集）和非聚簇（非聚集）索引。我们也把非聚集索引称为二级索引或者辅助索引。

3.2.1 聚簇索引

特点：
1. 使用记录主键值的大小进行记录和页的排序，这包括三个方面的含义：
页内的记录是按照主键的大小顺序排成一个单向链表。
各个存放用户记录的页也是根据页中用户记录的主键大小顺序排成一个双向链表。
存放目录项记录的页分为不同的层次，在同一层次中的页也是根据页中目录项记录的主键大小顺序排成一个双向链表。
2. B+ 树的叶子节点存储的是完整的用户记录。
所谓完整的用户记录，就是指这个记录中存储了所有列的值（包括隐藏列）。
优点：
数据访问更快，因为聚簇索引将索引和数据保存在同一个 B+ 树中，因此从聚簇索引中获取数据比非聚簇索引更快。
聚簇索引对于主键的排序查找和范围查找速度非常快。
按照聚簇索引排列顺序，查询显示一定范围数据的时候，由于数据都是紧密相连，数据库不用从多个数据块中提取数据，所以节省了大量的 io 操作。
缺点：
插入速度严重依赖于插入顺序，按照主键的顺序插入是最快的方式，否则将会出现页分裂，严重影响性能。因此，对于 InnoDB 表，我们一般都会定义一个自增的 ID 列为主键。
更新主键的代价很高，因为将会导致被更新的行移动。因此，对于 InnoDB 表，我们一般定义主键为不可更新。

二级索引访问需要两次索引查找，第一次找到主键值，第二次根据主键值找到行数据。

3.2.2 非聚簇索引

概念：回表 我们根据这个以 c2 列大小排序的 B+ 树只能确定我们要查找记录的主键值，所以如果我们想根据 c2 列的值查找到完整的用户记录的话，仍然需要到聚簇索引中再查一遍，这个过程称为回表。也就是根据 c2 列的值查询一条完整的用户记录需要使用到 2 棵 B+ 树！

3.2.3 联合索引

我们也可以同时以多个列的大小作为排序规则，也就是同时为多个列建立索引，比方说我们想让 B+ 树按照 c2 和 c3 列的大小进行排序，这个包含两层含义：
先把各个记录和页按照 c2 列进行排序。在记录的 c2 列相同的情况下，采用 c3 列进行排序
注意一点，以 c2 和 c3 列的大小为排序规则建立的 B+ 树称为联合索引，本质上也是一个二级索引。它的意思与分别为 c2 和 c3 列分别建立索引的表述是不同的，不同点如下：
建立联合索引只会建立如上图一样的 1 棵 B+ 树。
为 c2 和 c3 列分别建立索引会分别以 c2 和 c3 列的大小为排序规则建立 2 棵 B+ 树。

4.InnoDB与MyISAM的索引对比

① 在 InnoDB 存储引擎中，我们只需要根据主键值对聚簇索引进行一次查找就能找到对应的记录，而在 MyISAM 中却需要进行一次回表操作，意味着 MyISAM 中建立的索引相当于全部都是二级索引。
② InnoDB 的数据文件本身就是索引文件，而 MyISAM 索引文件和数据文件是分离的，索引文件仅保存数据记录的地址。
③ InnoDB 的非聚簇索引 data 域存储相应记录主键的值，而 MyISAM 索引记录的是地址。换句话说， InnoDB 的所有非聚簇索引都引用主键作为 data 域。
④ MyISAM 的回表操作是十分快速的，因为是拿着地址偏移量直接到文件中取数据的，反观 InnoDB 是通过获取主键之后再去聚簇索引里找记录，虽然说也不慢，但还是比不上直接用地址去访问。
⑤ InnoDB 要求表必须有主键（ MyISAM 可以没有）。如果没有显式指定，则 Mysql 系统会自动选择一个可以非空且唯一标识数据记录的列作为主键。如果不存在这种列，则 MySQL 自动为 InnoDB 表生成一个隐含字段作为主键，这个字段长度为 6 个字节，类型为长整型。

5.B-Tree和B+Tree的差异

先来看看B-Tree

再来看看B+Tree

1. B+树有 k 个孩子的节点就有 k 个关键字，也就是孩子数量 = 关键字数；而 B 树中，孩子数量 = 关键字数 +1。
2. B+树非叶子节点的关键字也会同时存在在子节点中，并且是在子节点中所有关键字的最大（或最小）（比如在页30中的1和5，分别也在页10、页28中出现了）；而B树并不具备这样的特征。
3. B+树非叶子节点仅用于索引，不保存数据记录，跟记录有关的信息都放在叶子节点中；而 B 树中，非叶子节点既保存索引，也保存数据记录。
4. B+树所有关键字都在叶子节点出现，叶子节点构成一个有序链表，而且叶子节点本身按照关键字的大小从小到大顺序链接。（要想获取从小到大的结果序列，只需依次查找叶子节点即可）；而B树则必须进行中序遍历才可以（也就是图中的3、5、8、9、10、12，这种左根右的方式）。

总结

到此这篇关于MySQL高级篇之索引数据结构的文章就介绍到这了,更多相关MySQL索引数据结构内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: MySQL高级篇之索引的数据结构详解

本文链接: https://www.lsjlt.com/news/147818.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

MySQL高级篇之索引的数据结构详解

目录1.为什么使用索引？2.索引的优缺点3.InnoDB中的索引3.1 设计索引3.2 常见索引概念3.2.1 聚簇索引3.2.2 非聚簇索引3.2.3 联合索引4.InnoDB与M...

99+

2022-11-13
MySQL中InnoDB索引数据结构（B+树）详解

mysql的innodb的索引的B+树逐步讲解 B树B+树B树和B+树的不同点聚集索引 VS 非聚集索引总结（面试题）1.为什么不使用二叉查找树？2.为什么不使用平衡二叉树？3.为什么不使用B树？4.为什么MySQL选择B+树做索引...

99+

2023-08-17

b树数据结构 mysql 数据库
MySQL索引的数据结构

文章目录一、索引的简介1、索引的概念2、索引的优点3、索引的缺点二、索引的代价1、空间上的代价2、时间上的代价三、InnoDB中索引的推演1、设计索引2、常见索引概念2.1、聚簇...

99+

2023-08-31

MySQL 索引
MySQL索引底层数据结构详情

目录一、索引类型 1.B+树 2.MyISAM和InnoDB的B+树索引实现方式的区别(聚簇索引和非聚簇索引)？3.非聚簇索引 4.聚簇索引的优缺点5.哈希索引 6.自适应哈希索引 ...

99+

2022-11-12
MySQL数据库之索引详解

目录一、MySQL索引简介二、MySQL五种类型索引详解（一）普通索引（二）唯一性索引（三）主键索引（四）复合索引（五）全文索引三、MySQL索引使用原则总结今天继续给大家介绍MyS...

99+

2022-11-12
深入解析MySQL索引数据结构

目录概述索引数据结构二叉树红黑树 B-Tree B+Tree Hash 索引 InnoDB 索引实现（聚集）索引文件和数据文件是分离的（非聚集）聚集索引和非聚集索引联合/复...

99+

2022-11-12
关于Mysql索引的数据结构

索引的数据结构 1、为什么使用索引概念: 索引是存储索引用于快速找到数据记录的一种数据结构，就好比一本书的目录部分，通过目录中对应的文章的页码，便可以快速定位到需要的文章，Mysql 中也是一样的道理，进行数据查找时首先查看查询条件是否...

99+

2017-04-22

关于Mysql索引的数据结构
MySQL索引数据结构入门详细教程

目录引言1. 什么是索引2. 索引的数据结构2.1 B+Tree 和 B-Tree2.2 树高问题2.3 什么样的搜索可以用到索引？2.4 使用限制2.5 自适应哈希索引3. 小结引言之前松哥写过一个 mysql 系列...

99+

2023-05-15

MySQL索引数据结构 MySQL入门教程
Mysql InnoDB引擎的索引与存储结构详解

前言在Oracle 和SQL Server等数据库中只有一种存储引擎，所有数据存储管理机制都是一样的。而MySql数据库提供了多种存储引擎。用户可以根据不同的需求为数据表选择不同的存储引擎，用户也可以根...

99+

2022-10-18
数据库系统结构详解之三级模式结构

目录一、从数据库管理系统角度看1.模式2.外模式3.内模式4.模式之间的映射（1）外模式/模式之间的映射（2）模式/内模式之间的映射二、从构件角度看，数据库系统由硬件、软件等部分组成...

99+

2022-11-12
什么是mysql索引的数据结构

本篇文章给大家主要讲的是关于什么是mysql索引的数据结构的内容，感兴趣的话就一起来看看这篇文章吧，相信看完什么是mysql索引的数据结构对大家多少有点参考价值吧。一、简介mysql索引的数据结构是树，常用...

99+

2022-10-18
MySQL索引底层数据结构怎么理解

这篇文章主要介绍“MySQL索引底层数据结构怎么理解”，在日常操作中，相信很多人在MySQL索引底层数据结构怎么理解问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”MySQL索引底层数据结构怎么理解”的疑惑有所...

99+

2023-06-25
Mysql InnoDB引擎中的数据页结构详解

目录Mysql InnoDB引擎数据页结构一、页的简介二、数据页的结构三、记录在页中的存储结构四、记录头信息1. deleted_flag2. min_rec_flag3. n_ow...

99+

2022-11-13
Java数据结构之二叉搜索树详解

目录前言性质实现节点结构初始化插入节点查找节点删除节点最后前言今天leetcode的每日一题450是关于删除二叉搜索树节点的，题目要求删除指定值的节点，并且需要保证二叉搜索树性质不...

99+

2022-11-13
MySQL索引的数据结构-B+树介绍

1.聚集索引和辅助索引在数据库中，B+树的高度一般都在24层，这也就是说查找某一个键值的行记录时最多只需要2到4次IO，这倒不错。因为当前一般的机械硬盘每秒至少可以做100次IO，24次的IO意味着查询时间只需要0.02~0.0...

99+

2017-02-08

MySQL索引的数据结构-B+树介绍
MySQL索引优化之适合构建索引的几种情况详解

目录结论建立索引的场景小结结论在where后面的过滤字段上建立索引(select/update/delete后面的where都是适用的)，使用索引加快过滤效率，不用进行全表扫描在具有唯一要...

99+

2022-07-29

MySQL 索引优化 MySQL 索引构建
MySQL的InnoDB存储引擎的数据页结构详解

目录1 InnoDB页的概念2 数据页的结构3 记录在页中的存储4 Page Directory页目录5 File Header文件头部6 InnoDB页和记录的关系7 没有索引时查...

99+

2022-11-13
Python数据结构之图的存储结构详解

一、图的定义图是一种比树更复杂的一种数据结构，在图结构中，结点之间的关系是任意的，任意两个元素之间都可能相关，因此，它的应用极广。图中的数据元素通常被称为顶点 ( V e r t ...

99+

2022-11-12
Java数据结构之栈的线性结构详解

目录一：栈二：栈的实现三：栈的测试四：栈的应用（回文序列的判断）总结一：栈栈是限制插入和删除只能在一个位置上进行的表，此位置就是表的末端，叫作栈顶。栈的基本操作分为push(入...

99+

2022-11-12
java数据结构之栈的详解

目录一、栈1.栈的应用1.1括号匹配1.2后缀表达式1.3用栈实现队列1.4最小栈1.5栈的压入和弹出序列总结一、栈栈的特性就是先进后出，常用方法是入栈（push()）,出栈(po...

99+

2022-11-12