[数据结构与算法] 08MySql索引

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> 08MySql索引 -> 正文阅读

[数据结构与算法]08MySql索引

在这里插入图片描述

表和数

哈希表（哈希冲突）：

? 哈希表可以完成索引的存储，每次添加索引得时候，需要指定列得hash值，取模运算后计算下标，将元素插入下标位置即可。

? 适合场景：

? 等值查询

? 表中得数据是无序数据（范围查找得时候比较浪费时间，需要挨个进行遍历操作）。在企业中多数是范围查询，所以此时hash表不是特别适合，

hash表在使用得时候，需要将全部得数据加载到内存，比较耗费内存的空间，也不是很合适

树：

多叉树，二叉树（二分查找），AVL树（平衡树），红黑树

【在树的结构中，左子树必须小于根节点，右子树必须大于跟节点，如果是多叉树的话，从左到有是有序的】

AVL树：是一颗严格意义的平衡树，最高子树跟最低子树高度只差不能超过1，因此在进行元素插入的时候，会进行 1-N 次旋转，因此严重影响插入的性能。

红黑树：是基于AVL树的一个升级，损失了部分查询的性能，来提升插入的性能，在红黑树中最低子树跟最高子树之差，小于两倍即可，在插入的时候，不需要进行N多次的旋转操作，而且加入了变色的特性，来满足插入和查询的性能平衡

二叉树及其N多的变种，都不能支撑索引，原因在于，树的深度无法控制，或者插入数据的性能比较低

B树

B树的特点：

所以键值分布在整颗树中
搜索有可能在非叶子结点结束，在关键字内做一次查找，性能逼近二分查找
每个节点最多拥有m个子树
根节点至少有2个子树
分支节点只要拥有m/2棵子树（除根节点和叶子节点都是分支节点）
所有叶子节点都在同一层、每个节点最多可以有m-1个key，并且以升序排序

缺点：

每个节点都有key，同时也包含了data，而每个页存储空间有限，如果data比较大的话会导致每个节点存储的key数量变小
当村粗的数据量很大的时候会导致深度较大，增大查询的磁盘的io次数，进而影响查询性能

B+树

B+Tree是在B Tree的基础之上做的一种优化，变化如下：

B+Tree每个节点可以包含更多的节点，这个做的原因有两个
1. 为了降低树的高度
2. 将数据范围变为多个区间，区间越多，数据检索越快
非叶子节点存储key，叶子节点存储key和数据
叶子节点两两指针相互连接（符合磁盘的预读特性），顺序查询性更高

注意：在B+Tree 上有两个头指针，一个指向根节点，另一个指向关系最小的叶子节点，而且所有叶子节点（即数据节点）之间是一种链式环结构，因此可以对 B+Tree 进行两种查找运算

对于主键的范围查找和分页查找
从根节点开始，进行随机查找

MySql存储引擎

mysql InnoDB–B+Tree

? 叶子节点直接放置数据【回表】

注意：

InnoDB是通过B+Tree结构对主键创建索引，然后叶子节点存储记录，如果没有主键，那么会选择唯一键，如果没有唯一键，那么会生成一个6位的row_id来作为主键
如果创建索引是其他字段，那么在叶子节点存储时该记录的主键，然后再通过主键索引找到相应的记录，叫做回表

数据结构学习网站

https://www.geeksforgeeks.org
https://www.cs.usfca.edu/~galles/visualization/Algorithms.html
https://visualgo.net/zh

mysql MyISAM --B+Tree

叶子节点存放的地址，对应的data数据

索引的分类

? ：主键索引、唯一索引、普通索引和全文索引、组合索引

主键索引

– 主键是一种唯一性索引，但它必须指定为PRIMARY KEY，每个表只能有一个主键。
唯一索引

– 索引列的所有值都只能出现一次，即必须唯一，值可以为空。
普通索引

– 基本的索引类型，值可以为空，没有唯一性的限制。（覆盖索引）
全文索引

– 全文索引的索引类型为FULLTEXT。全文索引可以在varchar、char、text类型的列上创建。检索“关键字”
组合索引

– 多列值组成一个索引，专门用于组合搜索（最左匹配原则）

索引维护

? 索引在插入新的值的时候，为了维护索引的有序性，必须要维护，在维护索引的时候需要需要分以下集中情况：

– 1、如果插入一个比较大的值，直接插入即可，几乎没有成本

– 2、如果插入的是中间的某一个值，需要逻辑上移动后续的元素，空出位置

– 3、如果需要插入的数据页满了，就需要单独申请一个新的数据页，然后移动部分数据过去，叫做页分裂，此时性能会受影响同时空间的使用率也会降低，除了页分裂之外还包含页合并

? 尽量使用自增主键作为索

MySQL架构

在这里插入图片描述

连接器

? 连接器负责跟客户端建立连接，获取权限、维持和管理连接

– 用户名密码验证

– 查询权限信息，分配对应的权限

– 可以使用show processlist查看现在的连接

– 如果太长时间没有动静，就会自动断开，通过wait_timeout控制，默认8小时

? 连接可以分为两类：

– 长连接：推荐使用，但是要周期性的断开长连接

– 短链接:

查询缓存

? 当执行查询语句的时候，会先去查询缓存中查看结果，之前执行过的sql语句及其结果可能以key-value的形式存储在缓存中，如果能找到则直接返回，如果找不到，就继续执行后续的阶段。

? ? 但是，不推荐使用查询缓存：

– 1、查询缓存的失效比较频繁，只要表更新，缓存就会清空

– 2、缓存对应新更新的数据命中率比较低

分析器

? 词法分析：Mysql需要把输入的字符串进行识别每个部分代表什么意思

– 把字符串 T 识别成表名 T

– 把字符串 ID 识别成列ID

? 语法分析：

? 根据语法规则判断这个sql语句是否满足mysql的语法，如果不符合就会报错“You have an error in your SQL synta”

优化器

? 在具体执行SQL语句之前，要先经过优化器的处理

? – 当表中有多个索引的时候，决定用哪个索引

	– 当sql语句需要做多表关联的时候，决定表的连接顺序

? – 等等

? 不同的执行方式对SQL语句的执行效率影响很大

? – RBO:基于规则的优化

? – CBO:基于成本的优化

日志

Redo日志–innodb存储引擎日志文件【前滚】

当发生数据修改的时候，innodb引擎会先将记录写到redo log中，并更新内存，此时更新就算是完成了，同时innodb引擎会在合适的时机将记录操作到磁盘中
Redolog是固定大小的，是循环写的过程
有了redolog之后，innodb就可以保证即使数据库发生异常重启，之前的记录也不会丢失，叫做crash-safe

Undo log 【回滚】

Undo Log是为了实现事务的原子性，在MySQL数据库InnoDB存储引擎中，还用Undo Log来实现多版本并发控制(简称：MVCC)
在操作任何数据之前，首先将数据备份到一个地方（这个存储数据备份的地方称为Undo Log）。然后进行数据的修改。如果出现了错误或者用户执行了 ROLLBACK语句，系统可以利用Undo Log中的备份将数据恢复到事务开始之前的状态

注意：undo log是逻辑日志，可以理解为：

? – 当delete一条记录时，undo log中会记录一条对应的insert记录

? – 当insert一条记录时，undo log中会记录一条对应的delete记录

? – 当update一条记录时，它记录一条对应相反的update记录

回滚到原来状态

binlog–服务端的日志文件

归档日志，或者二进制日志

? Binlog是server层的日志，主要做mysql功能层面的事情

? 与redo日志的区别:

? – 1、redo是innodb独有的，binlog是所有引擎都可以使用的

? – 2、redo是物理日志，记录的是在某个数据页上做了什么修改，binlog是逻辑日志，记录的是这个语句的原始逻辑

? – 3、redo是循环写的，空间会用完，binlog是可以追加写的，不会覆盖之前的日志信息

Binlog中会记录所有的逻辑，并且采用追加写的方式
一般在企业中数据库会有备份系统，可以定期执行备份，备份的周期可以自己设置

恢复数据的过程：

找到最近一次的全量备份数据
从备份的时间点开始，将备份的binlog取出来，重放到要恢复的那个时刻

执行顺序

执行器先从引擎中找到数据，如果在内存中直接返回，如果不在内存中，查询后返回
执行器拿到数据之后会先修改数据，然后调用引擎接口重新吸入数据
引擎将数据更新到内存，同时写数据到redo中，此时处于prepare阶段，并通知执行器执行完成，随时可以操作
执行器生成这个操作的binlog
执行器调用引擎的事务提交接口，引擎把刚刚写完的redo改成commit状态，更新完成

Redo loh 的两阶段提交

? ? 先写redo log后写binlog:假设在redo log写完，binlog还没有写完的时候，MySQL进程异常重启。由于我们前面说过的，redo log写完之后，系统即使崩溃，仍然能够把数据恢复回来，所以恢复后这一行c的值是1。但是由于binlog没写完就crash了，这时候binlog里面就没有记录这个语句。因此，之后备份日志的时候，存起来的binlog里面就没有这条语句。然后你会发现，如果需要用这个binlog来恢复临时库的话，由于这个语句的binlog丢失，这个临时库就会少了这一次更新，恢复出来的这一行c的值就是0，与原库的值不同。

? ? 先写binlog后写redo log:如果在binlog写完之后crash，由于redo log还没写，崩溃恢复以后这个事务无效，所以这一行c的值是0。但是binlog里面已经记录了“把c从0改成1”这个日志。所以，在之后用binlog来恢复的时候就多了一个事务出来，恢复出来的这一行c的值就是1，与原库的值不同
备份日志的时候，存起来的binlog里面就没有这条语句。然后你会发现，如果需要用这个binlog来恢复临时库的话，由于这个语句的binlog丢失，这个临时库就会少了这一次更新，恢复出来的这一行c的值就是0，与原库的值不同。