[大数据] 尚硅谷--Mysql--高级篇

文章目录

- - 🔥3.Mysql高级篇

🔥3.Mysql高级篇

3.1 MySQL架构篇(P96~P114)

3.1.1 基本概念

3.1.1.1 查看字符集

3.1.1.2 字符集与比较规则

3.1.2 SQL规范与SQL_Mode

3.1.2.1 基本概念

3.1.2.1 SQL_Mode

3.1.3 Mysql数据目录

3.1.3.1 基本概念

3.1.4 Mysql–用户管理（P105~P108略）

3.1.5 Mysql–逻辑架构

3.1.5.1 基本架构

3.1.5.2 架构原理–内部执行流程

3.1.6 Mysql存储引擎

3.1.6.1基本概念

3.1.6.2 MyIASM与Innodb比较

3.2 Mysql索引及调优篇(p115-p160 *)

3.2.1 索引数据结构

3.2.1.1 基本概念

? 索引目的：减少磁盘I/O次数，存在与存储引擎中，需要占用磁盘空间，维护索引会降低更新表的速度。可以提升分组、排序的查询速度。

3.2.1.2 设计索引

3.2.2 索引概念

3.2.2.1 聚簇索引

? 聚簇索引：由上图可知，数据文件和索引文件放在一起。主键索引也属于聚簇索引。表只有一个聚簇索引，页内是属于主键顺序的单向链表。页之间是双向链表，叶子结点是库表的数据。若没有主键，则用非空唯一索引，若没有唯一索引，则给个默认的主键id。可大大节省IO操作。

3.2.2.2 二级索引（辅助索引、非聚簇索引）

? 二级索引：结果与聚簇索引类似，但是叶子结点存储建立索引的字段，比如name。外加主键值。会有回表即去聚簇索引找到具体记录值的操作。查询效率比聚簇索引底，但是insert, update , delete效率高，因为不涉及到实际记录的修改。

3.2.3.3 联合索引

? 联合索引：多个二级索引，比如name, phone，底层存储的先按索引建立的先后顺序排列，底层存储name,phone, 主键。

3.3.3.4 Innodb注意事项

3.3.3.5 索引代价

3.2.3 Mysql底层存储相关数据结构

3.2.3.1 基本概念

? 由于索引和数据占用内存过大，不能一次加载到内存中，所以底层选择合适数据结构目的都是为了减少磁盘IO次数。

3.2.3.2 Hash

3.2.3.2 二叉搜索树、AVL树

3.2.3.3 B树、B+树

? 1. B树：多路平衡查找树，可看成N叉树。左边比根小，中间介于根12, 20之间，右边比根大。所有结点都存储数据。

? 2. B+树：孩子数量=关键字数量（因为要一一对应查找），而B树是判断范围，所以孩子数量=关键数数量+1.

? B+数查询更稳定（因为一定遍历树的阶数），范围查找也很快（找到2个数之后，叶子结点之间数据指针遍历即可），效率高（由于目录页不存在数据，所以16KB能存储更多数据，树也更矮胖，磁盘IO次数更少。）

3.2.3.4 R树

3.2.4 Innodb数据存储结构

3.2.4.1 基本概念

3.2.4.2 页内部结构

? 页目录：对于页中记录分组存储，称为槽，每组的数量总和记录作为n_owned

? 页头部：页目录中槽数量、记录指的方向、记录数量等等。

3.2.4.3 Compact行格式

3.2.4.4 Dynamic、Compressed行格式

? 两者原理和Compact类似，不同之处在于对上面行格式溢出的处理。

? Dynamic：行溢出的数据全部移到另外一个溢出页中，然后用个指针指向。

? Compressed：对于行溢出数据进行压缩。也是全部移到另一个溢出页中，然后用指针指向。

3.2.4.5 页、区、段、表

3.2.5 索引创建与设计原则

3.2.5.1 基本概念

3.2.5.2 索引创建准则

3.2.6 性能分析工具

3.2.6.1 基本优化步骤

3.2.6.2 慢查询日志

3.2.7 Explain执行计划

3.2.7.1 基本概念

? Id：id相同的一组执行。会分成多组情况：子查询、union嵌套

? partitions：未分区统一为NULL，sql可以自定义分区数量（小于多少在一个分区里面）

? type：system，const，eq_ref，ref，fulltext，ref_or_null，index_merge，unique_subquery，index_subquery，range，index，ALL

? possible_keys、key：索引优化器对可能用到的索引分析使用最终要用到的索引

? ref：一般结合tyep来看是const等值比较、或者为列、或者为某个函数

? filtered：rows预估读取出来的记录满足要求比例。（除开索引后其他条件的记录）

3.2.7.2 Explain-进阶、trance、sys schema（略）

3.2.8 索引查询优化

3.2.8.1 基本概念

3.2.8.2 索引失效情况

3.2.8.3 索引建议

? 1.联合索引采用过滤性强的放在前面：比如uid，status这种放在后面

3.2.8.4 关联查询优化

3.2.8.5 子查询优化

? 1. 禁止使用not in，not exists子查询，改用left join … where b.x is null / = ‘’;

3.2.8.6 排序索引

3.2.8.7 Group by优化

3.2.8.8 分页查询优化

? 1. select … from … limiit 20000, offset 10改为select …from where id > 20000 limit 10。保证往聚簇索引上靠

3.2.8.9 覆盖索引

? 名词：即查询字段和where条件内索引恰好对应，字段可以少，但是不能多。

3.2.8.10 索引下推（ICP）

? 针对联合索引(a, b)select … where a = ‘’ and b like ‘%A%’，原本由于索引失效只会查a = ''100条，然后全部回表查询。但是优化器实际却是对100条进行b字段过滤，查到10条，再进行回表查询，这就是ICP索引下推

3.2.8.11 其他优化策略

? 1. 大表in小表。小表exists大表，因为小表是一条数据送入大表查询。

3.2.8.12 Count(1)，count(*)，count(字段)

3.2.8.13 Select *

避免采用select *，Mysql会查询数据字典解析select * 成具体列会消耗资源和时间。另外也会导致无法使用覆盖索引

3.2.8.14 主键设计方案

3.2.9 数据库设计

3.2.9.1 范式、反范式化

反范式化：由于范式会导致表太多、性能业务下降，所以为减少联表查询而避免范式化。比如id ,name，部门name

3.2.9.2 BCNF（巴斯范式）

在3NF基础上消除了主属性对候选码的部分依赖或传递依赖。就类似于studentid，科目，老师。科目可能会重复，就要把studentid，科目拆开。

3.3.9.3 ER模型

? Entity-Relationship定义：实体(行)、属性（列）、联系集(实体之间的关系)。实体集就是表

3.2.9.4 数据库对象编写

3.2.9.5 数据库相关调优

3.2.9.6 表结构优化

? 4. 尽量不要对数据分片，会带来逻辑、部署、运维等复杂度。支持千万级别数据没问题。

3.3 Mysql-事务篇（P161-P172）

3.3.1 事务基本概念

3.3.1.1 ACID

3.3.1.2 4种隔离级别、3种并发问题

脏写：一个事务提交后读取到了另一个事务回滚前的数据（4种隔离级别都避免了脏写）

3.3.2 事务日志

redo log：重做日志，保证事务持久性。记录物理级别的页号等

undo log：回滚日志，保证事务的原子性、一致性。用于事务回滚与一致性非锁定读（回滚到指定版本MVCC）

因为内存和磁盘交互时间过长，为保证CPU-内存-磁盘数据一致，在CPU-内存中时，先写入redo日志。

redo log：在事务中不断写入，而bin log是事务提交之后一次性写入，两阶段提交比较也是如此

事务在写入内存buffer的时候也会写会redo logbuffer，然后往redo log file 以及磁盘中写.

刷盘到redolog file的策略默认是事务提交就刷盘。字段对应：innodb_flush_log_at_trx_commit

3个隐藏列：row_id，transaction_id：事务id roll_pointer：回滚指针。

3.4 Mysql-锁篇（P173~P182 *）

3.4.1 从数据操作的类型划分–读锁、写锁

3.4.2 从数据操作的粒度划分–表级锁、页级锁、行锁

3.4.2.0 基本概念

3.4.2.1 表锁

? 元数据锁（MDL）：当进行CRUD操作时，进行DDL操作会阻塞，反之亦然。

3.4.2.2 Innodb行锁

3.4.2.3 页锁

? 一页上具有有个行，所以页锁介于表锁（无死锁）与行锁（有死锁）之间，会有死锁情况

3.4.3 从对锁态度划分–乐观锁、悲观锁

3.4.4 从加锁方式划分–显示锁、隐式锁

3.4.5 其他锁–全局锁、死锁

3.4.6 锁内部结构

3.4.6.1 基本概念

3.4.7 锁监控

3.4.7.1 具体应用

3.5. Mysql事务篇（P183~P186 *）

3.5.1前提概念

3.5.2 MVCC基本概念

3.5.3 MVCC流程

举例：事务10,20依次来更新某行数据，先读取版本链，然后根据readView规则判断依次该读取哪行记录

? 1. readeView:{10, 20}，版本链如下，在来个读取操作，则先看版本链->宋八，由于前4个都在readView中，故而读取张三

总结：比较读已提交和可重复读可发现，读已提交确实无法解决不可重复读（两次事务之间有数据更新也读到了），而可重复读解决了这个问题。

3.6 Mysql日志与备份篇（p187-p199）

3.6.1 Mysql日志

3.6.1.1 基本概念

3.6.1.2二进制日志（P189~P190略）

3.6.1.3 主从复制、备份（P191~P197略）

3.6.1.4 数据恢复

对于删表数据，取最近一次（比如2点，删除是在2.30）全量备份恢复出一个临时库，然后取2点到2.30的binlog日志，先应用到临时库，然后恢复到主库