[大数据] SQL和性能优化（一）

文章目录

SQL和性能优化

一、性能

1.1、什么是性能

(1) 吞吐和延迟

(2) 没有量化就没有改进

(3) 80/20原则

(4) 过早的优化是万恶之源

(5) 脱离场景谈性能都是耍流氓

1.2 业务系统

二、MySQL数据库

2.1 什么是关系型数据库

（1）以关系代数理论为数学基础。

（2）什么是数据库的范式

2.2 常见的关系型数据库

2.3 SQL 语言

（1）六部分

《千亿数据的潘多拉魔盒：从分库分表到分布式数据库.pdf》中提到了很多比较实用的分库分表的技术，有空的时候多看看。

2.4 MySQL的演化

三、深入数据库的原理

3.1 MySQL架构图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6x2Zakd6-1636988039392)(./photos/mysql架构图.jpeg)]

3.2 MySQL存储：数据库的文件结构

独占模式

5）binlog 二进制日志文件：记录主数据库服务器的DDL和DML操作

共享模式innodb_file_per_table=1

其他

information_schema mysql的元数据库

select table_name from information_schema.TABLES; 可以看到所有库中，所有的表

其他任意一个库，比如：test

默认不共享表空间的话，库的文件夹下的文件和表名是一一对应的。

查看表结构

查看表的创建语句

3.3 MySQL 执行流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-He8CpaKg-1636988039394)(./photos/01MySQL简化版执行流程.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TIPUiLQr-1636988039396)(./photos/02MySQL详细执行流程.png)]

3.4 MySQL执行引擎和状态

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-abUs0QvQ-1636988039398)(./photos/03MySQL的状态.png)]

3. 5 MySQL对SQL执行顺序

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tJ0QfcAO-1636988039399)(./photos/04MySQL对SQL的执行顺序.png)]

3.6 MySQL的索引原理

MySQL的数据是存在文件中的，默认每个表一个数据文件。有一个开关可以共享表空间，这个时候会把很多表放到一个数据文件中。

磁盘上，文件是有最小单位的，比较4k是文件系统的最小单位。

数据库设计有个原子的东西，假如，id=5这条数据被使用了，那么和它相临的id=4，id=6 的数据也很有可能被使用（这是个经验规律）。为了效率最高，我们一般不只单捞取条数据，而是把一个块的数据都捞出来。所以数据库里面的数据也是分块的，我们叫页。

默认数据的存储叫聚集索引（Innodb使用B+树实现聚集索引）。按照主键方式进行聚集存储到数据文件中的，这样的话，使用主键效率最高，也最快。

详细可以看《千亿数据的潘多拉魔盒：从分库分表到分布式数据库.pdf》

3.7 MySQL 的安装方式

（1）安装的几种方式：

（2）操作工具

（3）mysql的操作命令

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X35o8Gjr-1636988039400)(./photos/05MySQL安装包自定义的运行脚本.png)]

3.7 MySQL 参数

关于这些参数，要看《千亿数据的潘多拉魔盒：从分库分表到分布式数据库.pdf》

（1） my.cnf

（3）缓冲区参数，涉及性能

（4）配置Innodb的几个变量

3.8 数据库设计优化

（1）引擎的选择

（2）表名如何命名？

（3）如何合理拆分宽表？

（4）如何恰当选择数据类型：明确（长度固定）、尽量小

（5）是否使用外键、触发器？

（6）唯一约束和索引的关系

（7）是否可以冗余字段

（8）是否使用游标、变量、视图、自定义函数、存储过程？

（9）自增主键的使用问题？

自增主键在单表中可以使用，但在分布式数据库中不建议使用