1、索引是什么?如何分类?
索引是一种快速查找数据的数据结构,在innodb中以.index文件的方式存储在磁盘上;MySQL先在索引上按值进行查找,然后返回所有包含该值的数据行。 常见的几种索引是:B树索引、全文索引和hash索引; 1)B树索引是最常用的索引,索引列是顺序组织存储的,所以很适合查找范围数据。例如,在一个基于文本域的索引树上,按字母顺序传递连续的值进行查找是非常合适的; 2)Hash索引基于哈希表实现,只要精准匹配索引所有列时生效;对于每一行数据,存储引擎都会对所有的索引列计算一个哈希码(hash code),适用于精准匹配单向查询; 3)全文索引是一种特殊类型的索引,它查找的是文本中的关键词,而不是直接比较索引中的值。适用于搜索引擎进行一个全文查找;
innodb引擎支持B+树索引,这也是主流索引设计,此外它还有自适应的hash索引设计; 如果按照MySQL使用分类,也可以分为 主键索引、唯一索引、普通索引和联合索引;
2、索引的设计原则?
1、对于数据量比较大的数据表建立索引; 2、索引列的要求,区分度高、不经常更改、最好还应该是非空字段; 3、索引列如果数据量较大采用前缀索引,即只采用部分值; 4、避免过度使用索引。索引需要额外的磁盘空间,并降低写操作的性能。在修改表内容的时候,索引会进行更新甚至重构,索引列越多,这个时间就会越长
3、B+树;
B+树是一种特殊的多路平衡查找树;一个B+树的结构一般来说如下图所示,非叶子节点主要存储每一个页面的地址,每个索引所在叶子上;叶子节点按顺序存储数据,比如下图的5,10,12,15…,而且这些叶子之间有一个类似于双向链表的结构; B+树的查找过程:通过上面的非叶子节点二分查找思想查到叶子节点位置,再做一个叶子上的顺序查询即可查到数据所在位置;
B+树如何插入数据:比较值后进行直接叶子节点的直接追加或者分裂和旋转后在添加; 插入数据必保证整个数据有序,所以需要有一个思想中间值拆分思想和页面容量的概念,如同b树的插入,在b+树的叶子里插入新数据,会先考虑当前数据页是否已满,比如上述的结构中,我想插入一个13,会先查找到12,然后尝试插入12这一页,如果这一页容量可以容下它,就直接插入,如果容量不够,则会尝试旋转或者拆分两种情况。
二叉平衡查找树,左子树的键值总是小于根的键值,右子树的键值总是大于根的键值的平衡二叉树;在这中结构中查找比顺序查找来的快;但是插入新的值需要左右旋保持平衡;且数据量存储越大劣势越大;显然不太适合索引。而B+树相对于B树空间利用率更高,可减少I/O次数,磁盘读写代价更低,B+树的叶子节点使用指针顺序连接在一起,只要遍历叶子节点就可以实现整棵树的遍历。且查询效率稳定;
4、索引的存储设计
-
索引以物理文件的方式存储在磁盘上,MyIsam引擎是索引文件.MDI和数据文件.mdb文件,Innodb引擎是索引和数据存在一起的.ibd文件,当数据库查找数据时如果是MyIsam则会先查找索引文件,在从索引文件中去查找数据文件,而innodb引擎会直接通过.idb文件去找到数据并返回。 -
之所以将数据存在一起可以充分利用空间并提高索引存储数量;对于同一个B+树的节点来说,通过
磁盘文件存储是按页存储的,CPU与内存的最小交换单位,即每次IO的次数以页为单位;如果将b+树的节点设计成一个页的整数倍或者一页则可以充分利用IO资源;
Innodb引擎下的各种索引存储方式,默认为B+树
- 主键索引,innodb的主键索引将数据和索引存在一起,通过比较索引大小来进行叶子节点数据的查找,当查找到数据页时进行遍历比对;
- 辅助索引,非主键索引即辅助索引不会进行数据存储,只会存储主键索引,然后通过主键索引进行查找;到主键索引树检索数据的过程称为回表查询;
- 联合索引,联合索引将多个索引作为索引节点存储,即需要比较三个索引才能进一步的查找叶子节点;因为比较索引的方式是从左往右的,所以索引匹配需要满足最左匹配原则;
最左匹配原则:使用组合索引查询时,mysql会一直向右匹配直至遇到范围查询(>、<、between、like)就停止匹配;
覆盖索引,辅助索引需要回表查询,但如果常用的数据只有几列,可以把这几列纳入组合索引,这样叶子节点的数据就是结果,不需要回表查询;
5、为什么需要使用整形自增作为主键?
为什么UUID不行,首先存储容量上,由于UUID比整形大导致的索引变少,高度变大。因为写入是乱序的,InnoDB不得不频繁地做页分裂操作,导致数据碎片化; 为什么整数行,空间小,方便排序; 为什么需要自增,因为插入数据到索引需要进行比较,从左到右递增,只需要插入到页面后面,而不需要进行一个节点的分裂;
顺序索引的一个缺点:高并发情况下的竞争问题,因为都是在同一个叶子节点下追加;
一些使用上的问题
- 首先索引无法识别表达式,即想要使用索引必须将它作为一个单列;即where num +2 = 0;
- 如果想要索引的字符列比较大,可以通过实现hash索引,或者前缀索引;
- 索引的设计原则应尽量符合,最起码符合排序和可区分行;
- 重复索引是指在相同的列上按照相同的顺序创建的相同类型的索引。应该避免这样创建重复索引,发现以后也应该立即移除。冗余索引,即建立了组合索引后再为组合里面列电镀建立的索引应避免,除非处于性能考虑;
|