分库分表

网上分库分表的资料很多，这里主要是重新整理和梳理一下。如有和其他文章类似片段或解决方案，纯属前人总结或者业内标准。

为什么要分表分库

分表分库一般会在以下情况下出现：

一、数据库本身的性能瓶颈

单机数据库的存储容量限制
单机数据库的连接数限制
单张表的性能瓶颈
单张表性能瓶颈；
单个数据库性能瓶颈；

二、特殊场景需求

SasS 特定场景下的数据隔离需要；

数据库瓶颈

不管是 IO 瓶颈，还是 CPU 瓶颈，最终都会导致数据库的查询缓慢甚至无法查询。进而导致业务服务的难易提供并发量、吞吐量。数据库瓶颈也会导致查询缓慢、大量的超时情况进而导致程序无法使用或者崩溃的情况

IO 瓶颈

第一种：磁盘读 IO 瓶颈，数据太多，数据库缓存放不下，每次查询时会产生大量的 IO，降低查询速度 -> 分库和垂直分表

第二种：网络 IO 瓶颈，请求的数据太多，网络带宽不够 -> 分库

CPU 瓶颈

第一种：SQL 问题，如 SQL 中包含 join，group by，order by，非索引字段条件查询等，增加 CPU 运算的操作 -> SQL 优化，建立合适的索引，在业务 Service 层进行业务计算。

第二种：单表数据量太大，查询时扫描的行太多，SQL 效率低，CPU 率先出现瓶颈 -> 水平分表。

网上也流传着一些更通俗具体的说法比如：当单表的数据量达到1000W或100G以后。更通俗的说话就是数据库已经无法满足性能需求了。至于什么情况不能满足性能需求，还是要根据具体的场景来确定的，并没有什么金科玉律。

特殊场景需求

这个就没有办法了，直接接受吧 😏🤣😂😅😢😥😪😓😰😭

分表分库前我们可以做哪些尝试

里面涉及的具体实现以 Java 为主，其他语言使用者自行脑补

数据库本身的性能瓶颈是无法避免，但我们可以想法减轻数据库的压力，减轻数据库瓶颈本身带来的影响。

缓存

缓存可以称的上提供性能减少数据库查询的一个万金油方案，其虽然不能完美的，但一定是最先想到的。

一般可以使用进程内缓存和分布式缓存两种方案想结合的方案。对于一致性要求不高，甚至允许一定时间内可以有数据差异的功能，可以直接采用进程内缓存来实现，这种方案更高效，不过其和程序本身占用同一个进程，需要考虑进程内缓存的容量问题，具体方案可以使用 Google Guava、Caffeine 以及 Spring Cache 等；如果对于一致性要求高，并且不想缓存占用更多的进程内存，则可以使用分布式缓存，其通过一个高性能外部的 Server 来存储一些需要缓存的数据，服务通过网络通信来获取外部 Server 的缓存数据，其增加了一部分网络开销，但不用再占用业务服务的进程内存。

方案对比	进程内缓存（本地缓存）	分布式缓存
容量对比	缓存数据和服务进程共用内存，受单机内存限制	缓存数据单独在高性能服务上，与服务进行无关，其受具体的功性能服务器限制。可以通过集群的方式提高容量
性能对比	本地进程内存查找，性能高效	存在网络开销，受网络环境的影响
具体技术方案	Map、Ehcache、Google Guava、Caffeine 以及 Spring Cache 等	Memcached、Redis、Spring Cache
空间损耗	损耗大，因为缓存数据和服务进程内存一起存储，无法共享。则每个服务进行都会有一份，可能包换多份重复数据。	损耗小