缓存常见问题
什么是缓存
- 凡事位于速度相差较大的两种介质之间,用于协调两者数据传输速度差异的结构,都称为缓存。
- 缓存是一种设计模式,其利用增加存储空间的方式,实现低速部件与高速部件之间的解耦。只要是实现了解耦的地方就有存在缓存的可能。
- 缓存用空间换时间解决问题,空间不可无限使用。因此需要考虑如何节省空间、如何提供缓存命中率、如何确定有效的更新策略等问题。
为什么使用缓存
- 高性能
- 高并发
- 保护数据库
缓存使用中的常见问题与方案
2.1 缓存穿透
- 描述:缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到存储层去查询,失去了缓存的意义。
- 解决方案:
- 缓存空对象 优点:实现简单 缺点:空对象占用内存资源
- 布隆过滤器 优点:效果好 缺点:实现复杂度较高
- 布隆过滤器原理:
布隆过滤器由一个长度为m比特的位数组(bit array)与k个哈希函数(hash function)组成的数据结构。位数组初始化均为0,所有的哈希函数都可以分别把输入数据尽量均匀地散列。当要向布隆过滤器中插入一个元素时,该元素经过k个哈希函数计算产生k个哈希值,以哈希值作为位数组中的下标,将所有k个对应的比特值由0置为1。当要查询一个元素时,同样将其经过哈希函数计算产生哈希值,然后检查对应的k个比特值:如果有任意一个比特为0,表明该元素一定不在集合中;如果所有比特均为1,表明该集合有可能性在集合中。为什么不是一定在集合中呢?因为不同的元素计算的哈希值有可能一样,会出现哈希碰撞,导致一个不存在的元素有可能对应的比特位为1。 布隆过滤器认为不在的,一定不会在集合中;布隆过滤器认为在的,可能在也可能不在集合中。 布隆过滤器特点 优点: 节省空间:不需要存储数据本身,只需要存储数据对应hash比特位 时间复杂度低:插入和查找的时间复杂度都为O(k),k为哈希函数的个数 缺点: 存在假阳性:布隆过滤器判断存在,可能出现元素不在集合中;判断准确率取决于位数组的长度和哈希函数的个数 布隆过滤器适用场景 网页爬虫对URL的去重,避免爬取相同的URL地址; 反垃圾邮件,从数十亿的邮件列表中判断某邮箱是否为垃圾邮箱; 银行、征信系统的黑名单机制; 缓存击穿,将已存在的缓存放到布隆过滤器中,当攻击者大量尝试访问不存在的缓存key时,迅速返回,避免缓存及DB挂掉。
2.2 缓存击穿
2.3 缓存雪崩
2.4 缓存预热
- 描述:
缓存预热就是系统上线后,将相关的缓存数据直接加载到缓存系统,这样就可以避免在用户请求的时候,先查询数据库,然后再将数据回写到缓存。如果不进行预热, 那么 Redis 初始状态数据为空,系统上线初期,对于高并发的流量,都会访问到数据库中, 对数据库造成流量的压力。 - 解决方案:
- 数据量不大的时候,项目启动的时候进行加载缓存动作;
- 数据量大的时候,设置一个定时任务脚本,进行缓存的刷新;
- 数据量太大的时候,优先保证热点数据进行提前加载到缓存。
2.5 缓存降级与限流
- 短时间范围内牺牲一些客户体验,限制一部分请求访问,降低应用服务器压力,待业务低速运转后再逐步放开访问
2.6缓存更新策略
-
旁路模式(Cache-Aside Pattern)
- 失效:应用程序先从cache取数据,没有得到,则从数据库中取数据,成功后,放到缓存中。
- 命中:应用程序从cache中取数据,取到后返回。
- 更新:先把数据存到数据库中,成功后,再让缓存失效。
-
读穿透(Read Through Patten) 读穿透模式:就是在查询操作中更新缓存,也就是说,当缓存失效的时候(过期或LRU换出),Cache Aside是由调用方负责把数据加载入缓存,而Read Through则用缓存服务自己来加载,从而对应用方是透明的。 -
写穿透(Write Through Pattern) 写穿透模式:和Read Through相仿,不过是在更新数据时发生。当有数据更新的时候,如果没有命中缓存,直接更新数据库,然后返回。如果命中了缓存,则更新缓存,然后再由Cache自己更新数据库(这是一个同步操作) -
回写模式(Write Back Pattern) 在更新数据的时候,只更新缓存,不更新数据库,而我们的缓存会异步地批量更新数据库。这个设计的好处就是让数据的I/O操作速度很快(因为直接操作内存)。因为异步,write back还可以合并对同一个数据的多次操作,所以性能的提高是相当可观。
业务中使用缓存的一点总结
- 缓存类型
- 缓存内容
- 业务数据: 接口强依赖缓存。缓存元信息数据
- 具有操作属性的配置数据
- 分布式锁
- 临时储存的业务数据,类似mq
- 缓存更新模式
- 更新数据库时通过MQ触发缓存更新。中间件监听binlog,使用消息队列下发消息,由MQ消费者处理消息构建缓存。
- 回写模式,接口写缓存由定时任务消费落库(一些对数据时效性不高的业务点)。
- 通过消息队列异步更新的方式相当于是写穿透,系统自身具有缓存更新能力。相对于读模式代码简化,解耦缓存构建和业务写库,同时使得架构更复杂,缓存时效性依赖消息系统的时效性。
- HashTag: key中使用{}将固定特征的数据存储到相同的实例中,在一定程度中起到隔离的作用同时方便数据统计,缺点是可能会导致数据分布不均匀。
如果key中包含了{符号,且在{符号后存在}符号,并且{和}之间至少有一个字符,则有效部分是指{和}之间的部分
参考
|