深入解析缓存三大难题：击穿、穿透与雪崩

在高并发系统架构中，缓存作为提升性能、减轻数据库压力的核心组件，扮演着至关重要的角色。然而，缓存并非 “万能药”，在实际应用中，常会遭遇缓存击穿、缓存穿透和缓存雪崩三大典型问题。这些问题若处理不当，可能导致数据库瞬间压力激增，甚至引发系统雪崩式崩溃。本文将从定义、场景、危害及解决方案四个维度，对这三大缓存问题进行全面拆解，帮助技术从业者建立清晰的应对思路。

一、缓存击穿：热点 key 的 “单点故障”

1. 定义与发生场景

缓存击穿，指的是某个热点 key 在缓存中失效的瞬间，大量并发请求直接穿透缓存，涌向数据库的现象。这类 key 通常是系统中的高频访问数据，例如电商平台的 “爆款商品详情页”、直播平台的 “热门主播在线状态” 等。

其核心触发条件有两个：

该 key 是 “热点”：短时间内存在数百甚至数万次的并发访问；

该 key 的缓存 “失效”：可能是缓存过期（最常见）、缓存服务重启导致数据丢失，或主动删除缓存后未及时重建。

例如，某电商平台在 “618” 大促期间，一款销量 TOP1 的手机商品缓存设置了 1 小时过期。当缓存到期时，恰好有 10000 名用户同时点击该商品详情页，此时缓存中无数据，所有请求会直接打到数据库，导致数据库连接数瞬间拉满，出现查询超时甚至宕机。

2. 核心危害

数据库瞬时压力暴增：远超数据库正常承载能力，可能引发数据库性能下降、连接池耗尽；

影响关联业务：若数据库因压力宕机，依赖该数据的业务（如商品下单、库存查询）会连锁故障；

用户体验下降：请求超时导致页面加载失败、操作无响应，引发用户流失。

3. 解决方案

针对缓存击穿的核心矛盾 ——“热点 key 失效瞬间的高并发”，解决方案围绕 “避免并发请求直达数据库” 展开，常见方案如下：

（1）互斥锁（分布式锁）

当缓存失效时，并非所有请求都去查询数据库，而是通过分布式锁（如 Redis 的 SETNX、ZooKeeper） 保证 “只有一个请求能获取锁并查询数据库”，其他请求则等待锁释放后，从缓存中获取更新后的数据。

优点：逻辑简单，能确保数据一致性；

缺点：存在锁竞争，等待期间会导致部分请求延迟，若锁未正常释放（如服务宕机），可能引发死锁（需设置锁过期时间）。

（2）热点 key 永不过期

对确认的热点 key，不设置缓存过期时间，避免因过期导致的击穿问题。同时，通过后台异步线程定期更新缓存数据（如每 30 分钟更新一次），确保缓存数据的时效性。

优点：无锁竞争，性能高，避免请求延迟；

缺点：仅适用于 “热点 key 明确且数据更新频率低” 的场景（如静态配置、低频更新的商品信息），若数据需实时更新（如库存），则可能出现数据不一致。

（3）“热点 key + 随机过期时间”

为热点 key 设置基础过期时间（如 1 小时），同时在基础时间上增加一个随机偏移量（如 0-10 分钟）。这样，即使多个热点 key 同时创建，也会分散在不同时间点过期，避免 “批量 key 同时失效” 引发的集中穿透。

优点：实现简单，能有效分散过期时间，降低集中击穿风险；

缺点：无法完全杜绝击穿（仍有单个 key 过期的可能），需配合其他方案使用。

二、缓存穿透：“不存在的数据” 的恶意攻击

1. 定义与发生场景

缓存穿透，指的是请求查询的数据在缓存和数据库中均不存在，导致所有请求直接穿透缓存，持续涌向数据库的现象。这类请求通常分为 “无意的无效请求” 和 “恶意的攻击请求” 两类：

无意请求：用户输入错误参数（如查询 id 为 - 1 的用户、不存在的商品 ID）；

恶意攻击：攻击者构造大量不存在的 key（如连续查询 id 为 999999、1000000... 的不存在数据），利用缓存穿透压垮数据库。

与缓存击穿的核心区别在于：击穿是 “数据存在但缓存失效”，穿透是 “数据本身不存在”。由于缓存的 “命中逻辑” 是 “先查缓存，缓存无则查数据库”，若数据在数据库中也不存在，缓存无法存储 “不存在的结果”，导致后续相同请求会重复穿透。

2. 核心危害

数据库资源被无效请求耗尽：即使单条请求耗时短，海量恶意请求也会导致数据库 CPU、IO 利用率飙升，最终宕机；

缓存 “形同虚设”：所有请求均穿透缓存，缓存无法发挥作用，系统性能退化为 “无缓存状态”；

业务不可用：数据库宕机后，正常业务请求（如查询存在的用户、商品）也会失败。

3. 解决方案

缓存穿透的核心矛盾是 “不存在的数据无法被缓存，导致请求重复穿透”，解决方案围绕 “拦截无效请求” 或 “缓存‘不存在的结果’” 展开：

（1）缓存空值（Null Value）

当数据库查询结果为 “不存在” 时，不直接返回空，而是将 “该 key 对应的空值” 存入缓存（如 key=“user_9999”，value=“null”），并设置一个较短的过期时间（如 5 分钟）。后续相同请求会从缓存中获取空值，避免再次穿透数据库。

优点：实现简单，能快速拦截重复的无效请求；

缺点：若攻击者构造大量不同的无效 key（如 user_10001、user_10002...），会导致缓存中存储大量空值，浪费缓存空间（即 “缓存污染”）。

（2）布隆过滤器（Bloom Filter）

在缓存之前增加一层布隆过滤器，用于快速判断 “请求的 key 是否在数据库中存在”。布隆过滤器本质是一个二进制数组和多个哈希函数，其核心特性是：

若过滤器判断 “key 不存在”，则数据库中一定不存在，直接返回空；

若过滤器判断 “key 存在”，则数据库中可能存在（存在极小误判率），再继续走 “缓存→数据库” 流程。

通过布隆过滤器，可在请求到达缓存前拦截 99% 以上的无效请求，从源头避免穿透。

优点：空间效率极高（存储 1 亿个 key 仅需约 100MB），查询速度快（O (k)，k 为哈希函数个数）；

缺点：存在误判率（可通过调整哈希函数个数和数组大小降低，通常控制在 0.1% 以下），且无法删除已存储的 key（需定期重建过滤器）。

（3）请求参数校验与限流

参数校验：在接口层对请求参数进行合法性校验（如用户 id 必须为正整数、商品 id 在合理范围内），直接拦截明显无效的请求；

限流熔断：对单个 IP 或接口设置限流阈值（如每秒最多 100 次请求），当恶意请求超过阈值时，触发熔断机制，拒绝后续请求，保护数据库。

三、缓存雪崩：“批量 key 失效” 的连锁灾难

1. 定义与发生场景

缓存雪崩，指的是在某一时间段内，缓存中大量 key 集中过期失效，或缓存服务本身故障（如 Redis 集群宕机），导致所有请求全部穿透到数据库，引发数据库压力骤增甚至宕机的现象。其本质是 “批量 key 失效” 或 “缓存服务不可用” 导致的 “缓存整体失效”，比击穿和穿透的影响范围更广（击穿是单个 key，穿透是无效 key，雪崩是批量有效 key）。

常见触发场景：

批量 key 集中过期：如电商平台在 “0 点” 对所有商品缓存设置了 24 小时过期，次日 0 点所有商品缓存同时失效，大量请求涌向数据库；

缓存服务故障：如 Redis 集群因网络故障、硬件损坏或运维操作失误（如误删除缓存）导致整体不可用，所有依赖缓存的请求全部穿透。

2. 核心危害

数据库级联崩溃：海量请求同时到达数据库，远超其承载能力，导致数据库 CPU、内存、IO 耗尽，直接宕机；

系统雪崩效应：数据库宕机后，依赖数据库的服务（如订单、支付、用户系统）全部不可用，进而引发整个业务链路崩溃；

恢复难度大：缓存雪崩导致的故障通常是 “连锁反应”，需同时恢复缓存服务和数据库，且恢复期间仍可能遭遇新的请求压力。

3. 解决方案

缓存雪崩的核心矛盾是 “缓存整体失效或不可用”，解决方案需从 “避免批量 key 集中失效” 和 “提高缓存服务可用性” 两个维度入手：

（1）分散 key 的过期时间

这是应对 “批量 key 集中过期” 的最直接方案，具体做法与缓存击穿的 “随机偏移量” 类似：为每个 key 设置基础过期时间后，额外增加一个随机时间（如 0-30 分钟），确保原本集中过期的 key 分散在不同时间点失效，避免 “瞬间批量穿透”。

例如，原本所有商品缓存设置为 24 小时过期，改为 “24 小时 + 随机 0-30 分钟”，则过期时间分布在 24-24.5 小时之间，有效分散请求压力。

（2）缓存服务高可用架构

为避免 “缓存服务单点故障” 导致的雪崩，需搭建缓存的高可用集群：

Redis：采用 “主从复制 + 哨兵模式” 或 “Redis Cluster 集群”，确保主节点故障时，从节点能快速切换为新主节点，保证缓存服务持续可用；

多缓存实例：部署多个独立的缓存实例（如不同机房的 Redis 集群），即使某一个实例故障，其他实例仍可提供服务，降低整体失效风险。

（3）熔断降级与限流

当缓存服务不可用或数据库压力达到阈值时，通过熔断降级机制主动 “切断” 部分非核心请求，避免数据库被压垮：

熔断：当数据库查询错误率超过阈值（如 50%），暂时停止向数据库发送请求，直接返回默认值（如 “服务繁忙，请稍后再试”）；

降级：优先保障核心业务（如商品下单、支付）的请求，对非核心业务（如商品评价、历史浏览记录）进行降级，拒绝或延迟处理其请求；

限流：通过网关（如 Nginx、Spring Cloud Gateway）对进入系统的请求总量进行限制，确保数据库只接收可控范围内的请求。

（4）缓存预热与持久化

缓存预热：在系统低峰期（如凌晨），通过后台线程提前将热点数据加载到缓存中（如批量查询商品数据并写入 Redis），避免高峰期 “缓存为空” 导致的穿透；

缓存持久化：开启缓存服务的持久化功能（如 Redis 的 RDB+AOF），当缓存服务重启时，可快速从持久化文件中恢复数据，减少缓存失效时间。

四、三大缓存问题的核心差异与总结

为帮助大家快速区分和应对三大缓存问题，下表总结了三者的核心差异：

维度	缓存击穿	缓存穿透	缓存雪崩
数据存在性	数据存在（缓存失效）	数据不存在	数据存在（批量失效）
影响范围	单个热点 key	所有无效 key	批量 key / 整个缓存服务
触发原因	热点 key 过期 / 缓存丢失	无效请求 / 恶意攻击	批量 key 过期 / 缓存故障
核心解决方案	互斥锁、热点 key 永不过期	布隆过滤器、缓存空值	分散过期时间、缓存高可用

总结

缓存击穿、穿透与雪崩虽表现形式不同，但本质都是 “缓存无法有效承接请求，导致数据库压力过载”。在实际系统设计中，需结合业务场景选择合适的解决方案：

应对热点数据：优先使用 “互斥锁 + 随机过期时间”，兼顾性能与一致性；

应对无效请求：必须部署 “布隆过滤器 + 参数校验”，从源头拦截穿透；

保障缓存稳定：核心是 “高可用集群 + 分散过期时间 + 熔断限流”，避免批量失效和服务故障。

此外，缓存问题的排查与优化是一个持续过程，需通过监控系统（如 Prometheus+Grafana）实时跟踪缓存命中率、数据库压力、请求延迟等指标，及时发现潜在风险，不断调整方案，才能确保高并发系统的稳定运行。

菜单

分享

深入解析缓存三大难题：击穿、穿透与雪崩

一、缓存击穿：热点 key 的 “单点故障”

1. 定义与发生场景

2. 核心危害

3. 解决方案

（1）互斥锁（分布式锁）

（2）热点 key 永不过期

（3）“热点 key + 随机过期时间”

二、缓存穿透：“不存在的数据” 的恶意攻击

1. 定义与发生场景

2. 核心危害

3. 解决方案

（1）缓存空值（Null Value）

（2）布隆过滤器（Bloom Filter）

（3）请求参数校验与限流

三、缓存雪崩：“批量 key 失效” 的连锁灾难

1. 定义与发生场景

2. 核心危害

3. 解决方案

（1）分散 key 的过期时间

（2）缓存服务高可用架构

（3）熔断降级与限流

（4）缓存预热与持久化

四、三大缓存问题的核心差异与总结

总结

这是一篇测试文章

pgbouncer 下对于pgsql会话依赖的-currval()函数

Redis 之 String 底层实现：从设计哲学到性能密码

redis使用String和Hash时候应该注意什么？

Redis之Hash的底层实现

pgbouncer连接复用破坏session场景拓展

对于io分为哪几个类型

Redis ZSet 底层实现原理深度解析

Redis Set 底层实现原理深度解析

dict 在 Redis ZSet 中的核心作用解析