一、原生 Redis Cluster(官方方案)
架构原理
数据分片:16384 个 Slot(槽位)通过 CRC16 分片
高可用:主从切换(基于 Gossip 协议)
扩展性:支持动态增删节点(需 `redis-trib` 重分配 Slot)
优点
1. 去中心化:无单点故障,节点间直接通信
2. 原生支持:无需第三方组件,兼容 Redis 命令(需客户端支持 Cluster 协议)
3. 自动迁移:支持在线数据迁移(`RESHARD`)
4. 高可用性:故障转移时间 < 2 秒(主节点宕机时从节点升级)
缺点
1. 跨 Slot 操作限制:
不支持跨 Key 操作(如 `MGET key1 key2` 需确保在同一 Slot)
Lua 脚本需用 `{tag}` 保证所有 Key 在相同节点
2. 扩容缩容成本高:迁移 Slot 时可能阻塞集群(大 Key 迁移风险)
3. 运维复杂度:需管理多节点配置,客户端需实现重定向逻辑(MOVED/ASK)
4. 内存限制:单节点容量受物理内存限制(无透明分页)
二、代理分片方案(Proxy-Based)
代表产品
Codis(豌豆荚开源)
Twemproxy(Twitter 开源)
Redis Enterprise(商业版)
架构原理
客户端连接代理,代理转发请求到后端 Redis 实例
分片逻辑由代理实现(如 Codis 使用 ZooKeeper 管理 Slot)
优点
1. 透明分片:
客户端无需修改,兼容所有 Redis 命令
支持跨 Key 操作(代理合并多节点结果)
2. 运维友好:
动态扩缩容(Codis 支持在线迁移)
可视化 Dashboard(Codis-FE)
3. 多存储支持:Codis 可同时代理 Redis 和 SSD 存储
缺点
1. 性能损耗:
单点代理吞吐量约 10-15W QPS(需多实例部署)
增加 0.5-1ms 网络延迟
2. 代理单点故障:需部署 Keepalived + VIP 或集群化代理(如 Codis-Proxy 集群)
3. 功能限制:
Twemproxy 不支持事务/Lua 脚本
Pub/Sub 需绑定连接至同一节点
三、客户端分片方案(Client-Sharding)
实现方式
Jedis:`ShardedJedis` 类
Lettuce:支持自定义分片逻辑
业务层分片:应用代码按规则路由(如 `userId % 1024`)
优点
1. 零组件依赖:无代理或中心节点
2. 极致性能:直连 Redis 节点,延迟最低
3. 灵活可控:业务可定制分片策略(如热点数据特殊处理)
缺点
1. 强耦合:
分片逻辑需嵌入业务代码,升级困难
客户端需支持所有语言(Java/Python/Go 等)
2. 扩容复杂:
增删节点需手动迁移数据,或停机维护
一致性 Hash 仍可能导致数据倾斜
3. 高可用缺失:需自行实现故障转移(如 Sentinel 集成)
四、方案对比与选型建议
维度 | Redis Cluster | 代理分片(Codis) | 客户端分片 |
部署复杂度 | 中(需 Cluster 管理) | 高(需 Proxy+ZK) | 低(仅客户端) |
跨节点操作 | 不支持 | 支持 | 不支持 |
扩容便利性 | 中(需迁移 Slot) | 在线迁移 | 停机迁移 |
性能 | 20W+ QPS/节点 | 10-15W QPS/代理 | 20W+ QPS/节点 |
高可用 | 自动故障转移 | 需代理 HA | 需额外方案 |
运维工具 | `redis-cli --cluster` | Codis-Dashboard | 无 |
适用场景 | 中型集群(<100节点) | 大型集群(>100节点) | 小型固定规模集群 |
五、生产环境实践建议
1. Redis Cluster 优化:
禁用 `KEYS *`,用 `SCAN` 替代
控制单个 Key 大小 < 10KB(避免迁移阻塞)
使用 Pipeline 减少 MOVED 重定向
2. Codis 调优:
部署多组 Proxy 并配置 LVS 负载均衡
启用 `slave-health-check` 自动隔离故障从节点
3. 客户端分片升级路径:
阶段一:客户端分片 + Sentinel(高可用)
阶段二:逐步迁移至 Redis Cluster(利用 `MIGRATE` 命令)
六、特殊场景方案
1. 超大规模集群(>1PB):
Redis on SSD:阿里云 Tair/腾讯云 Tendis
冷热分离:热数据存 Redis,冷数据存 TiKV
2. 多活容灾:
Redis CRDT:Redis Enterprise 支持多数据中心同步
自研双写:通过 Binlog 同步(延迟约 1-2 秒)
总结:
优先 Redis Cluster:适合 80% 场景,平衡复杂度与功能
选 Codis:需跨节点操作或超大规模集群
慎用客户端分片:仅遗留系统或特殊定制需求使用