万亿级消息队列Kafka在滴滴的实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:张亮
2020
中 国 数 据 智 能 管 理 峰 会
2. 目录
2020
01 建设背景
02 架构实践
03 总结规划
中 国 数 据 智 能 管 理 峰 会
3. 建设背景
1
2020
中 国 数 据 智 能 管 理 峰 会
4. 应用现状
2020
中 国 数 据 智 能 管 理 峰 会
5. 建设背景
• 日常运维操作对业务不透明,
分钟级的生产、消费抖动不
能忍
• Topic生产、消费安全无管
控、集群迁移对业务不透明
2020
引擎挑战
服务痛点
业务诉求
• Kafka运维友好性性与可观
察性不足 • 磁盘IO热点导致的集群生
产消费雪崩
• 社区Kafka-Manager能力
缺失,用户答疑,日常运维
消耗大量精力 • Topic资源隔离差,流量
突增、回溯消费,影响集
群稳定性
中 国 数 据 智 能 管 理 峰 会
6. 架构实践
2
2020
中 国 数 据 智 能 管 理 峰 会
7. 架构实践
技术创新
平台建设
高可用建设
•
• 部署资源隔离 • 引擎可观察性
• Kafka-GateWay • Kafka-Manager
• 引擎迭代
2020
磁盘过载保护
中 国 数 据 智 能 管 理 峰 会
8. 高可用建设-部署资源隔离
2020
中 国 数 据 智 能 管 理 峰 会
9. 高可用建设-业务线程池隔离
痛点 • Request 队列未隔离,数千客户端IOPS请求风暴导致,Controller LeaderAndISR等控制请求得不到及时响应 ;Consumer Join
Group等请求得不到及时处理,影响业务稳定性
改进 • 队列分离:生产、消费、元信息变更业务队列隔离
2020
中 国 数 据 智 能 管 理 峰 会
10. 高可用建设-KafkaGateWay
痛点 •
•
• 1W+topic数据裸奔状态,用户随意生产消费任意Topic,存在巨大的安全与稳定性风险
突发/突增的流入流出流量影响整个集群的稳定性,亟需完善的quota能力
机房搬迁时需要用户配合,缺服务发现能力,对用户不透明
改进 •
•
• 基于APPID+Topic 提供生产、消费限流能力
Kafka-GateWay元数据网关提供服务发现能力
基于APPID+Topic 提供读、写权限控制能力
2020
中 国 数 据 智 能 管 理 峰 会
11. 高可用建设-引擎改进
痛点 1 • Topic Broker过多,集群partition均衡消耗近一小时,影响集群稳定性
改进 1 • LeaderAndISR 改成批量发送,提升均衡效率;关闭自动均衡,支持按Broker均衡
痛点 2 • 单broker多磁盘间负载均衡,容易产生磁盘热点
改进 2 • 创建分区时磁盘选择策略优化, Broker内多次磁盘分区的动态平滑迁移
2020
中 国 数 据 智 能 管 理 峰 会
12. 平台建设-引擎可观察性
痛点 1 • 增加基于Topic生产消费各环节耗时统计,支持动态开启,用户自助排查问题
改进 1 • 增加基于Topic生产消费各环节耗时统计,支持动态开启,用户自助排查问题
痛点 2 • Broker系统运行指标繁多,如何直观判断集群当前运行状态,降低运维保障的门槛?
改进 2 • 增加系统指标 io.util、cpu.load.1、cpu.idle、rMB/s、wMB/s,接合运行关键指标判定Broker健康度
2020
中 国 数 据 智 能 管 理 峰 会
13. 平台建设-引擎可观察性
痛点 3 • Topic经由哪些用户,在哪些主机上,采用哪个协议版本生产、消费?
改进 3 • 丰富主机链接、版本协议、生产、消费类型Metric
痛点 4 • Controller集群中变更的历史,以及是否可以指定机器成为Controller,集群变大后,问题定位效率低下
改进 4 • 能指定Controller的Broker列表,记录Controller变更历史
2020
中 国 数 据 智 能 管 理 峰 会
14. 平台建设-Kafka-Manager
痛点 1 • Topic的资源申请、扩缩容、监控与告警,问题诊断,用户无法自主完成,引擎人肉服务效率低下
改进 1 • Topic资源管理、监控与告警、常见问题诊断用户自助完成
2020
中 国 数 据 智 能 管 理 峰 会
15. 平台建设-Kafka-Manager
痛点 1 • 集群变更、版本、配置管理,人肉效率低下,变更耗时且故障率高;日常高频运维操作Topic迁移可观察性,平滑性不
足
改进 1 • 集群安装、变更、扩容自助化;日常运维自助化
开源地址: https://github.com/didi/kafka-manager
2020
中 国 数 据 智 能 管 理 峰 会
16. 技术创新-磁盘过载保护
痛点 1 副本同步读老数据、消费者消费老数据、Partition流量不均导致读写热点,引起磁盘ioutil 100%,导致集群雪崩
改进 1 引擎侧通过流量标记,系统正常运行时,优先保证副本同步;系统重启,运维操作时,优先保证用户消费,日常变更更平滑
2020
中 国 数 据 智 能 管 理 峰 会
17. 总结与规划
3
2020
中 国 数 据 智 能 管 理 峰 会
18. 滴滴Kafka服务架构
2020
中 国 数 据 智 能 管 理 峰 会
19. 发展规划
引擎迭代
平台开源
• Kafka-Manager开源与社区运营目标
300+企业使用
• MirrorMaker/Kafka-Connector 能力
集成
• 运维保障经验沉淀,Kafka 专家服务打磨
2020
• Topic ACK=-1 场景90分位性能提升
• Topic弹性资源调度方案落地
中 国 数 据 智 能 管 理 峰 会
20. 2020
中 国 数 据 智 能 管 理 峰 会
21. 2020
中 国 数 据 智 能 管 理 峰 会