万亿级消息队列Kafka在滴滴的实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:张亮 2020 中 国 数 据 智 能 管 理 峰 会
2. 目录 2020 01 建设背景 02 架构实践 03 总结规划 中 国 数 据 智 能 管 理 峰 会
3. 建设背景 1 2020 中 国 数 据 智 能 管 理 峰 会
4. 应用现状 2020 中 国 数 据 智 能 管 理 峰 会
5. 建设背景 • 日常运维操作对业务不透明, 分钟级的生产、消费抖动不 能忍 • Topic生产、消费安全无管 控、集群迁移对业务不透明 2020 引擎挑战 服务痛点 业务诉求 • Kafka运维友好性性与可观 察性不足 • 磁盘IO热点导致的集群生 产消费雪崩 • 社区Kafka-Manager能力 缺失,用户答疑,日常运维 消耗大量精力 • Topic资源隔离差,流量 突增、回溯消费,影响集 群稳定性 中 国 数 据 智 能 管 理 峰 会
6. 架构实践 2 2020 中 国 数 据 智 能 管 理 峰 会
7. 架构实践 技术创新 平台建设 高可用建设 • • 部署资源隔离 • 引擎可观察性 • Kafka-GateWay • Kafka-Manager • 引擎迭代 2020 磁盘过载保护 中 国 数 据 智 能 管 理 峰 会
8. 高可用建设-部署资源隔离 2020 中 国 数 据 智 能 管 理 峰 会
9. 高可用建设-业务线程池隔离 痛点 • Request 队列未隔离,数千客户端IOPS请求风暴导致,Controller LeaderAndISR等控制请求得不到及时响应 ;Consumer Join Group等请求得不到及时处理,影响业务稳定性 改进 • 队列分离:生产、消费、元信息变更业务队列隔离 2020 中 国 数 据 智 能 管 理 峰 会
10. 高可用建设-KafkaGateWay 痛点 • • • 1W+topic数据裸奔状态,用户随意生产消费任意Topic,存在巨大的安全与稳定性风险 突发/突增的流入流出流量影响整个集群的稳定性,亟需完善的quota能力 机房搬迁时需要用户配合,缺服务发现能力,对用户不透明 改进 • • • 基于APPID+Topic 提供生产、消费限流能力 Kafka-GateWay元数据网关提供服务发现能力 基于APPID+Topic 提供读、写权限控制能力 2020 中 国 数 据 智 能 管 理 峰 会
11. 高可用建设-引擎改进 痛点 1 • Topic Broker过多,集群partition均衡消耗近一小时,影响集群稳定性 改进 1 • LeaderAndISR 改成批量发送,提升均衡效率;关闭自动均衡,支持按Broker均衡 痛点 2 • 单broker多磁盘间负载均衡,容易产生磁盘热点 改进 2 • 创建分区时磁盘选择策略优化, Broker内多次磁盘分区的动态平滑迁移 2020 中 国 数 据 智 能 管 理 峰 会
12. 平台建设-引擎可观察性 痛点 1 • 增加基于Topic生产消费各环节耗时统计,支持动态开启,用户自助排查问题 改进 1 • 增加基于Topic生产消费各环节耗时统计,支持动态开启,用户自助排查问题 痛点 2 • Broker系统运行指标繁多,如何直观判断集群当前运行状态,降低运维保障的门槛? 改进 2 • 增加系统指标 io.util、cpu.load.1、cpu.idle、rMB/s、wMB/s,接合运行关键指标判定Broker健康度 2020 中 国 数 据 智 能 管 理 峰 会
13. 平台建设-引擎可观察性 痛点 3 • Topic经由哪些用户,在哪些主机上,采用哪个协议版本生产、消费? 改进 3 • 丰富主机链接、版本协议、生产、消费类型Metric 痛点 4 • Controller集群中变更的历史,以及是否可以指定机器成为Controller,集群变大后,问题定位效率低下 改进 4 • 能指定Controller的Broker列表,记录Controller变更历史 2020 中 国 数 据 智 能 管 理 峰 会
14. 平台建设-Kafka-Manager 痛点 1 • Topic的资源申请、扩缩容、监控与告警,问题诊断,用户无法自主完成,引擎人肉服务效率低下 改进 1 • Topic资源管理、监控与告警、常见问题诊断用户自助完成 2020 中 国 数 据 智 能 管 理 峰 会
15. 平台建设-Kafka-Manager 痛点 1 • 集群变更、版本、配置管理,人肉效率低下,变更耗时且故障率高;日常高频运维操作Topic迁移可观察性,平滑性不 足 改进 1 • 集群安装、变更、扩容自助化;日常运维自助化 开源地址: https://github.com/didi/kafka-manager 2020 中 国 数 据 智 能 管 理 峰 会
16. 技术创新-磁盘过载保护 痛点 1 副本同步读老数据、消费者消费老数据、Partition流量不均导致读写热点,引起磁盘ioutil 100%,导致集群雪崩 改进 1 引擎侧通过流量标记,系统正常运行时,优先保证副本同步;系统重启,运维操作时,优先保证用户消费,日常变更更平滑 2020 中 国 数 据 智 能 管 理 峰 会
17. 总结与规划 3 2020 中 国 数 据 智 能 管 理 峰 会
18. 滴滴Kafka服务架构 2020 中 国 数 据 智 能 管 理 峰 会
19. 发展规划 引擎迭代 平台开源 • Kafka-Manager开源与社区运营目标 300+企业使用 • MirrorMaker/Kafka-Connector 能力 集成 • 运维保障经验沉淀,Kafka 专家服务打磨 2020 • Topic ACK=-1 场景90分位性能提升 • Topic弹性资源调度方案落地 中 国 数 据 智 能 管 理 峰 会
20. 2020 中 国 数 据 智 能 管 理 峰 会
21. 2020 中 国 数 据 智 能 管 理 峰 会

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-13 19:41
浙ICP备14020137号-1 $Map of visitor$