贝壳实时计算平台建设实践
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 贝壳实时计算平台建设实践
• 发展历程
• Hermes实时计算平台介绍
• 实时数仓建设
• Pandora事件处理平台建设
• 未来规划
3. 发展历程
Hermes实时计算平台
基于Spark Streaming
2018.3
SQL 1.0
转向Flink
基于Spark Structured Streaming
支持Flink 任务
2018.10
2019.5
SQL 2.0 实时数仓
Pandora事件处理平台
基于Flink 1.8 基于 SQL 2.0 Rule & CEP
2019.8 2019.11 2020.12
Flink 3.0及SQL版本统一
Flink 1.11
2021
4. Hermes实时计算平台介绍-平台概览
生命周期管理
监控报警
任务托管
Java 自定义任务
Scala 模板任务
Python 场景任务
多语言支持 多任务类型支持
专有队列
公共队列
资源隔离
5. Hermes实时计算平台介绍- 平台架构
应用场景
ETL
监控
推荐
BI
引擎层
计算&存储层
模板任务
自定义任务
场景任务
开发管理层
。。。
风控
模板管理 实例管理 连接管理 资源管理
任务管理 数据源管理 项目管理 监控报警
StreamSQL
消息
队列
StreamCEP
DataStream
Flink/Spark Streaming
YARN
HDFS
RMDB
HBase
Hive
Redis
ClickHouse
6. Hermes实时计算平台介绍- 任务生命周期
启动任务
手动重启
运行失败
是
否
手动重启
新建实例
异步定时任务
是否达到
重试次数
启动中(实例)
系统自动重试
运行失败(实例)
任务异常
启动异常
启动失败
集群状态同步任务
运行中
手动停止
已停止
7. Hermes实时计算平台介绍-监控报警
自定义Listener
引入sdk依赖
代码显示添加
Hermes任务id
数据血缘
Checkpoint恢复
元信息
配置信息
kafka
Hermes
落地
metric信息
自定义Report
自动加载
延时报警
java agent
启动时注入
心跳报警
可视化
8. Hermes实时计算平台介绍-监控报警
9. 实时数仓建设 – 能力
元数据管理 数据分层 SQL 数据血缘 多源支持
连接管理
表管理 ODS
DWD
DWS
OLAP 标准SQL语法
维表关联
图形化开发环境
丰富的内置函数
UDF支持 图形化展示
链路分析
实时数据流显示 Kafka
Hbase
Redis
Doris
ClickHouse
MySQL
10. 实时数仓建设 – 架构
Hive
User
Log
Server
Log
STG
ODS
RPT
DW
DIM
日志采集
实时分析
定时更新
kafka
实时同步
ClickHouse/
Doris
Hbase/Redis
实时明细
MySQL
EPX
维度关联
DWD
ODS
KAFKA
DWS
11. 实时数仓建设 – SQL IDE
12. 实时数仓建设 – SQL任务调试
SQL引擎
数据样例
离线样例数据 线上样例数据
Source Dim
生成DebugSQL
数据源元信息
SQL Debug Driver
Sink结果UI展示
Sink结果输出
13. 实时数仓建设 – SQL任务调试
14. 实时数仓建设 – 数据血缘
• 溯源分析
• 问题排查
• 差异分析
• 提升用户体验
• 变动/异常预警
15. 实时数仓建设 – DDL
表类型 支持的底层数据存储类型
Source Kafka
Dim HBase
Sink Redis HBase HTTP ClickHouse
Kafka Doris MySQL
Redis
MySQL
16. 实时数仓建设 – OneSQL(建设中)
当前面临的问题:
1.
2.
3.
任务稳定性:减少断流时长
•
任务运行失败后的的迅速恢复,
任务的状态管理及状态恢复
•
任务运行出错时的问题排查、
迅速定位
计算性能提升:高吞吐情况下保持
较低的延迟
•
引擎执行优化
•
任务资源合理调配
SQL能力提升,满足日益增多的业务
场景
•
聚合能力,支持下游写入数据
的更新
•
关联能力的提升,解决相关表
数据的乱序问题
17. 实时数仓建设 – 交易大屏
18. Pandora事件处理平台建设 – 需求背景
事件驱动、通用能力平台
1. 用户行为事件缺乏统一抽象和管理;开发
效率低、周期长,存在重复建设问题 事件管理
2. 规则处理逻辑与业务系统耦合,难以灵活
应对规则变化 规则引擎
3. 缺乏触发下游动作的统一灵活的管理和配
置,以及监控报警 动作触发
19. Pandora事件处理平台建设 – 应用场景
监控报警
自动化运营
实时推荐
风控
普通规则 业务行为
对接 行为模式
定义 规则设置
CEP 活动编排 用户特征
关联 报警设置
同环比 效果分析 实时A/B
测试 实时大盘
Pandora
事件管理
规则引擎
业务数据库
动作触发
用户特征库
20. Pandora事件处理平台建设 – 架构
管理模块
DB
事件流管理 事件管理
任务配置 任务管理
第三方系统
第三方系统
适配层
服务端
引擎
MQ
Filter
Window
Hermes
Action Trigger
Cep
Sink
报警
服务调用
21. 实时计算架构
Athena
Hermes实时计算平台
User access logs
API logs IDE
DB transactions Flink SQL
IOT logs
任务管理
监控报警
Flink CEP
资源管理
Spark Streaming
Hadoop 集群
22. 未来规划
动态资源分配
流批一体
高可用
状态管理
23.