资讯业务数据流编排实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 深擎科技
资讯业务数据流编排实践
秦旸
深擎科技 数据架构师
DataFunSummit # 2023
2. Content
01 02 03
深擎资讯服务体系简介 基于Dolphinscheduler
数据流编排方案 复杂业务场景实践
3. 01
深擎资讯服务体系简介
DataFunSummit # 2023
4. 1
资讯接入
2
数据清洗
3
数据增强
调用模型接口进行打标等信息增强
进行字段映射和清洗
实时接入各类资讯
4
人机审核
进行信息审核
业务数据流
采买接入版权资讯,清洗审核后下发给客户
5
数据下发
下发给客户
5. 原有架构
•
•
•
6. 数据中台 - 尚书房
7. 数据中台 - 尚书房
01 02 03
数据集成 数据处理 数据网关
编排/调度
FlinkCDC
Iceberg
Data
Process
Platform
元数据管理
Java
8. 数据中台 - 尚书房
数据网关
任务编排调度
元数据管理/数据集成
9. 02
基于DS的业务编排方案
DataFunSummit # 2023
10. 业务挑战?
•
•
•
11. 数据处理平台(DPP)- 算子开发
AsyncHttpTransform算子
打标算子
12. 数据处理平台(DPP)- 算子开发
13. 数据处理平台(DPP)- 算子开发
14. 数据处理平台(DPP)- 算子编排 DAG
•
•
•
15. 数据处理平台(DPP)- 运行时
•
TECH . DEEPQ . DATA . PROCESS . DRIVER .F LINK D RIVER
HDFS :/// DOLPHINSCHEDULER / HADOOP / RESOURCES / CONF /0_3558_ DPP _ CONFIG . JSON
16. 如何可视化?如何调度?
17. DS 印象
•
•
•
18. 速写本并列关系图表
DS 3.1.2 待完善
01
Yarn任务提交之后没有追踪远端任务状态
无法方便地查看Yarn平台日志
02
savepoint 支持不完善
03
无法支持Flink内部的算子编排
01 Yarn 任务
状态监控不完善
02 Flink 特性
支持不完善
03 Flink 算子编排
不支持
19. DS 增加算子库和依赖包管理
20. DS 可视化编排
21. DS 完善任务提交/监控
22. 03
复杂业务场景举例
DataFunSummit # 2023
23. 场景:板块热点计算
24. 场景:质量分计算
25. 场景:质量分计算
26. 场景:质量分计算
27. 场景:质量分计算
28. 业务数据流 编排收益
50%
40%
01
数据开发
02
客户侧部署
29. 感谢观看
祝愿巴以早日和平