百度爱番番数据分析体系的架构与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 数据分析体系的架构
与实践
刘旺
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
2. 目录 CONTENT
01 介绍业务形态
02 面临的问题与挑战
关于产品和数据的特点介绍
从技术/业务/组织展开讨论
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
03
04
架构的实践与思考
通过技术手段解决实际问题
总结与展望
回顾以往经验积累展望未来
3. 01
介绍业务形态
请关于产品和数据的特点介绍
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
4. 业务形态-关于产品
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
5. 业务形态-关于数据
数据是以多租户隔离为前提,
复杂的租户账号体系和版本管
理且打通了生态推广账号与商
用CRM账号的绑定关系
租户
数据摄入Schema异构且形式多
样,包括:离线文件、流式、
OpenAPI、Binlog、领域事
件、WebHook、文本导入
渠道
异构
销售域、流量域、营销域、中
间号及帐户域、协议域、渠道
域、运营支撑域等等,还有丰
富的数据内容主题
体量
对接内部生态的各类推广平
台,外部公域的广告投放平台 高达百亿记录数的推广单元及
计划单表,每日千万级的线索
和租户私域自建系统的数据自
动化接入,同时提供线索自拓
导入的业务功能 增量数据,存储并提供查询
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
丰富
6. 02
面临的问题与挑战
请从技术/业务/组织展开讨论
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
7. 面临的问题与挑战
宗旨:为客户提供真正有价值的数据分析洞察服务!
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
8. 整理建设思路
何从决策?
助决策
实现数据内外部共享,并能够将数据作为组织的宝贵
资产应用于业务,管理,战略决策中,发挥数据资产价值
哪些场景?
业务场景
营销效果分析,用户行为分析,用户身份属性,内外部运
营决策类的指标和报表场景,即席查询与下载,通用服
务化,OpenAPI等
怎么治理?
质量与治理
平台稳定性,元数据管理,基础信息和血缘关系管理、
作业状态及调度管理,数据源管理,异常处理机制等
什么方案?
确立解决方案
基础技术平台搭建
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
支持多种形式的数据摄入,Batch(小时、天)和实
时数据相辅相承,解决不同的数据业务的需求
如何搭建?
不重复造轮子,遵循经典大数据架构原理的基础上做
技术平台的搭建,基于“公有云”与公司内部的“私
有云”、“混合云”的组件
9. 03
架构的实践与思考
请通过技术手段解决实际问题
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
10. 架构的实践与思考-V1
优点:
l 简单快速落地
l 解决分库分表
l 流式摄入
l 实时经验
l 支撑基本的需求
缺点:
l 稳定性弱
l 补偿机制不完善
l 难运维和监控
l 无法保证SLA
l 缺少Batch数据的管理
l 客诉多
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
11. 业务诉求及解决方案
追求时效性 BI场景需求
Ø 集群故障 Ø 需求量大
Ø 数据加工延迟
Ø 共性内容梳理
合作共建
Ø 人力资源有限
Ø 平台资源共用
Ø 明确业务价值
Ø 计算链路
Ø 明确周期需求
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
Ø 分工协作,共同维护
12. 采取措施
时效性
✦ 计算资源隔离不抢占
✦ 异地容灾及数据补偿机制
产品化
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
✦ 利用组件特性合理的ETL
自动化
13. 数据分析案例
员工跟进
函数运用
INTERSECT_COUNT:
bitmap_count + bitmap_intersect + bitmap_union + where
BI分析工具
物化视图 + 加速多维筛选
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
销售漏斗
14. 架构的实践与演进-V2
特点如下:
l
l
l
l
l
l
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
平台化
流程化
规范化
流批摄入 + Doris实时
易于扩展
适合发展现状
15. 离线加工过程
建
模
方
法
模
型
落
地
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
分层规划
16. 数据治理思路
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
17. 数据资产治理
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
18. 数据质量治理
架构升级之后,运维保
障工作提上了日程:
✦ 诸如每日增量的数
据差异监控、异常数据
导致作业链路阻塞、集
群稳定性监控、网络或
相关组件抖动导致的数
据缺失,如何补偿恢复
等方面急需完善。
✦ 通过运维脚本或工
具的开发,目前长效监
控或例行检查的范围如
左图所示。
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
19. 面临架构扩展
Kudu
Impala
智能营销
效果分析
CDP中的用户行为事件与用户身份属性等信息是存在
Kudu中,Impala作为查询引擎,需解决分析场景性能
这期间也参考过其他主流的一些针对分析型架构的
调研方案
Doris
MPP数据产品
结合之前的使用经验和类比之后,3FE+15BE,逻辑迁
移后压测1000QPS+且满足2秒出结果的要求
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
20. 实时方案类比评估
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
21. 实时能力提升
Flink to Palo Stream Load
Kafka to Palo Rou-ne Load
Doris 运行结构图
FE: 3 * (16核+32GB+SSD)
BE: 15 * (16核+64GB+高性能盘)
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
22. 营销场景案例
裂变涨粉
参与裂变活动,统计参与人的推荐人
和助力人数,以及裂变排行榜
全员推广视作更全面的裂变活动,涵
全员推广
盖视频资料、直播,浏览H5、下载等
各种形式推广的溯源、排名、积分的
统计分析
私域潜客的身份分析、溯源分析需要
潜客分布
对User和身份来源表根据不同的分布
逻辑进行条件Join
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
23. 总体方案全景图
✦ 基础设施层、数据平
台层、中间处理层、公共
服务层、数据产品化以及
运行维护等模块是构建大
数据分析体系必不可少的
根基。
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
24. 总体成效收益
业务方面
结合业务过程确定一致性维度得到总线矩阵,从业务模型到物理
模型落地,丰富数据内容,用户业务预警、引导业务价值增长
技术方面
收益
时效性、准确性、分库分表技术支持不到位,数据到处散落不统
一复用、业务线取数需求积压,统计逻辑不一致等情况得以解决
组织方面
平台化、规范化、流程化且提供可视化的工具之后,注重对关键
环节的审批把关,带动产研商的敏捷团队一起分工协作共同建设
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
25. 04
总结与展望
请回顾以往经验积累展望未来
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
26. 本讲要点回顾
开场介绍
1
产品形态,数据形
态,租户账号体系
和版本的复杂,数
据来源渠道的多样
化,异构以及体量
大,数据内容丰富
等特点
痛点呈现
措施实践
2
从业务方面、技术
方面、组织协作方
面的存在亟需解决
的问题以及对齐目
标产出并整理解决
思路
3
针对目标从技术体
系搭建展开描述,
技术驱动和业务驱
动齐头并进的演进
过程,展示技术体
系全景图及总体成
效
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
穿插案例
收益总结
4 5
契合极速OLAP的
主题并穿插业务场
景的实际案例,主
要包括在公域线索
管家和私域智能营
销等实时分析场景
的实践 从三方面阐述价值
产出,以及达到目
标的各个明确事
项,呼应了面临痛
点挑战的成果
27. 总结与展望
方案融合CDP
思想与能力进化
引入中台化的思想和服务能力,落地
执行数据标准,量化数据健康分,提
高复用能力等智能评分体系,达到降
本增效的终极目标
1
5
让数据分析洞察体系与CDP(客户数据平台)
的架构融为一体,让用户行为事件和业务数据
结合以及全域用户统一身份ID-Mapping、实
时圈群标签等技术进一步配合,达到精细化运
营,发挥更大的业务产品价值
湖仓一体
2
未来
湖仓一体的技术是未来的趋势,接下
来会调研一下离线和实时数仓对接内
部私有云或公有云的数据湖解决方案
技术链路优化
进一步简化数据加工链路,提升数据
加工效率,提升数据产品的时效性
4
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
3
简化实时开发方式
设计研发平台化的基于Flink和Doris
的实时数据处理方案,让研发工作更
加便捷,提高人效
28. 非常感谢您的观看
⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利