百度爱番番数据分析体系的架构与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 数据分析体系的架构 与实践 刘旺 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
2. 目录 CONTENT 01 介绍业务形态 02 面临的问题与挑战 关于产品和数据的特点介绍 从技术/业务/组织展开讨论 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 03 04 架构的实践与思考 通过技术手段解决实际问题 总结与展望 回顾以往经验积累展望未来
3. 01 介绍业务形态 请关于产品和数据的特点介绍 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
4. 业务形态-关于产品 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
5. 业务形态-关于数据 数据是以多租户隔离为前提, 复杂的租户账号体系和版本管 理且打通了生态推广账号与商 用CRM账号的绑定关系 租户 数据摄入Schema异构且形式多 样,包括:离线文件、流式、 OpenAPI、Binlog、领域事 件、WebHook、文本导入 渠道 异构 销售域、流量域、营销域、中 间号及帐户域、协议域、渠道 域、运营支撑域等等,还有丰 富的数据内容主题 体量 对接内部生态的各类推广平 台,外部公域的广告投放平台 高达百亿记录数的推广单元及 计划单表,每日千万级的线索 和租户私域自建系统的数据自 动化接入,同时提供线索自拓 导入的业务功能 增量数据,存储并提供查询 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 丰富
6. 02 面临的问题与挑战 请从技术/业务/组织展开讨论 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
7. 面临的问题与挑战 宗旨:为客户提供真正有价值的数据分析洞察服务! ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
8. 整理建设思路 何从决策? 助决策 实现数据内外部共享,并能够将数据作为组织的宝贵 资产应用于业务,管理,战略决策中,发挥数据资产价值 哪些场景? 业务场景 营销效果分析,用户行为分析,用户身份属性,内外部运 营决策类的指标和报表场景,即席查询与下载,通用服 务化,OpenAPI等 怎么治理? 质量与治理 平台稳定性,元数据管理,基础信息和血缘关系管理、 作业状态及调度管理,数据源管理,异常处理机制等 什么方案? 确立解决方案 基础技术平台搭建 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 支持多种形式的数据摄入,Batch(小时、天)和实 时数据相辅相承,解决不同的数据业务的需求 如何搭建? 不重复造轮子,遵循经典大数据架构原理的基础上做 技术平台的搭建,基于“公有云”与公司内部的“私 有云”、“混合云”的组件
9. 03 架构的实践与思考 请通过技术手段解决实际问题 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
10. 架构的实践与思考-V1 优点: l 简单快速落地 l 解决分库分表 l 流式摄入 l 实时经验 l 支撑基本的需求 缺点: l 稳定性弱 l 补偿机制不完善 l 难运维和监控 l 无法保证SLA l 缺少Batch数据的管理 l 客诉多 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
11. 业务诉求及解决方案 追求时效性 BI场景需求 Ø 集群故障 Ø 需求量大 Ø 数据加工延迟 Ø 共性内容梳理 合作共建 Ø 人力资源有限 Ø 平台资源共用 Ø 明确业务价值 Ø 计算链路 Ø 明确周期需求 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 Ø 分工协作,共同维护
12. 采取措施 时效性 ✦ 计算资源隔离不抢占 ✦ 异地容灾及数据补偿机制 产品化 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 ✦ 利用组件特性合理的ETL 自动化
13. 数据分析案例 员工跟进 函数运用 INTERSECT_COUNT: bitmap_count + bitmap_intersect + bitmap_union + where BI分析工具 物化视图 + 加速多维筛选 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 销售漏斗
14. 架构的实践与演进-V2 特点如下: l l l l l l ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 平台化 流程化 规范化 流批摄入 + Doris实时 易于扩展 适合发展现状
15. 离线加工过程 建 模 方 法 模 型 落 地 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 分层规划
16. 数据治理思路 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
17. 数据资产治理 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
18. 数据质量治理 架构升级之后,运维保 障工作提上了日程: ✦ 诸如每日增量的数 据差异监控、异常数据 导致作业链路阻塞、集 群稳定性监控、网络或 相关组件抖动导致的数 据缺失,如何补偿恢复 等方面急需完善。 ✦ 通过运维脚本或工 具的开发,目前长效监 控或例行检查的范围如 左图所示。 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
19. 面临架构扩展 Kudu Impala 智能营销 效果分析 CDP中的用户行为事件与用户身份属性等信息是存在 Kudu中,Impala作为查询引擎,需解决分析场景性能 这期间也参考过其他主流的一些针对分析型架构的 调研方案 Doris MPP数据产品 结合之前的使用经验和类比之后,3FE+15BE,逻辑迁 移后压测1000QPS+且满足2秒出结果的要求 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
20. 实时方案类比评估 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
21. 实时能力提升 Flink to Palo Stream Load Kafka to Palo Rou-ne Load Doris 运行结构图 FE: 3 * (16核+32GB+SSD) BE: 15 * (16核+64GB+高性能盘) ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
22. 营销场景案例 裂变涨粉 参与裂变活动,统计参与人的推荐人 和助力人数,以及裂变排行榜 全员推广视作更全面的裂变活动,涵 全员推广 盖视频资料、直播,浏览H5、下载等 各种形式推广的溯源、排名、积分的 统计分析 私域潜客的身份分析、溯源分析需要 潜客分布 对User和身份来源表根据不同的分布 逻辑进行条件Join ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
23. 总体方案全景图 ✦ 基础设施层、数据平 台层、中间处理层、公共 服务层、数据产品化以及 运行维护等模块是构建大 数据分析体系必不可少的 根基。 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
24. 总体成效收益 业务方面 结合业务过程确定一致性维度得到总线矩阵,从业务模型到物理 模型落地,丰富数据内容,用户业务预警、引导业务价值增长 技术方面 收益 时效性、准确性、分库分表技术支持不到位,数据到处散落不统 一复用、业务线取数需求积压,统计逻辑不一致等情况得以解决 组织方面 平台化、规范化、流程化且提供可视化的工具之后,注重对关键 环节的审批把关,带动产研商的敏捷团队一起分工协作共同建设 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
25. 04 总结与展望 请回顾以往经验积累展望未来 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利
26. 本讲要点回顾 开场介绍 1 产品形态,数据形 态,租户账号体系 和版本的复杂,数 据来源渠道的多样 化,异构以及体量 大,数据内容丰富 等特点 痛点呈现 措施实践 2 从业务方面、技术 方面、组织协作方 面的存在亟需解决 的问题以及对齐目 标产出并整理解决 思路 3 针对目标从技术体 系搭建展开描述, 技术驱动和业务驱 动齐头并进的演进 过程,展示技术体 系全景图及总体成 效 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 穿插案例 收益总结 4 5 契合极速OLAP的 主题并穿插业务场 景的实际案例,主 要包括在公域线索 管家和私域智能营 销等实时分析场景 的实践 从三方面阐述价值 产出,以及达到目 标的各个明确事 项,呼应了面临痛 点挑战的成果
27. 总结与展望 方案融合CDP 思想与能力进化 引入中台化的思想和服务能力,落地 执行数据标准,量化数据健康分,提 高复用能力等智能评分体系,达到降 本增效的终极目标 1 5 让数据分析洞察体系与CDP(客户数据平台) 的架构融为一体,让用户行为事件和业务数据 结合以及全域用户统一身份ID-Mapping、实 时圈群标签等技术进一步配合,达到精细化运 营,发挥更大的业务产品价值 湖仓一体 2 未来 湖仓一体的技术是未来的趋势,接下 来会调研一下离线和实时数仓对接内 部私有云或公有云的数据湖解决方案 技术链路优化 进一步简化数据加工链路,提升数据 加工效率,提升数据产品的时效性 4 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利 3 简化实时开发方式 设计研发平台化的基于Flink和Doris 的实时数据处理方案,让研发工作更 加便捷,提高人效
28. 非常感谢您的观看 ⚠ 本文件仅供学习,严禁商业目的使用,作者保留追责的权利

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 07:49
浙ICP备14020137号-1 $Map of visitor$