58大数据应用平台的实践演进

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 58大数据应用平台的实践演进
2. 自我介绍 于涛 58大数据部 西南交大软件工程硕士 10年互联网产品以及大数据领 域开发架构经验 负责58云窗数据探查平台的建 设与开发 负责58星河大数据应用平台的 建设与开发
3. 目 录 contents 01 大数据应用平台介绍 02 平台资源管控介绍 03 核心能力技术解析 04 总 结 及 未 来 规 划
4. 58大数据应用平台介绍
5. 58大数据应用平台介绍 1.0时代 2.0时代 3.0时代 基本探查 核心调度 全链路闭环 仅支持探查类查询,异构数据源仅 打造自研的核心调用平台,支持更 体系化产品建设,形成一站式数据应用 仅支持hive and mysql ,离线开发 多的生产场景,数据源支持多元化, 平台,增加数据全链路服务管理能力, 更多面对产品需求 自研全新的调度服务、元数据服务 包括数据质量,数据治理等工具链路的 等 打通,承载全公司的业务
6. 58大数据应用平台核心 统一数据规范 统一数据标准、资产标准,通过对数 据规范建设,提升效率,精准赋能 综合数据治理 结合数据探查、数据开发任务, 对表和目录层级进行深度治理, 提供系统级别的批量操作工具 整合全域数据 支持大部分异构数据源,支持 完整的数据采集能力,以及全 链路血缘图谱 保证数据安全 细粒度的行列权限控制,敏感和 加密字段管理,构造数据安全屏 障 丰富的数据交换任务 支持20+种数据任务开发,灵活 的模板配置方式,极大降低数据 抽取的门槛
7. 58大数据平台体系架构 探查 作业
8. 58大数据应用平台介绍 48万 接入数据表数 15PB 日数据处理量 320PB 总数据量
9. 58大数据应用平台介绍 数据探查 01 定位:一站式大数据分析解决方案,高 02 03 开发调度 01 定位:一站式大数据调度解决方案,简 文档类型 : 探查类 02 文档类型 : 抽取、交换、接口调用等 面向用户 : 数据开发、数据分析、产 03 面向用户 : 以数据开发为主 效挖掘数据价值,降低使用门槛 品、运营、市场等人员 单高效的灵活配置各类型定时任务
10. 58大数据应用平台介绍 覆盖平台用户50% 探查 文档 开发 任务 有效开发任务 19 万+ 覆盖平台用户 30%
11. Part 02 平台资源管控介绍
12. 平台资源管控介绍
13. 平台资源管控介绍 Execute and manage User org relation 管理与执行隔离 多组织对应关系 针对跨部门合作与交接的场景, 用户组织一对多关联,即兼容 核心数据资产和开发任务的管 业务逻辑,又保证用户切换的 理关联与执行hadoop隔离 可靠性和便捷性
14. 平台资源管控介绍 用户与组织 开发用户与组织,一对多的关系管理 管理与执行 任务和表,隔离执行组织 与 管理组织,有效 解决跨部门交接、合作等问题 组织账号 组织 – hadoop账号 – 队列 更加明确的管理 资产转移 个人多组织 支持数据资产的组织维度迁移自助 化
15. Part 03 核心能力技术解析
16. 核心能力痛点 规范落实 规范难落地,工具支持欠佳 跨组织账号权限 人员-组织-hadoop账号对应且一对一 元数据信息不一致 01 难点 解析 02 关系,在跨部门合作与交接中尽显不便。 数据搜索屏障 对于表名以外的其他维度信息,字段等 搜索限制较大,且无法第一时间给用户 想要的结果。 04 03 元数据入口较多,且业务逻辑不一致, 复杂逻辑冗余,且私有客户端执行频繁。 05 06 治理无从下手 治理只能线下单一维度的统计和执行, 生态工具较弱,业务方很难直观操作。 血缘准确、时效 血缘更新不及时,下线表和任务的重要 参考依据不能直观反应当前依赖状态
17. 实践 01 元数据 02 数据地图 03 血缘图谱 04 数据治理
18. 元数据-痛点 异构数据源接入不统一 元数据服务与业务耦合比较严重,导致部分业务的逻辑不一致,建表等平台操 作又缺乏一定的规范和审核,导致元数据信息的准确性和完整性都不能严格意 义上的保证。 良好扩展性的元数 据服务是整体数据 应用平台的基石 Oncall 问题剧增 由于元数据信息是整体业务流程较为底层的环节,探查文档和开发任务全部依 赖元数据服务的可靠和信息的一致性,一旦出现问题,将会有较大影响。
19. 元数据与规范 01 数据孤岛 数据服务 快速发展导致的烟囱式建设 数据质量 02 数据不一致 前期缺失规范和定义,后期指标口径计 元数据管理 算不一致 03 数据作业稳定性 多次设计、复用性差 数据规范 降本增效 数据安全
20. 元数据与规范 TITLE 命名规范 数仓建表: 表和字段命名约束、分区命名、 注释命名 TITLE TITLE 分层规范 数仓分层: RAW->ODS->DWD->DWS->APP DIM TMP TITLE 建表规范 存储规范 建表审核、分层依赖约束、 生命周期约束 分层权限约束
21. 服务优势 规范调用方 底层元数据 异构数据源 规范内部调用方的统 聚合多个元数据的统 屏蔽了业务逻辑与底 一调用协议,保证单 一封装,对内对外出 层异构数据源的耦合 一业务单元的逻辑一 口数据一致 致 服务优势 可靠、统一的元数据服务,很好的解决了之前元数据分散、不完整、口径不一致等等 众多问题,且对上层业务屏蔽了异构数据源的执行和查询策略
22. 服务介绍 MySql 数 据 源 支 持 Hive Hbase 采集流程 数据源建立 SqlServer Oracle 数据库导入 Doris ClickHouse 表认领、刷新 Redis 针对类似redis这种非结构化数据源类型,支持数据任务的应用配置 ex : redis2Hive 支持配置key类型和扫描规则 Wtable Wlist(自研)
23. 技术架构
24. 服务实现 01 02 03 根据数据源类型匹配对应的连接器 获取连接器实例,装配底层业务操作,屏蔽不同数 据源的schema信息 更新统一元数据业务服务,目前仅支持主动刷新
25. PART TWO 数据地图 02
26. 数据地图-痛点 找数据难 老版数据字典的搜索更加针对于已知库表名、负责人等确认信息的搜索,在真 实应用中,用户更加偏向于针对表或者字段的口径、注释等模糊信息 支持全维度检索的升级版 数据地图更加高效、清晰 的展示所有库、表、字段 理解数据难 数据表的详情信息不仅仅需要基础元数据的属性信息,更需要表的运维信息、 底层访问信息、样例数据等,全面、便捷的信息提供才能便于用户更加方便的 理解 的元数据信息
27. 效果
28. 技术架构-写入数据流
29. 技术架构-检索数据流
30. PART THREE 血缘图谱 03
31. 血缘图谱-痛点 SQL解析相对准确性 SQL解析本身是相对耗时的操作,且有一定几率会失败,所以在上层的权限判 断以及依赖汇报都需要快速且相对准确的解析服务 血缘关系服务可分析数据 对象的上下游关联对象, 定位影响和依赖调度。 血缘全链路覆盖,时效性 由于数据开发用户的作业分配范围较大,应用层输出渠道较多,全链路的血缘 覆盖并不容易,且不用调度作业对应的时间周期不同,血缘的时效性也是关键。
32. 技术架构 01 覆盖部分开发任务和探查文档运行时上报 02 元数据服务根据业务归属以及幂等标识,过滤天级 03 SQL解析服务:解析库表关系,字段,以及源和目标 04 有效血缘定义:三个定时周期之内的有效时间内, 别以下任务的多次上报 属性 存在血缘关系
33. 技术实现
34. PART FOUR 数据治理 04
35. 数据治理-痛点 治理 320PB 目前,58中台基础数据较大,最重要是随着 业务的发展,日增量较为突出,所以对数据 治理工具的依赖就迫在眉睫 有效的治理工具最重要的两个方面: 1:制定规范和标准 2:元数据驱动、治理工具协作 总接入数据表数 15PB 48万 日数据处理量 15PB 320PB 总数据量
36. 数据治理介绍 元数据数仓 治理规则方案 搭建全指标维度的元数据数 支持业务方自定义拼装治理 仓,融合底层和平台层治理 规则,合理筛选目标实体 相关原始数据 治理工具池 数据作业流程 平台核心工具支持,支持任 通过离线ETL作业,过滤规 意治理工具的批量操作,且 则,找到最真实业务治理 有效实时反馈 “痛点”
37. 技术架构
38. Part 04 总结及未来规划
39. 总结 分享 总结 平台介绍 资源管控 元数据 数据治理
40. 未来规划 BLOOD LINEAGE DATA SERVICE 血缘覆盖 数据服务 全链路血缘和字段的覆盖 数据服务API的可视化配置,查询 引擎策略 DATA GOVEN 灵活治理 数据治理业务灵活配置 DATA QUALITY CHECK 数据质检 数据质量检查
41. 欢迎加入交流群
42. 感谢聆听

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 21:56
浙ICP备14020137号-1 $Map of visitor$