网易严选大数据架构演进

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #网易

1. 网易严选大数据架构演进网易严选左琴

2. 左琴 2013年毕业于浙江大学，先后任职阿里/华云数据/ 网易等公司，主要从事大数据存储/计算引擎开发和优化工作目前就职于网易严选数据及风控部，同时担任网易集团数据委员会委员，是网易严选数据和算法工程团队的负责人，负责严选数据技术体系的建设(大数据平台/中台/数据产品和算法工程) 社区的积极分享者，先后在SACC，QConf研习社等做过多次主题分享，举办过Alluxio、Pulsar杭州的Meetup.

3. 1 2 3 数据驱动技术体系数据中台数据平台数据分析-> 数据决策 DataLake AutoWarehouse 智能任务调度 Cloud Native

4. 1 数据驱动技术体系数据业务的发展和变化辅助决策统计分析诊断 VIPAPP 移动数据工作台轩辕数据大屏神相流量分析产品谛听舆情洞察伏羲营销数据分析大麦商品数据运营哈勃评论数据产品统计分析型数据产品用户分析商品销售渠道销售逆向分析供应商管理 DIS 科学实验平台流量分析营销分析仓储物流品控分析财务分析严选报表分析体系（有数）阶段1 2017~2020: 重点打造分析体系

5. 1 数据驱动技术体系数据业务的发展和变化智能决策策略模型用户运营用户增长风控人榜单选品推荐货辅助决策统计分析诊断栏目搜索广告场数据服务化破除数据门槛开放数据+能力 VIPAPP 移动数据工作台轩辕数据大屏 DIS 科学实验平台大麦商品数据运营伏羲营销数据运营谛听舆情洞察河洛供应链协同决策业务财务一体化平台刑天市场投放与归因系统阶段2 2020~: 打造数据驱动工程体系严选商品中心

6. 1 数据驱动技术体系全域用户运营用户增长数据工程技术目标时效: T+1, T+10m, 实时风控特征: 无统一访问服务人标签特征策略模型推荐榜单选品货质量: 准确率，异常分析存储: 对外不直接暴露开放数据+开放能力业务目标临时方案和烟囱开发积累的债务翻译目标无ACID能力无法应对在线业务要求数仓模式过于重度能力无法应对标签与特征的大量需求演进计算: 服务化的计算能力开放表，没SLA的服务稳定: 满足在线业务SLA要求 ……. 面向分析向数据驱动的工程演进 Spark, flink etc. 严选商品中心存储: 10+ 存储引擎债务推荐: 3个推荐服务访问: 一致的访问服务业务财务一体化平台刑天市场投放与归因系统数据定义: 统一的定义赛马场河洛供应链协同决策标签: 3个不同的服务工程目标无法应对业务系统对数据体系的要求分析｜结合工程现状打造数据驱动技术体系

7. 1 数据驱动技术体系数据驱动工程体系建设思路业务⻆度切入，技术视⻆划分数据应用数据中台看技术本质通用能力下沉分析诊断型策略型智能型指标标签 + 规则特征 + 模型 + 规则 Data PipeLine：数据集成 -> 数据开发 -> 数据访问 AI PipeLine：数据集成 -> 特征/模型开发 -> 模型推理表任务数据平台数据计算 + 数据存储屏蔽底层细节提供积木搭建

8. 1 数据驱动技术体系前台数据驱动技术体系全景图 VIPAPP 伏羲-营销刑天-渠道运营中心商品中心榜单推荐广告商品-大⻨谛听-服务选品系统客服中心供应链中心 CRM 搜索⻛控科学实验平台流量控制效果分析 Binlog 数据仓库数据集成中台 ODS/DW/DM 数据湖 Log 统计引擎指标服务数据治理策略引擎标签服务特征 &模型服务 AI引擎召回/排序/赛⻢指标治理标签治理表治理任务治理 DataHub数据总线平台 Atom计算平台机器学习平台统一数据查询平台 YAWS-统一任务调度 MESSAGING COMPUTING RESOURCE FAAS平台 Waiter-数据网关 SCHEDULE STORAGE 基础服务统一元数据数据血缘监控服务

9. 1 数据驱动技术体系前台数据驱动技术体系全景图 1 3 2 VIPAPP 伏羲-营销刑天-渠道运营中心商品中心榜单推荐广告商品-大⻨谛听-服务选品系统客服中心供应链中心 CRM 搜索⻛控 1 Binlog 数据仓库数据集成中台 ODS/DW/DM 数据湖 Log 流量控制效果分析面向分析型应用的pipeline 统计引擎统计引擎指标服务数据治理 2 面向策略型应用的pipeline 策略引擎标签服务 3 面向智能型应用的pipeline 特征 &模型服务科学实验平台 AI引擎召回/排序/赛⻢指标治理标签治理表治理任务治理 DataHub数据总线平台 Atom计算平台机器学习平台统一数据查询平台 YAWS-统一任务调度 MESSAGING COMPUTING RESOURCE FAAS平台 Waiter-数据网关 SCHEDULE STORAGE 基础服务统一元数据数据血缘监控服务

10. 1 数据驱动技术体系前台数据驱动技术体系全景图 VIPAPP 伏羲-营销刑天-渠道运营中心商品中心榜单推荐广告商品-大⻨谛听-服务选品系统客服中心供应链中心 CRM 搜索⻛控科学实验平台流量控制效果分析 Binlog 数据仓库数据集成中台 ODS/DW/DM 数据湖 Log 统计引擎指标服务数据治理策略引擎标签服务特征 &模型服务 AI引擎召回/排序/赛⻢指标治理标签治理表治理任务治理 DataHub数据总线平台 Atom计算平台机器学习平台统一数据查询平台 YAWS-统一任务调度 MESSAGING COMPUTING RESOURCE FAAS平台 Waiter-数据网关 SCHEDULE STORAGE 基础服务统一元数据数据血缘监控服务

11. 1 2 3 数据驱动技术体系数据中台数据平台数据分析-> 数据决策 DataLake AutoWarehouse 智能任务调度 Cloud Native

12. 2 数据中台数据&算法中台 VIPAPP 伏羲-营销刑天-渠道运营中心商品中心榜单推荐广告商品-大⻨谛听-服务选品系统客服中心供应链中心 CRM 搜索⻛控科学实验平台流量控制效果分析 Binlog 数据仓库数据集成 ODS/DW/DM 数据湖 Log 统计引擎指标服务数据治理策略引擎标签服务特征 &模型服务 AI引擎召回/排序/赛⻢指标治理标签治理表治理任务治理 DataHub数据总线 Atom计算平台机器学习平台统一数据查询平台 FAAS平台面向业务场景的, 数据(指标/标签/特征/模型),工程组件的技术解决方案 YAWS-统一任务调度 MESSAGING COMPUTING RESOURCE Waiter-数据网关 SCHEDULE STORAGE 基础服务统一元数据数据血缘监控服务

13. 2 数据中台数据架构的迭代 - 问题和价值数据运转效率低高生产效率依赖数仓单独团队开发模型自动化数据清洗，0人工成本，即可获取干净的数据自动化数仓分析型产品 BI 数据schema频繁变更问题数据服务化 Auto WareHouse 释放数据生产力业务研发团队能自行利用原始数据能力构建产品和服务数据湖策略与模型业务系统搜广推/营销/供应链/榜单/DMP 等业务域需要更高效率的数据供应严选数据湖解决方案 Yanxuan DataLake 高可用性保障数据准实时 ACID能力保障数据随时可用需要ACID的准实时数据需求问题和需求价值策略

14. 2 数据和算法中台数仓的演进-存在的问题建模汇总计算 Flink ODS 重复工作 Flink DWD 实时数仓 Kafka DWS 重复工作实时和离线数仓: 两条数据流存在着许重复但又不完全一致的工作汇总计算建模 spark spark ODS DWD 离线数仓 DWS

15. 2 数据和算法中台数仓的演进-存在的问题 ETL ETL ｜汇总计算 ETL ｜建模 Flink ODS 数仓有很多规范和口径 Flink DWD DWS 规范与SQL实现并没有一致实时数仓 Kafka eg. 规范 ODS要完成的数据清洗，在DW和DM都存在 ETL｜汇总计算 ETL 与建模 ETL spark spark ODS ODS不能有join DWD 离线数仓 DWS 指标的定义和实现不一致 DWS 指标的二义性-大量重复计算代码

16. 2 数据和算法中台数仓的演进 AutoDW ODS层-AutoETL ETL 建模汇总计算 Flink ODS Flink DWD DWS 实时数仓 Kafka ETL 汇总计算建模 spark spark 构建清洗算子替代人工硬编码 ODS DWD DWS 离线数仓

17. 2 数据中台数仓的演进 AutoDW ODS层-批流融合 Kafka Auto Streaming ETL 流上自动化清洗建模汇总计算 Flink ODS Flink DWD DWS 实时数仓 1. ACID 保证 2. Update/Insert 支持 3. 分钟延迟 ETL 镜像表清洗任务：流计算替代批处理汇总计算 spark ODS T+1 快照 DWD DWS 离线数仓

18. 2 数据中台数仓的演进 AutoDW ODS层- 批流融合如何解决乱序问题乱序 Flink-AutoETL任务自动化清洗逻辑保证数据顺序写入Iceberg Spark-Compaction任务 eqDeleteFile -> posDeleteFile的转换 posDeleteFile的合并 dataFile的合并优化，重排后写入 Spark-周期快照任务从iceberg镜像表中合并制作T+1快照

19. 2 数据/算法中台数仓的演进 AutoDW 实时数仓 Auto Streaming ETL Kafka 流上自动化清洗建模汇总计算 Flink ODS Flink DWS DWD 流上计算，回流到准实时离线数仓 DWD层-批流融合汇总计算 ODS DWD spark DWS

20. 2 数据中台数仓的演进 AutoDW Auto Streaming ETL 建模 Kafka 汇总计算 Flink ODS Flink DWD DWS 实时数仓离线数仓汇总计算 spark ODS DM-指标自动化构建指标定义即开发标准化-> 自动化 DWD DWS 指标

21. 2 数据中台 DataLake的建设与实践建模 Kafka 汇总计算 Flink ETL ODS Flink DWD DWS 实时数仓汇总计算建模 spark spark ODS DWD DWS 离线数仓 1000+ 表和任务分钟级标签/特征业务近实时数据查询分钟级业务指标与报表数据湖小时级的模型训练

22. 2 数据平台 DataLake的建设与实践旧方 Flink 案 Kafka Append LOG & DB Merge 10min增量 Spark 10min快照新 Kafka Update LOG & DB S级延迟镜像 Spark 陷近实时数据方案短周期快照10/30/60分钟级别的快照数据 1. 实时性无法满足，实时计算门槛高，按需开发成本高 2. 以空间换时间，浪费大量的存储资源 3. 没有ACID，更新期间并发访问不可用，可用率60% Iceberg存储方案方 Flink 缺案 S级 99% 70% 数据延迟可用率节省资源

23. 2 数据平台 DataLake的建设与实践 - 基础设施建设基础设施的建设 0 故障数据湖数据集成数据访问数据仓库 1 计算引擎层: 2 统一元数据及血缘：Iceberg元数据的管理和查询 Flink/Spark/Presto社区版本支持 ODS/DW/DM 血缘的接入-提供灰度自动切换的保障 3 2 计算平台Atom 机器学习平台数据服务平台Waiter 1 计算引擎(Flink) OLAP引擎(Spark/Presto) 元数据血缘 3 开发平台层：计算平台/机器学习平台/数据服务平台 4 Iceberg的优化 Compaction的优化，性能提升10倍 4 存储格式 Iceberg 5 DataCheckTool保证数据100%一致数据仓库与数据湖平台架构上并无本质区别，并不引入额外的成本

24. 2 数据平台大量小文件 DataLake的建设与实践- iceberg性能优化 1 2 3 问题及原因 Iceberg表读性能差，文件多影响MOR性能主要优化点 1 rewrite EqDeleteFile ->PosDeleteFile 2 compact PosDeleteFile 3 order by index & overwrite 平均读取性能提升10倍

25. 2 数据中台 DataLake的建设与实践-应用场景数据治理 Binlog 数据仓库数据集成中台 Atom计算平台面向智能型应用的pipeline 特征 &模型服务机器学习平台 COMPUTING RESOURCE AI引擎召回/排序/赛⻢统一数据查询平台 YAWS-统一任务调度 MESSAGING 策略引擎标签服务数据湖 DataHub数据总线平台面向策略型应用的pipeline ODS/DW/DM Log 统计引擎指标服务 STORAGE 标签治理表治理任务治理基础服务 FAAS平台 Waiter-数据网关 SCHEDULE 指标治理统一元数据数据血缘监控服务特征和样本近实时存储 - 支持模型实时训练标签服务 - 支撑近实时的用户圈选运营活动场景

26. 2 数据中台 DataLake的建设与实践-应用场景 Auto Streaming ETL 建模 Kafka 汇总计算 Flink ODS Flink DWD DWS Second 实时数仓 T+1 汇总计算 Auto SQL spark ODS DWD DWS 离线数仓 Min 标签与画像场景数据湖标签圈选

27. 2 数据中台 DataLake的建设与实践 - 应用场景据数 Binlog 数据集成中台能数据仓库 ODS/DW/DM 数据湖 Log 力开放数据治理统计引擎指标服务数据 + 标签服务能力开放和探索策略引擎特征 &模型服务 AI引擎召回/排序/赛⻢放开 DataHub数据总线平台 Atom计算平台机器学习平台统一数据查询平台 YAWS-统一任务调度 MESSAGING COMPUTING RESOURCE 标签治理表治理任务治理基础服务 FAAS平台 Waiter-数据网关 SCHEDULE 指标治理 STORAGE 统一元数据数据血缘监控服务数据湖开放如何使用湖和仓？平台提供数据集成-数据访问能力近实时数据查询 - 支撑供应链/商品中心/财务等业务实时数据查询

28. 1 2 3 数据驱动技术体系数据分析-> 数据决策数据及算法中台 DataLake AutoDW 数据及算法平台智能任务调度 Cloud Native

29. 3 数据和算法平台伏羲-营销 Spark VIPAPP Over Hive 谛听-服务商品-大⻨计算存储分离 Spark on K8S 运营中心刑天-渠道 Flink on K8S 选品系统机器学习平台 2019 指标服务 ODS/DW/DM 数据湖 Log 榜单 Atom计算平台 COMPUTING 策略引擎标签服务特征 &模型服务 Qtum机器学习平台 RESOURCE 流量控制效果分析架构演进数据治理 AI引擎召回/排序/赛⻢ FAAS平台 Waiter-数据网关 SCHEDULE STORAGE 指标治理标签治理表治理任务治理统一数据查询平台 YAWS-统一任务调度 MESSAGING 科学实验平台统计引擎 2021.9 成本，效率，稳定 DataHub数据总线广告推荐智能任务调度供应链中心搜索⻛控 CRM 统一数据网关 Cloud Native 数据仓库数据集成商品中心客服中心 2020.9 Binlog DataOPS 基础服务统一元数据数据血缘监控服务

30. 3 数据和算法平台数据计算 - 智能任务调度 - 问题和价值离线计算生产效率几万+ 任务调度手工管理几万+ 任务调度手工管理实时计算服务器成本数据生产沙盘万+ 任务手工管理砍掉50% +服务器预算调度影响重大数据质量模型训练自动化/智能的调度管理系统 YAWS 年均2起+ 人工调度失误导致故障上千+ 训练任务依赖管理场景复杂度在线特征任务类型:流批混合任务种类:人工开发 + 自动生成多调度引擎:Airflow + Azkaban 上千+ 特征计算任务依赖管理多资源调度: Yarn + K8S 现状推演价值策略

31. 3 数据和算法平台批流任务智能调度 - YAWS架构设计统一任务管理 Cloud Native 架构批/流/AI跨多平台任务提交与管理血缘元数据任务监控自动解析作业依赖作业任务优先级作业任务资源作业调度策略模型事件触发作业支持Yarn/K8S调度，屏蔽基础设施细节统一的API服务，支撑上层应用计算任务定时调度作业 eg. 日志平台/标签服务/指标服务等调度策略全链路数据血缘调度，不依赖人工配置，准确率99.9% 沙盘仿真模型训练任务流任务批任务人工开发人工开发批任务事件触发作业，解决流批混合调度，数据准确率100% 沙盘仿真模块，量化策略效果，准确率99% 智能调度策略，血缘+任务优先级+任务资源的策略模型自动生成调度执行调度引擎-Airflow 和 Azkaban K8S- 批处理/流计算/算法训练任务资源混合调度 Data & AI 混合调度，AI-Pipeline 端到端的流调度管理

32. 3 数据和算法平台批流任务智能调度 - 调度策略原来存在问题：

33. 3 数据和算法平台批流任务智能调度 - 调度策略

34. 3 数据和算法平台 3:30 批流任务智能调度 - 调度策略 4:30基线 100%完成率3:30 90%完成率2:50 7:30 9:30基线 100%完成率 0 2020～2021 0生产延迟故障 0数据质量故障

35. 3 数据和算法平台批流任务智能调度 - 资源调度血缘自动解析作业依赖元数据作业任务优先级任务监控沙盘仿真作业任务资源作业调度策略模型事件触发作业定时调度作业资源混合调度 • • • • 实时和离线计算使用不同的Yarn集群 Yarn运维复杂，缺乏好用的运维工具 Yarn资源隔离不彻底，任务之间容易相互影响峰值流量场景，集群资源无法快速伸缩模型训练任务流任务批任务人工开发人工开发批任务自动生成任务资源调度- Cloud Native • 批处理/流计算/算法训练任务混合部署 • 提供资源统一管理和分配 • 大促期间，计算资源快速扩缩容，抵抗峰值压力

36. 3 数据和算法平台批流任务智能调度 - CloudNative

37. 总结和展望数据仓库与数据湖发展准实时数仓 (30分钟延迟或更少） + 数据仓库指标定义即实现 …… 更快的访问性能 + 数据湖更低的数据延迟 …… 不同的场景｜不同的数据使用理念数据湖不会替代数仓，而是长期共存

38. 总结和展望更可靠的数据生产和访问大数据全链路的压测 + DataOps 任务的自动降级 …… 统一的数据网关服务 + 数据访问存储引擎的减少与优化 …… 适用于各场景(nosql & nosql)的数据查询