vivo实时计算平台建设实践

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #vivo

1. 陈涛 | vivo互联网大数据平台计算方向负责人

2. 目录 vivo实时计算业务现状 vivo实时计算平台建设实践应用场景简介探索与展望

3. Chapter 1

4. vivo实时计算现状 OS+ APPs 月活2.5亿实时数仓月活1.24亿月活2.5亿实时智能推荐月活1.2亿月活7.5千万商业化实时广告实时安全实时计算平台（vStream）在网用户2.8亿实时监控数据集成实时计算运营数据 5.5万亿 4000+ 日处理数据量实时任务数 7万+ 1.5亿/秒使用CPU总核数峰值流量数据时间：2022年8月离线计算多维分析日处理数据量（亿）有效任务数大数据存储服务数据来源：vivo

5. 实时计算平台面临挑战 • 持续提升实时开发体验，快速落地实时业务， • 数据量大且增速快，实时业务规模年平均增量满足高速发展的实时业务需求大于100% • 关注任务运维效率，高效排查线上问题，自动 • 业务场景多，覆盖业界所有主要实时应用场景 • 业务延迟和稳定性要求高稳定易用 • 大数据架构复杂，依赖组件多化与自助化的提升能够显著提升人效 • 丰富的扩展能力，满足丰富业务场景需求 • 较高的可观测性要求，掌握全链路运行情况实时计算平台面临挑战 • 持续提升存储、计算资源利用效率，降低实时 • 保障数据安全，确保合适的人以合适的方式访业务运行成本问合适的数据 • 提升业务运营效率，帮助用户持续优化成本与质量 • 数据时效性保障，低延迟业务提供高优保障 • 保障系统安全，确保核心关键业务具备高可用、高效安全高可靠、高可恢复的能力 • 安全审计，风险溯源

6. vivo实时计算平台建设历程 vStream 是 vivo 基于 Apache Flink 流批一体计算引擎自研的覆盖集成、开发、部署、运维&运营全流程的一站式实时数据开发平台，通过支撑 vivo 实时数仓、实时智能推荐、商业化实时广告、实时安全、实时监控等五大业务中台服务于 vivo 全网2.8亿用户。启动 2021 2019.07 Flink 1.13 Flink on K8s 超大状态任务支持 Flink 1.9 Flink JAR、ETL 监控告警 2023 云原生湖仓一体弹性计算 Flink Batch 2020 Before Spark Streaming Storm Flink 1.10 稳定性建设 Flink SQL 2022 流批一体资源诊断异常诊断

7. Chapter 2

8. 大数据体系架构 BDSP 应用商店数据集成浏览器游戏中心短视频钱包实时计算汇聚层数据采集多维分析大数据存储服务离线计算 Spark ETL Hive ClickHouse Presto 实时计算数据调度 YARN 推荐计算层 Druid 广告安全 Kubernetes …… Hudi HDFS BI AI OLAP Flink …… 在线业务离线计算平台层对象存储 Kafka 大数据平台 Pulsar HBase 存储层数据应用

9. vivo实时计算平台简介实时开发全流程接入开发部署运维运营

10. vivo实时计算平台建设思路 5 安全能力建设数据安全、系统安全、安全审计效率提升 4 平台建设思路 3 2 易用性建设 Flink SQL能力、SQL调试、全链路监控、作业运维能力稳定性建设组件服务稳定性、任务稳定性、平台稳定性、超大状态任务稳定性基础服务建设 1 实时开发全流程流批一体、Flink on K8s、任务诊断后端架构、统一元数据服务、监控告警服务接入开发部署运维运营

11.

12. 实时计算平台服务架构核心能力任务生命周期管理 • 任务提交支持多Flink版本 • 任务状态实时上报、更新 • 任务多版本支持，回滚支持支持多种任务类型 • SQL • JAR • 画布 API Server Doctor Server StateMachine DB 统一元数据服务 Poller Submission Server 完善的数据管理能力 • 实时元数据库、表管理 • 数据权限 • 基于项目的任务权限管理 HMS Control Server YARN Flink Job K8S Flink Job 性能与扩展性 • 服务高可用 • 任务状态更新秒级延迟 • 任务容量横向扩展 Metrics Server 实时计算平台服务架构实时监控告警服务

13. 统一元数据服务背景 BDSP • 实时、离线元数据独立重复建设 • 数据管理、数据治理、数据安全能力不统一 • 流批融合场景数据使用需要连接两套元数据统一使用Hive MetaStore作为元数据存储元数据规模：分区数亿级、表数量百万级作业管理模块 • • • • 权限信息分类分级信息血缘信息变更信息 MetaStore服务优化性能，分区表ALTER TABLE性能提升10倍多引擎兼容Flink（3版本）、Spark（3版本）、 Presto、Hive等服务高可用，支持横向扩展，毫秒级读写性能实时计算任务调度模块多维分析数据集成即席查询模块元数据管理权限管理离线任务提交服务实时任务提交服务 DB 离线计算集群实时计算集群 Spark SQL JOB Flink SQL JOB Spark SQL JOB Flink SQL JOB Presto集群数据调度任务（Bees-X） Hive MetaStore • Schema • Hive/Hudi/Flink • Connectors 离线计算 TiDB

14. 实时监控告警服务核心能力全链路延迟、数据质量、业务指标、A/B效果等业务监控 • 告警延迟达到亚秒级 • 支持自定义上报指标、自定义告警规则 • 规则动态生效 • 丰富完善的内置监控面板，覆盖任务各个层面 • 支持通过表达式配置的复杂规则任务状态、延迟、背压、任务负载、CP等任务监控服务监控 HDFS、YARN、ZK、DB等的可用性、容量操作系统、CPU、IO、网络、VGW等基础设施监控监控面板 DB Druid 用户任务 Metrics Reporter vStream Metrics Server • 告警规则 • 监控模板 Kafka Flink CEP Alert Job Groovy动态规则 vivo CEP Framework 实时告警程序 Alerter v消息短信电话

15.

16. 大数据组件服务稳定性提升 HDFS 面临问题措施 Kafka • StaleNode问题，DN节点不可用 • 节点上下线导致资源不均衡问题，影响 • HDFS 2.x不支持truncate，流式 • ZK Leader切换导致大规模任务重启问题消费生产性能写无法恢复问题 • Broker故障导致Flink任务重启问题 • HA切换残留JobManager进程导致 • 小文件问题导致Flink读写慢 • Broker重启容忍度提升双主问题，导致任务状态不一致 HDFS升级3.x版本资源组隔离 Flink提升ZK切换容忍度优化Flink GC线程数自动负载均衡调优HA相关参数，解决Flink BUG 小文件自动合并服务 Broker重启容忍度提升收敛Flink版本异常效果 Zookeeper 任务稳定性提升运行调度目标任务正常运行时长/理论运行时长 >= 99.98% 减少任务异常次数找到异常根因并解决减少单个任务异常时长快速发现，快速解决

17. 超大状态任务稳定性提升 Topic A 背景 Flink Job Task 存储 Topic B Redis 内存模型理解 RocksDB内存易超限外部系统监控建设大流量样本拼接场景超大状态大窗口双流Join场景高稳定性要求依赖外部Redis做状态存储的场景 RocksDB状态后端实时模型训练场景增量CP开启 RocksDB版本升级 ManagedMemory Size 目标： RocksDB运行时各部分内存情况与性能指标迭代器内存使用不确定 Block Cache无法限制BUG ManagedMemory使用逻辑扩展支持自定义RocksDB native 指标采集上报 Histogram类型指标采用取avg值方式持续调优&状态清理 5.17.2 升级到 6.20.3 效果：稳定性提升读写性能略有下降磁盘目录分布设置 write buffer调优分区索引等等 CP/SP状态治理：重点：自动清理、限制策略名称设计与社区风格保持一致明确RocksDB使用的最大内存计算逻辑任务稳定性显著提升，大状态任务稳定性达到99.99% 状态持续治理，存储水位健康，保障集群稳定运行在内容推荐、商业化广告的多个业务场景上线，业务价值有效提升后续规划 • 通过优化前缀匹配策略提升读写性能 • 通过增加统一Cache提升读性能

18. 业务稳定性提升思路 SLI 任务正常运行时长/理论运行时长业务稳定性任务稳定性数据准时率解决任务异常问题，比如引擎BUG、磁盘写满、系统资源用尽建设服务高可用能力建设双机房主备或双活提升团队故障排查能力运营投入大、打扰用户准时到达数据量/理论准时到达数据量任务稳定性数据准时率建设自动化故障处理流程，降低人力投入业务按重要性分级，提供更精准的延迟保障告警收敛，在准时要求以内的延迟不打扰用户指导建设更精细监控告警，覆盖更多风险业务稳定性保障范围提升、用户感知更好

19.

20. Flink SQL 用户体验 • • • • SQL编辑器支持语法解析、高亮、格式化等元数据同时支持可视化与DDL脚本支持Schema探测，高效建表调试采用Standalone模式，高效执行 SQL Editor SQL能力 SQL语法 • 新增SET语法支持参数设置 • 改造DDL语法兼容多版本Flink Parser • 改进CSV format增强schema变更兼容性 • 改进JSON format支持多层嵌套数据类型 DDL HMS Catalog • 扩展Catalog连接实时表、函数等 • HiveCatalog改造兼容Hudi元数据 • 新增EMIT语法支持 Format 元数据/UDF管理 Connector Planner SQL Backend z • 扩展支持Redis、ES、RMQ、Druid、 ClickHouse、HTTP、Pulsar、Hudi等 • 增强异步IO支持Redis、HBase、MySQL等 • 增强Kafka Broker故障容忍 • HiveSink性能优化 Catalog Format Optimizer Submitter Schemas/UDFs Connector Detector Lineage Debugger UDF • 扩展支持10+平台级UDF YARN/K8S SQL调试 • SQL调试支持抽样、上传、数据生成、DAG图展示等特性 • 任务血缘支持 • 任务异常检测支持 JM JobManager TaskManager TM Standalone Cluster

21. 全链路血缘全链路延迟采集任务延迟发生任务某任务全链路血缘图任务处理延迟当前任务

22.

23. Flink on K8s 模式扩展 • Flink on Native K8s • Application Mode 背景资源效率隔离性与安全性 DevOps效率 • JAR任务支持 • 日志、Dashboard访问支持资源易用 • Namespace模拟YARN队列 • 用户体验与YARN一致 Docker Registry vStream Submission Kubernetes Cluster K8s Master Submitter K8s Client Flink Job Deployment Service InitContainer Pod JobManager Flink Dashboard InitContainer TaskManager HA Zookeeper HDFS • Flink状态存储 • 任务Jar文件存储

24. 流批一体背景两份存储，两次计算两套模型，两套代码数据一致性问题任务调度 + 任务血缘核心能力痛点离线数仓 HMS 报表/大屏 Nginx ODS 数据源 DWD DWS 内容推荐 Tomcat 数据集成安全风控 MySQL 实时数仓 Registry Container ODS DWD 实时分析 DWS 数据应用

25. 流批一体流批融合数仓 HMS 调度+血缘计算引擎数据源数据集成 ODS DWD HDFS 统一存储引擎 • 支持Flink SQL流式计算与Spark SQL批式计算 • 针对业务场景进行引擎优化 • 调研Flink Batch作为批计算引擎（进行中） • 建设流批统一的数据调度平台（Bees-X），配置化入湖 • 数据集成链路由二合一（进行中）对象存储统一计算引擎 • 使用Apache Hudi作为统一存储中间层统一入湖数据应用 DWS 统一元数据核心价值提效降本能力、质量提升 • Hudi与Hive元数据统一到HMS • Flink与Spark元数据兼容 2个业务试用中

26. 任务诊断背景资源浪费机器故障流量突增背压异常任务机器资源耗尽启动异常 FailOver 依赖服务故障 …… 经验知识能力资源诊断数据算法任务异常诊断规则核心价值 • 掌握作业运行健康状况 • 为用户提供资源调优指导，有效减少资源浪费 • 帮助业务从异常中快速恢复 • 提升集群资源利用效率 Dashboards & Suggestions API Server DB Doctor Server Heuristic Rules Detector Metrics Fetcher 单位资源处理数据量提升异常任务拦截数量每周 20% 100+ Job Metrics Log Fetcher Logs Container Metrics Advisor ExternalData Fetcher RM Metrics ClusterInfo Fetcher PAAS Cluster Metrics

27.

28. 安全能力建设数据安全 • 实时数据访问、读写权限控制 • 存储安全，离线存储支持列加密，实时存储ACL 控制 • 数据分类分级，具备分级自动检测能力 • 通过数据加密确保埋点上报安全、采集安全安全审计系统安全 • 所有服务具备高可用能力 • 关键作业支持双机房主备或双活部署 • 具备CPU/MEM资源隔离能力 • 系统全局登录安全，具备密码安全策略 • 软件漏洞及时修复 • 安全日志记录，访问、操作日志 • 风险溯源 • 敏感数据检测

29. Chapter 3

30. 实时数仓服务报表服务标签服务中间层开放毫秒提速数据质量保障流程规范审计质量监控预警容灾故障模拟演练用户 ODS 数据源 Nginx Tomcat 埋点日志 DWD DWS ADS 实时大屏智能营销数据集成 ClickHouse ClickHouse 服务端日志精准推荐实时决策 MySQL Binlog 规范工具 HDFS HDFS 实时建模规范通用去重组件通用扩维组件商业化 HDFS 实时业务开发规范/SQL规范通用日志清洗组件通用分流组件

31. 短视频实时内容推荐在线服务在线预估数据集成在线模型存储离线数仓离线特征计算特征存储离线样本拼接离线模型存储实时数仓实时特征计算离线样本存储离线训练 vPilot 实时样本拼接实时样本存储用户特征快照实时增量训练

32. Chapter 4

33. 基于云原生的弹性能力背景业务是弹性的任务级弹性任务集群级弹性计算类型平均利用率高峰时段延迟计算特点任务粒度离线计算高 00时-10时延迟容忍 IO密集短期任务实时计算较低 10时-22时延迟敏感 CPU密集长期运行在线计算低 10时-22时延迟非常敏感 CPU密集长期运行流批混部集群统一集群资源管理 time time 离线集群实时集群在离线混部资源隔离资源调度 • K8s批任务调度能力 • 网络与磁盘IO的隔离能力 • 感知任务优先级 • Spark/Flink on K8s • Linux内核能力支持 • Task均衡调度 • 集群规模能力 • 异构硬件 • 资源管理能力 • 业务特征配置

34. 湖仓一体 BI AI 在线预估样本和特征通过大数据批计算和流计算完成多维分析批计算流计算样本拼接特征计算模型训练批存储流存储样本存储特征存储模型存储分析型计算分析型存储批存储和流存储难支持直接在线分析，需数据迁移模型/样本数据的统一管理核心特性统一存储抽象统一资源抽象统一数据管理核心价值统一计算抽象技术架构内聚低运营成本 AI场景融合

35.