vivo数据集成稳定性与数据质量保障及可观测实践

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #vivo

1. vivo数据集成稳定性与数据质量保障及可观测实践 vivo互联网大数据架构师/ 易龙

2. 目录 • • • • vivo数据集成平台架构及功能 vivo数据集成稳定性保障实践 vivo数据集成链路数据质量保障实践 vivo数据集成可观测实践

3. vivo数据集成平台架构及功能

4. 产品能力地图 Bees，是vivo的一站式数据集成平台，它支持将多场景下多样化、分散的数据源，统一汇聚到大数据存储，是数据流入大数据体系的一座桥梁。业务2 业务1 业务数据量条数业务3 万亿级/日 …… 业务4 数据量大小用户维度工单管理任务管理监控告警管理 PB级/日运维维度 SLA管理任务治理集群管理数据质量一键诊断监控可观测 SLA管理可用性数据接入 SDK接入数据传输集成多种同异构数据源数据同步源：Kafka/Mysql/MongoDB/Pulsar/… 目的: Kafka/Pulsar/Hive/CK/Hudi/HBase/… 多场景解决方案支撑业务日志离线、实时接入构建实时离线一体化数据仓库数据完整性业务多维数据分析数据接入推荐、风控、分析等实时业务 99.999999% 离线异构数据源同步实时客户分析及精准推荐 Agent日志接入 DB接入多种同步方式批量（离线）全量/增量，实时同步，全增量一体 99.99% 实时异构数据源同步实时营销活构建客群标签画像数据时效性 500ms

5. 分层架构图

6. 核心组件架构图  Bees监控模块  监控、指标展示与告警  Bees-Manager  工单接入管理  任务管理  采集配置管理中心  用户平台服务【极重要】  Bees-SDK  数据接入 SDK 工具包  Bees-Agent  源端日志接入组件  部署在业务机器  影响CPU、内存、文件句柄、IO  Bees-Bus  数据传输管道服务【极重要】  Bees-X：实时数据同步服务  支持binlog日志采集  mongdb oplog实时采集  支持其他异构数据源数据同步

7. 核心功能介绍实时日志接入离线日志接入 Nginx/Tomcat/埋点日志 Nginx/Tomcat/埋点日志支持容器服务日志支持容器服务日志传输到Kafka（500ms内）按小时粒度批传输支持过滤按10分钟粒度批传输支持同时写多Kafka 支持限速业务隔离 SDK数据接入 DB全增量日志实时接入支持接入到 Kafka、Pulsar 业务数据无需落地日志支持接入到 Hive、CK等更低的时延（毫秒级）对主库无性能影响保障秒级别时延支持指定点位进行数据续传支持 Avro、Thrift 协议 bees-x 支持 Java、C++ 语言

8. 核心问题及挑战数据上报网络/服务端痛点问题核心问题维度  链路稳定性  链路数据质量  链路可观测性接入传输     被动接收告警，问题定位恢复慢散点式救火，运维成本高数据产出时效性波动大告警多而杂，处理成本高 ETL （Spark/Flink）数仓核心挑战  如何从根本上长效的保障稳定性  如何从全链路视角保障数据时效性  如何有效准确的告警并快速恢复

9. vivo数据集成稳定性保障实践

10. 稳定性保障整体方案 MTBF:（Mean Time Between Failures)，平均故障间隔时间 MTTF：(Mean Time To Failure)，平均无故障时间 MTTR：(Mean Time To Repair)，平均修复时间

11. 架构组件：核心服务&存储多活高可用 bees-agent  核心服务多活高可用  服务拆分多节点部署  跨机房容灾  存储多活高可用  跨机房容灾  Proxy，无中心集群，支持高可用  Agent，基于Raft选主，支持高可用  节点均支持动态扩缩容  Proxy配置基于 Zookeeper进行同步，保障一致性 bees-bus bees-sdk bees-monitor portal 核心管控服务集群 API服务集群 Portal服务集群 LVS+Keepalived IDC1 bees- manager MySQL IDC2 nginx proxy0 bees- manager bees- manager 同服务 nginx bees- manager proxy2 proxy1 bees- manager bees- manager proxy3 master slave0 slave1 同数据 slave2 Slave3 ag ag agent ag ag z z zookeeper z z

12. 架构组件：核心组件支持健康检查采集配置流  链路核心组件心跳上报  异常及时发现，追数补数管控服务域名可用性检查 bees-agent 心跳上报心跳上报 bees-sdk 采集数据流心跳上报 bees-bus 消息队列其他

13. 架构组件：物理标签隔离机制       标签统一通过bees-manger管理不同业务任务分配不同标签按标签和bees-bus建立连接 bees-bus使用大内存物理机器同一台bus机器负责一个业务 bees-bus备机池，及时扩容 bees-manager bees-bus 源端采集 bees-sdk 业务A任务a bees-agent *.log 业务B任务b bees-agent *.log 业务C任务c bees-agent *.log bus节点0 bus节点1 bus节点0 …… bus节点n bus节点0 bus节点1 业务A任务a标签业务B任务b标签业务C任务c标签 Kafka集群

14. 架构组件-实时链路容灾： SDK落盘重发机制 1.2 采集管控服务 1.1 机器扩容任务创建 2.1 落盘开关开启配置流落盘开关关闭数据流相同标签 2.2 扩容、sdk落盘任务创建 SDK接入任务配置  平台化配置管控  配置动态感知  支持落多目录多文件 Agent接入任务配置 2.3 业务-sdk1 CMDB sdk2-log 业务-sdk2 3.2 业务机器 3.1 业务*-log 业务服务 3.3 bees-bus机器 4 bees-sdk bees-bus 6 bees-bus bees-agent 8 *.log 7 Kafka 5 9

15. 架构组件-实时链路容灾：数据反压缓存动态落盘重发 bees- manager     上下游联动，及时感知异常全链路流量波动监控及时数据反压告警引入Fqueue落盘  支持顺序写落盘  支持落单盘和多盘  独立FqueueSink隔离发送数据接入 bees-bus task manager Kafka集群 bees-sdk bees-agent *.log source selector channel FqueuePollMnager Fqueue sink Fqueue Sink Pulsar集群

16. 架构组件：离线链路写HDFS主备切换 & 双链路容灾快速切换  离线HDFS集群容灾能力  上下游联动  分钟级切换耗时  核心SLA业务  容灾触发切换  分钟级切换耗时

17. 链路故障演练思路专项优化根治隐患事件故障记录分析主动隐患识别重大迭代主动巡检识别隐患定期故障预案演练制定故障处理预案平台历史故障故障演练步骤确定演练对象制定恢复预案确定验收指标评估影响范围触发恢复预案实施故障演练记录过程事件生成待办项

18. 稳定性保障：规范变更发布流程有预案常规配置变更类型梳理大版本升级常规DB变更事前紧急变更步骤梳理基础准备通知范围监控告警值班规范变更发布原则有测试明确版本功能有审核明确灰度指标有通告低峰期变更事后事中点检checklist 梯度灰度关键步骤确定灰度管控策略稳定性验证（种子用户）低频用户推广核心用户推广协作流程点检checklist 平台操作高频用户推广风险应对措施要值守要灰度全网用户推广回滚方案有通告要观察要验收有事要通告

19. vivo数据集成链路数据质量保障实践

20. 链路数据质量-数据完整性支持双链路数据对账、链路关键卡点校验、发现异常并追数补数，保障SLA业务数据完整性要求 支持核心SLA业务离线实时双接入 支持多种数据对账方式  离线全链路对账  实时全链路对账  核心业务双链路对账 SLA动态保障 全链路数据完整性卡点校验 备份重接、追数补数

21. 链路数据质量-数据时效性：整体思路优先级：P0>P1>P2 SLA时间：T0<T1<T2 从全链路视角，结合SLA，制定整体措施，保障数据及时产出数据上报措施 SLA保障  实时上报  退避重发  断点续传 SLA申报 SLA签订网络/服务端      SLA审核 SLA数据流量监控波动告警 CDN可用性 Nginx监控网络设备监控分类分级 ETL 接入传输       Inotify感知轮询发现重采、补采延迟告警断点续传动态扩容 P0 核心 P1 高优 T1 P2 普通 T2 T0 核心保障      数仓      异常监控容灾切换延时告警任务重跑断点续传计算资源队列匹配指标基线全链路打标资源预测北极星指标血缘依赖根因分析动态调度全链路协作专项保障

22. 链路数据质量-数据时效性：Agent及时感知 Agent 采用定时轮巡+inotify 组合，时效性达毫秒级引入inotify时，若直接用jdk的watch service会有两个问题： 问题1：日志量TPS很高时，inotify通知频率快，每次agent处理事件，感知的增量日志少， batchSize低，浪费cpu； 问题2： JDK提供的WatchService只支持监听目录，不支持监听到具体的文本文件，直接用会出现多任务重复监听单目录，重复越多，cpu浪费越多；解决方案： 问题1方案：读到日志文件末尾，等待5ms，当batchSize满或超过5ms 时进行发送；使用该方案，CPU使用率从单核10~20%下降至单核3~6%，下降幅度10%左右； 问题2方案：在WatchService基础上，封装一层支持监听到文件级别的 BeesWatchService，实现文件级别监听，每个任务只订阅自己需要的文件，屏蔽了不相干文件的变更事件；

23. 链路数据质量-数据时效性：云原生场景实时日志感知接入 毫秒级内容变化事件的感知 毫秒级扩容 秒级日志接入

24. 链路数据质量-数据时效性：任务延迟积压场景处理思路分析任务视图依赖，识别关键基础任务，触发资源分配调度，及时疏通链路正常任务用户延迟任务 0层业务场景 13 1层任务配置任务配置信息任务打分触发任务综合打分信息资源匹配任务资源信息资源信息资源配置分配任务资源配置下发 4层任务延迟信息监控模块 DB 任务延迟任务运行信息结果信息 P 0 id 0 任务状态信息 4 3 3层任务调度 5 4 2层 P 0 P 1 P 1 P 1 P 0 P 1 P 1 P 0 P 1 P 1 task task_dependence_score scene_importance_score total_score resource （任务） (任务依赖数得分) (场景重要性) （综合得分） (资源) Task1 13 ( A a 2 * P O + P 1 ) + (PO+3*P1)=3*P0+4*P1 1 Task5 4 2*PO+P1 B b 2 Task6 5 PO+3*P1 C c 3 Task11 3 2*PO+P1 D d 4 Task12 4 PO+3*P1 E e

25. vivo数据集成可观测实践

26. 监控能力矩阵

27. 从监控到可观测性 ”监控是可观测的一种实现手段，但可观测远不止于监控。 “ 通过收集、分析和使用信息来观察一段时间内的运行进度，并且进行相应的决策管理的过程，监控侧重于观察特定指标。监控可观测通过分析系统生成的数据理解推演出系统内部的状态。

28. 可观测体系：统一可观测平台通过将指标、日志、追踪三大支柱信息，按场景进行关联、转化、组合，实现可观测能力统一可观测平台一元场景指标可聚合的逻辑计量单元指标解分 / 合聚可事件的请求范围内可聚合的事件追踪请求范围请求范围内的事件追踪对离散的不连续的事件的一种记录单次请求范围内的所有信息、即调用链信息转化场景可聚合请求范围的指内标日志日志指标通过日志获得指标数据追踪指标通过调用链的分析获得调用范围内的指标日志事件记录日志追踪通过对日志的聚合和转化得到追踪日志指标追踪故障多个源头产生的故障二元场景日志指标可聚合/分解的事件日志追踪追踪指标一个调用周期内的事件一个调用周期内的指标

29. 可观测体系：落地实践核心思路可观测性的价值，不仅仅是观测，更要能助力将服务从异常状态快速恢复到健康状态

30. vivo数据集成领域可观测落地操作范式及实践举例操作范式：梳理场景，确定核心影响因子，完善日志、追踪和指标，关联并自动化场景梳理稳定性离线稳定性异常实时稳定性异常 …… 数据质量数据完整性异常数据时效性异常影响因子确认机器宕机硬件故障 HDFS容量满接入agent 组件bug Kafka异常硬件异常日志 HDFS容量指标 HDFS请求异常日志 Kafka请求异常日志网络异常日志未落日志/ 文件被清空文件访问异常日志异常变更变更异常日志源端数据未上报数据完整性异常场景可观测实践举例心跳指标网络异常源端流量突增信息关联和自动化信息完善信息标准化信息层级类型收敛告警恢复流程心跳指标 0 L0 机器端漏数 0 - 硬件日志 1 L0 机器端漏数 0 硬件故障恢复流程文件访问日志 1 L0 机器端漏数 0 文件访问恢复流程变更异常日志 0 L0 机器端漏数 0 - HDFS容量指标 0 L0 链路丢数 0 - 网络异常指标 0 L0 链路丢数 0 - 数据对账异常指标对账异常 1 L1 完整性异常 0 - 卡点异常 1 L1 完整性异常 0 - 卡点异常指标完整性异常 1 L2 完整性异常 1 追数补数任务恢复流程流量波动指标

31. 可观测实践：变更故障自感知思路将变更信息、业务链路依赖和监控信息关联，进行多维度识别，实现变更故障自感知自感知引擎统一变更平台统一监控告警平台变更变更平台监控故障平台 a 变更平台故障发现监控监控告警人工定位业务链路依赖信息业务链路 1 b c d e g h j k …… 业务链路 M b d f …… 业务链路 N b a b d e 回退自感知处理流程时间信息输入告警信息变更信息 1.变更时间窗口依赖信息 2.变更操作时间空间 3.机房地域匹配 4.逻辑分区匹配多维度识别内容恢复流程 5.业务内容链路依赖匹配恢复处理

32. 未来规划

33. 未来规划  提升可观测性的场景覆盖度  可观测平台能力建设  根因分析（专家模型 -> 智能模型）  增强可观测对接自动恢复的能力

34.