大数据平台日志采集与数据服务建设实践之路
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 大数据平台日志采集与数据服务建设实践之路
陈志辉
3. 网易杭州研究院
l 定位
• 2006年成立,定位于创新业务孵化、基础技术平台研发和前沿技术研究;
• 是网易技术的孵化器、人才的培养基地和市场的发动机。
l 规模
• 2000人+,网易集团重点投入且唯一的研究院机构;
• 承担12项国家级科技项目,2019年被认定为“国家企业技术中心”
l 孵化产品
• C端业务孵化:云音乐、云课堂、Lofter、考拉海购等;
• B端业务孵化:
数字产业事业部:数字化基础平台软件(ABC、IT等);
智慧企业事业部:企业应用(邮箱、通讯、客服等);
易盾事业部:安全(反垃圾、反欺诈、App加固等)。
4. 陈志辉
•
2018年加入网易,目前任职网易杭州研究院资深开
发工程师,主要参与了网易数据中台的日志采集平台
与数据服务平台的设计与开发工作。在分布式环境下
的大规模数据集成领域积累了丰富的实战经验,对数
据服务产品也有一些实践与稳定性建设经验。
5. 01 从数据中台到数据生产力
02 日志采集平台建设
03 数据服务平台建设
04 未来产品规划
6.
7. 数字+ 大会“提出数据生产力”
“ 数据中台 ”能提供的是高质量、
高效率、低成本的数据,并不能直接
解决业务问题,只有通过“数据产
品”,数据才能真正发挥业务价值!
8. 如何打造“数据生产力”?
数据生产力 = 数据产品 + 数据中台
决策
数据产品
业务系统
数据(数据服务)
汇聚(数据集成)
数据中台
9. 数据生产力工具栈
零售 农业 商品数据化运营 农业养户画像 快递配送监测 课程精准营销
供应链智能补货 饲料智能配送 车队智能调转 学生成长评估
复杂报表 移动端
数据门户
物流
决策引擎
教育
自助取数
标签工厂
数据服务
数据传输
中心
数据开发
中心
数据测试
中心
任务运维
中心
指标系统
模型设计
中心
流程协作中心
Hadoop
数据质量
中心
数据资产
中心
数据安全
中心
元数据中心
CDH
集群运维中心
数据地图
10. 网易大数据业务商业化发展
海亮教育
南方日报
江苏农信
好未来
11.
12. 网易日志采集平台的发展
1.0 基于flume的日志采集方案
2.0 完全自研的日志采集方案
ng 自研+开源结合的日志采集方案
13. 为什么要重构日志采集平台?
运维结论:
日志采集服务长期以来处于极高风险, 架构
设计和业务支持方面都有致命缺陷, 几乎到了无
法使用的地步, 随时可能发生无法恢复的服务彻
底瘫痪。
Datastream2.0存在的问题:
1. 采集agent资源占用高
2. 采集规则下发无确认机制
3. 数据流转服务机器成本高
4. 缺乏全链路监控与报警
14. 多机房日志采集方案
背景情况:
数据仓库位于杭州机房。
所有日志数据最终需要落到
数仓中。
大部分应用服务器位于
杭州机房内,少量位于非杭
州机房。
机房之间可以架设网络
专线,但不能承载大流量。
15. Datastream数据流向
16. 采集规则生效时序图
17. Datastream Agent模块化设计
18. 文件生命周期内的采集策略变化
19. 下游故障时的Back Pressure处理策略
基于信用的流量控制(credit-based flow control)是实现上下游流量控制的
有效方式,常用于多层链路虚拟回路的流量控制。
20. 全链路实时埋点与多维度监控
21. 支持按任务,机器维度查看实时与历史的采集速率,采集堆积,分流延迟
支持按任务,时间维度查看日志数据采集条数,采集大小
22. 支持查看route集群流量与水位变化
23. 重点任务定制监控
Agent健康检查
支持查看agent当前采集文件进度与速率,精确到每个文件
24. Datastream-ng
落地效果
名称 Datastream2.0 Datastream-ng Agent 多线程定时轮询 混合采集策略 Route 尽力接收,未隔离,数据缓存本地 基于credit,ack,内存缓冲池 数据中转 基于DS自建kafka 基于业务kafka 数据分流 自研Handler,数据缓存本地 Flink on YARN(single&session) 4月,历史任务数量15000+,实
监控 没有全链路,实时性差 全链路,多维度,实时&历史查询 时运行任务数量2000+,日均采
用户报警 无 有 使用方式 需要运维审批,流程繁琐 用户自助 采集延迟 秒级 毫秒级 机器成本 高 低
Datastream-ng截止2021年
集日志数据约4000亿条
25.
26. 数据服务产生的背景
为什么要做数据服务?
-
业务开发希望使
用数据接口方式
获取数据,而不
是直接读数据表
为了解决数据开发在数据交付阶段的痛点!
需要了解微服务,
高并发等业务开
发相关技术
需要考虑权限问
题,确保数据资
源被安全的访问
保障服务可用,
涉及多种运维问
题,扩容,上下
线,监控报警等
不同数据开发重
复建设,资源浪
费,效率低下
27. 数据服务的定位
易数数据服务本身的定位是一站式自助数据服务平台。用户通过平台即可创建数据服务接口、调
用服务、监控服务。
平台秉承“配置即服务”的理念:数据开发工程师不再需要手写数据服务,只需要在平台上进
行简单配置,平台便可自动生产和上线数据接口,从而提升效率。
28. 数据服务的建设方案
数据服务 - 建设
29. 数据服务 – 关键设计
1. 打通数据研发到数据交付链路
借助数据血缘关系,智能推荐上游表产出任务,自
动配置数据传输任务依赖,打通数据研发至数据交付的
链路,简化数据开发与应用开发的工作
2. 高扩展设计,支持多通信协议,支持多IT环境
查询模块分层设计,抽象数据交
换接口层,支持不同业务场景下的接
口通信协议。Driver层组件化设计,
支持丰富的数据源。查询服务实例可
分别运行在物理机,虚拟机,容器环
境中,支持资源隔离
30. 数据服务 – 关键设计
3. 服务稳定性与运维保障
API网关支持权限控制,流量控制,访问控制,日
志推送等功能,API调用日志使用ELK存储查询,支持
灵活个性化分析需求。当监控服务统计到接口调用异
常时,触发报警系统通知API发布者与运维人员。
4. 打造数据服务产品易用性
提供SQL脚本(低代码)/向导模式(无代码)创建API,支持函数入参,支持UDF后置处理,支持Mybatis动态SQL,支持在线数据源检测与API
调试,支持API在线升级功能,提供多维度的API调用监控统计等。
31. 数据服务 – 应用效果
网易有数数据服务平台已经在集团内的网易云音乐以及外部的零售,交通物流等多领域的数据产品和准在
线业务场景进行了落地实践。内部数据产品包括了BI系统,运营系统等,主要输出ADS层数据。在线业务服务
适用于用户画像查询等DWD层数据输出场景使用。
目前平台支持的数据源达到13个,数据服务API数量达到300+。在线业务活动期间,数据服务API调用量
达到4亿次/天,平均响应延迟为毫秒级。
32.
33. 未来产品规划
日志采集平台 数据服务平台
1. 与内部哨兵系统解耦,支持私有化部署 1. 更丰富的数据源支持
2. 全链路数据压缩 2. 支持异构数据源场景下的数据服务API
3. 与云原生环境深度融合 3. 元原生环境下的功能优化,例如一键发布,自
4. 智能化报警
…
动扩缩容
…
34. 扫码即可关注