cover_image

趣店大数据平台架构

林庆敏 趣店技术团队
2020年04月26日 11:30
趣店大数据平台架构


趣店大数据平台作为集团数据业务的技术支撑,为集团提供从采集、建模、存储、分析到智能应用的全流程数据驱动解决方案,最终以数据服务对接到业务系统或者数据产品驱动业务决策和产品智能。




1


什么是数据平台

大数据平台通过对业务数据进行采集、加工、管理、服务化,再反哺到业务,其实是一种理念,强调的是一种复用能力。当企业需要数据化转型、精细化运营,或者当业务需求和数据规模达到一定量级的时候,就需要建设数据平台,它是高质量、高效赋能业务前台的一系列数据系统和服务的组合

图片

打个比方,当我一家人要吃饭,我自己买菜,在自己的厨房用普通的厨具自己做就好了; 如果是富士康,几万几十万人吃饭,就需要建食材的加工配送中心,集中提供餐饮服务。本质上是“需求规模量级的变化,导致解决方案的质变”。说到这里,怎么听起来像数据中台?其实名称定义并不重要,我们要做的仅仅是把数据的服务做的更好(Data as  a service)




2

数据平台解决什么需求


企业角度

服务:服务稳定、功能健全、数据高质量。

效率:执行更高效,业务更实时

成本:支撑数据业务的高速发展的同时,尽可能控制成本的增长

安全:访问安全、存储安全、数据合规

技术角度

组件化:功能齐全,完善的大数据组件及数据应用,满足海量数据存储计算需求。

平台化:服务抽象、数据共享、自助开放、分析决策。





3

数据平台建设落地过程中有哪些挑战


图片

服务稳定

保障服务稳定是所有进行生产活动的前提,我们基于hadoop生态构建了一个低成本、高可靠、高扩展、高有效、高容错的数据平台,从数据接入 -> 数据交换-> 数据转换 -> 数据分析-> 数据可视化,实现全链路服务与数据监控,以及分布式存储计算、容灾备份、弹性伸缩、数据解耦等服务保障目标。

图片

成本控制

数据平台不像业务前台直接对接一线业务,与业务KPI直接挂钩,平台在老板眼里往往是个非常大的成本中心,如何将数据平台由成本中心变成利润中心,成为平台建设的一个核心方向。我们持续在性能调优、技术选型、伸缩架构、业务评估等措施上进行成本控制,有效解决业务发展需求与存储计算成本增长的矛盾

图片

效率提升

协作效率,举个运营人员取数的例子,需求执行路径如下:运营人员 -> 分析师 -> 数仓团队 -> 平台团队,可见这样的效率是极其低下的。针对这种多层级的数据需求,我们针对不同团队提供不同的数据应用服务,实现了团队间配合更扁平、研发和分析效率更高的目的。

开发效率,从平台发展的各阶段实践中,我们发现,对于一个统计任务/算法任务/风控任务,如果采用传统的编程思维方式去实现,那么只能通过堆开发人员,去做大量的开发、迭代和维护工作,一个任务可能会花一天甚至几天的时间才能完成,对于一天几十甚至几百个任务需求来说,一个SQL仅仅只需要几分钟的开发时间(以我厂为例,每日2.5万+个例行任务和临时任务)。我们做到了全平台SQL化,用SQL思维取代编程思维,降低平台使用门槛,大大解放上层业务开发团队。


数据治理

作为金融行业大数据平台,对数据安全及数据质量的要求标准远比其他行业高,我们致力于梳理数据标准、构建数据安全和隐私规范,围绕业务场景解决数据质量和安全问题。

数据质量措施:对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,围绕完整性、准确性、合理性、一致性、及时性监控分析数据质量问题,提升企业数据质量。

数据安全措施:针对系统级、应用级、网络级,提供合理的安全手段和措施,建立完善的权限控制、访问审计、数据脱敏机制,确保企业内部信息的安全。

图片






4

趣店大数据平台长啥样


数据规模:PB级热数据,每日处理2.5万+任务。

架构图如下:

图片

基础服务

基础服务括数据采集、数据工厂、数据治理、数据服务等核心环节。按照功能划分数据区,设计数据模型,在统一流程调度下,整合各类数据,同现有的企业级数据仓库和历史数据存储系统一起,形成基础数据体系,提供支撑经营管理的各类数据应用,支撑上层应用。以下是趣店大数据主要的基础服务:

图片

图片
大数据基础设施
图片


图片

图片
监控平台
图片




5

数据仓库如何构建


图片

原始层

原始层数据,包括app埋点、服务端日志,以及业务DB数据同步等,其中,可以实时对Binlog的处理(库级别或者实例级别),用户可以按需自行配置,最终可落到HDFS和KUDU系统中。


仓库层

仓库层是趣店核心数据服务,包括数据清洗、归一化处理、数据枚举确认,以及数据融合体系、数据转化体系、数据标签体系,业务逻辑4大体系。


应用层

应用层直接面向应用,有高度汇总数据和用户明细数据以及用户标签等数据,服务于趣店报表平台,风控A、B、C卡模型分,营销、催收、智能推荐系统以及多维分析等各大业务场景。



以上便是趣店大数据平台的整体介绍,后续我们将逐个对大数据分层架构进行技术拆解和分析,欢迎有兴趣的同学关注。



图片


End




继续滑动看下一个
趣店技术团队
向上滑动看下一个