金融大数据存储实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 金融大数据存储实践 2023.04/沈百军

3. 目录  大数据发展趋势  存储设计和选型  5个实用案例

4. 大数据发展趋势数据的重要性大数据趋势特点 • 应用服务爆发 • 数据分析将成为主流 • 与云计算密不可分 • 中国占据重要市场 • 安全与隐私更受关注 • 分析领域快速发展应用服务爆发 4

5. 大数据VS应用服务大数据与应用服务对比大数据的特点 • 海量的数据 • 快速的数据流转 • 多样的数据类型 • 潜在价值高应用服务应用服务大数据商业价值：场景丰富，逻辑复杂商业价值：场景单一，逻辑简单处理对象：结构化，半结构化，非结构化处理对象：结构化，半结构化系统工具：开源组件胜多系统工具：模式简单，相对比较少处理方式：批流一体，解决吞吐问题处理方式：事务处理，解决并发问题数据量小，Request/Response 数据量大，用户行为复杂单任务，资源消耗小批流一体，资源消耗大大数据磁盘、内存、CPU 5

6. 高并发的JAVA应用服务架构可省略读写 CDN 本地缓存 Java Java JVM缓存 MQ 必须 Redis缓存持久化缓存 Redis缓存持久化缓存核心是存储架构的精髓是存储的设计 6

7. 目录  大数据发展趋势  存储设计和选型  5个实用案例

8. 存储设计的原理 CAP定理（CAP theorem） CAP ➢ 一致性(Consistency) (所有节点在同一时间具有相同的数据) ➢ 可用性(Availability) (保证每个请求不管成功或者失败都有响应) ➢ 分隔容忍(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作) 三个需求，最多只能同时较好的满足两个  CA - 单点集群，满足一致性，可用性的系统，通常在可扩展性上不太强大。  CP - 满足一致性，分区容忍性的系统，通常性能不是特别高。  AP - 满足可用性，分区容忍性的系统，通常可能对一致性要求低一些。 ACID模型弱化 ACID ➢ 原子性（atomicity) ➢ 一致性（consistency) ➢ 隔离性（isolation） ➢ 持久性（durability） BASE模型盛起 BASE ➢ Basically Available --基本可用 ➢ Soft-state --软状态/柔性事务。 "Soft state" 可以理解为"无连接"的, 而 "Hard state" 是"面向连接"的 ➢ Eventual Consistency -- 最终一致性，也是 ACID 的最终目的。 8

9. 存储的选型关系型存储 MySql GraphDB 检索和聚合型存储内存NoSql 大存储KV Redis HBase Aerospike Cassandra MongoDB Elasticsearch 9

10. 存储的选型对象存储大数据 Presto（HDFS) Ceph Swift Kylin ClickHouse starRocks Hive/Spark（批处理） 10

11. 存储的选型图数据库向量引擎 Neo4j JanusGraph Milvus Ultipa/ Galaxybase/ AtlasGraph AI算法 11

12. 存储服务的硬件架构什么是傲腾持久性内存？内存 DRAM /3D Point /Flash 傲腾内存，是Intel基于3DXpoint存储介质而打造的缓存设备，其主要作用是为硬盘（HDD，SSD）加速。 PC存储架构  英特尔® 傲腾™ 持久内存和英特尔® 傲腾™ 固态盘之间有什么区别傲腾持久内存 PMem  英特尔® 傲腾™ 持久内存和标准 DRAM 什么是无限带宽技术？ SSD/HDD InfiniBand（“无限带宽”）是一个用于高性能计算的计算机网络通信标准，它具有极高的吞吐量和极低的延迟，用于计算机与计算机之间的数据互连。 Infiniband • 搭建多层存储类型，可用提供高并发，高可用的，高性能的计算机网络线上服务，保证满足银行业务发展的需求的同时，更好的引领业务发展。单点 PC架构分布式单点集群，满足一致性，可用性的系统，通常在可扩展性上不太强大主要用于一些复杂的，高并发，高可用，而且数据量比较大的线上实时服务，一般一致性差 12

13. 存储服务的软件架构 Read（索引） Write 存储方式 ●Hash索引 ● Log Write（后一致性） ● 列式存储 ●B+树索引 ● Sync Write（一致性） ● 行式存储 ●倒排索引 ● 行列混合存储 ●BloomFilter ●向量化引擎 ●预计算 13

14. 目录  大数据发展趋势  存储设计和选型  5个实用案例

15. 平安银行大数据技术平台 Jupyter 统一脱敏离线计算平台交互式查询引擎 SAS AI C`loud 征信客户图谱实时计算平台 YARN（1200台） NoSQL存储 HBase/MongoDB Elastic Search 调度平台 Z + Hue B+ 可视化界面侦测指标系统 KDC/Kerberos 服务器4000台，总容量160PB，日新增数据140T，未来一年需翻倍 15

16. 平安银行AI技术平台架构业务应用 OCR 计算框架 Tensorflow 智能客服智能推荐 Caffe Pytorch 容器集群基础设施广告系统 NLP Spark R … Python GPU AI与云计算的结合 GPU资源的统一管理使用Kubernetes + Docker基于构建基于容器的云平台支持主流深度学习与机器学习框架分布式存储 FPGA加速支持 FPGA ` 网络存储块存储任务管理日志管理 Kubernetes + Docker CPU 监控管理对象存储权限管理文件系统以云服务的形式提供AI的能力利用GPU并行运算能力为深度学习加速资源隔离与资源限制；基于镜像发布；弹性计算（秒级动态扩容）；HA；多租户；自动化部署 TF、Caffe、Pytorch、Spark、xgboot、sklearn 块存储、对象存储、分布式文件系统，支持海量训练数据利用FPGA卡对深度学习算法加速（正在调研评估） 16

17. 案例1：决策引擎事件驱动，提供稳定，高效的实时计算引擎，底层使用Flink、E+ 规则决策引擎变量中心规则组决策树 26 ms 40 ms 为了满足一定业务场景，对各种变量进行逻辑处理规则的集合，规则组包含多条规则，按条件判断是否全满足或者部分满足根据规则或者规则组的运算结果，进行树状分支的逻辑逻辑判断决策引擎硬件成本较低，自研，扩展性比较好，吞吐量比较大，未来打造基于event的实时变量计算引擎，支持大数据风控及营销性能99% 性能99.9% 17

18. 案例1：客户事件中心交易数据埋点数据 … 业务系统实时数据决策引擎业务可配置实时数据接入通过决策引擎接入实时数据语言翻译，将数据数据源，根据业务规则翻译成业务可理解的语定义原子事件以及事件言，业务可根据需求自属性列表定义用户筛选规则用户列表原子事件库事件可订阅业务规则配置事件中心输出业务断点用户筛选 MQ消息队列统计事件定义 …… 接口服务监控各个对接系统可动态订阅事件，通过消息队列实时接受满足业务规则的用户客户号事件统计与监控周期性统计各个事件的发生次数，监控异常事件 18

19. 案例2：交易明细产品介绍 – 功能介绍 1 借贷数据整合，客户视角的资金变动。灵活的查询，搜索服务体验。 2 基础数据全面整合优化，针对500多种借记卡交易和300多种信用卡交易。 3 环绕客户日常生活，衣食住行，理财还款等进行分类归纳。清晰用途。 4 客户收支月度年度分析，丰富的维度和图示，客户收支一目了然 19

20. 案例2：交易明细借助大数据技术能力，全新打造收支分析，一方面面向客户的收支查询做到业内第一，另一方面提供给内部各个业务条线使用，发挥金融数据的深层价值。 ● 数据完整度超招行，对标支付宝 ● ● ● 借贷数据整合。在第三方支付交易的商户、产品信息和订单详情。关联交易、退款退票交易等原始交易信息。 ● 客户视角分类、商户层分类、交易层分类等多纬度组合的模型。商户纬度分类，准确率达到 80%。精准引流（商城、理财、保险、贷款等） ● 客户视角的信息流和资金流闭环 ● 多纬度的分类模型，进行精准引流理财在途、贷款、信用卡在途（例如：已赎回未到账，已审核未放款，待还款等） ● ● 梳理银行卡签约的协议，进行整合和运营。一键否认交易安全锁等环绕账户安全的引导 AI智能搜索等 ● 查询的时效性：实时流水分类查询 5S以内助力AI客服 ● 环绕客户用卡的安全和侦测渗透 ● 将梳理的数据，场景全面融入AI 客服，提升AI客服能力。技术突破和创新 20

21. 案例2：交易明细---技术架构图  高性能 : api服务3000QPS，平响50ms以内  百亿级别数据量：80亿/年*5  高可用：限流, 监控，熔断,降级按客户号哈希均匀分片按交易时间分库分表离线数据基本 D+/v+ 网联… 商户  高吞吐：4000TPS，日处理3000万  低延迟：链路平均时延小于3秒  计算高效：规则计算平均深度250步, 平均耗时 3ms  不重不丢：故障转移,故障恢复异步重试队列分级缓存 API服务信息信息规则计算账单明细交易明细明细表收支分析实时数据 Lambda架构解决方案离线为主，实时补充 21

22. 案例3：标签系统利用银行标签和个金标签，构建客户八大分类，标签共2000余个个人信息身份阶层非金融产品及行为金融产品及行为客户第一视图客户360 全景图投资偏好客户综合视图生命周期生活消费财富价值  组合标签：是一组规则，判断客户符合此规则，返回布尔类型  人群过滤：通过对一组规则过滤，确定客户集合  标签值查询：高并发获取客户数据 22

23. 案例3：标签系统-平台结构整合行内外用户数据，建立平安银行生态中用户标签体系，为多种营销场景提供高价值，高可用的客群精准定向服务。渠道口袋A 产品货架搜索平台广告系统 …… 系统架构标签系统核心基于ES提供大容量数据存储和高效的查询服务，同时支持DB, 消息数据，外部接口数据接入标签数据标签系统客户画像服务客群圈选服务客群画像分析目前已经建立起客户维度的用户标签体系，拥有上千标签，并在不断扩展。标签每周被上百次的组合，百亿次的使用多主题基础标签实时标签此外还有产品，信用卡，贷款等多个主题外部标签平台应用数据来源标签系统通过接口方式为外部80个系统提供服务，覆盖口袋A，行员A，爱客系统，UCP（微信端），BBC等主要数据集市加工分析模型白名单标签业务自有标签实时消息营销渠道 23

24. 案例3：标签系统-技术架构图在线服务标签数据 • 在线判定：30000+QPS,日服务量在15亿 • ES集群索引量在20Tb，单索引最大5Tb • 服务高可用：监控、限流、降级 • HiveToES 导数时间约2.5小时 • 整体数据时效T+17小时 • 客户标签高达20000+ 实时消息 API服务流实时标签 E+ 规则计算离线基础标签宽表客群判定客群画像 Z+ 离线基础标签宽表客群数据批取 24

25. 潘多拉数据平台 —— 指标管理与指标消费的统一平台以指标驱动分析，灵活高效  原子指标  派生指标  衍生指标  复杂指标  1分钟找到数据  3分钟创建看板  5分钟挖掘价值 ✓ 营造数据生态 ✓ 数据资产治理 ✓ 降成本提产能 25

26. 案例4：指标平台  实现自动跑批，节省50%ETL开发  支持数据模型的纬度笛卡尔加20亿+  节省80%重复跑批资源和80%重复存储空间  支持指标数5000+  实现亚秒级指标查询（非cache情况下指标平均查询响应时间  重复指标率<1% 1.5s，去重计数类指标平均为5.8s）  Cube数据膨胀率1.3倍，低于业界3.0倍的标准 Hive离线数据查询引擎统一构建服务统一查询服务指标应用集市视图管理业务表纬度管理埋点数据跑批管理标签数据 Cube构建接入适配指标平台构建服务 redis kylin 命中 cu be 查询路由 clickhouse presto 指标平台统一 presto 查询服务查询下压指标看板智能预警归因分析相关性分析指标搜索 26

27. 案例5：知识图谱多维度数据融合，构建网络图谱客户信息非金信息 • 证件信息 • 住宅地址 • 单位地址 • 手机号 • 年龄 • 性别 • 设备类型 • IP信息 • GPS信息 • 涉案交易信息 • 设备指纹信息 • 伪冒授权交易案件 • 社交信息 • 外围卡片管制信息 • WIFI信息 • 信用卡交易信息金融信息客户信息 • 借记卡流水信息 • 网银交易信息 • 金融创新支付信息 • 信息贷款信息 • 事件池信息欺诈风非金融险信息信息 27

28. 案例5：知识图谱业务能力交易反欺诈申请反欺诈汽融贷款反欺诈反洗钱/套现 •从身份证、银行卡等多种纬度对持卡人的交易信息进行关联分析，输出可疑人员和可疑交易系统能力关联反查 •根据某个或者多个可疑数据，通过关联反查模块，查询其他数据路径跟踪 •在当前图中查询任意两个实体的 •选中关系中查询实体的最短路径 •从身份证、手机号、家庭住址、单位地址等多纬度对申请人进行关联分析 •结合图规则，识别图中异常信息，判断申请人信息的真实性和可靠性血缘分析 •选中任意实体及相关关系，查询与该实体有相同关系的实体群体分析 •选中多个实体以及相关关系，查询这些实体之间存在那些关系 •从身份证、经销商、车型等多维度对贷款人进行关联分析，可视化识别故意骗贷者、欺诈者和团伙预谋性骗贷等骨干分析 •当前网络图谱中查询最重要的实体聚类分析 •引入聚类算法，扩展网络图谱 •追踪卡卡之间的交易路径，从源头账户/卡号/商户等关联至最后的收款方 •定义套现模式来识别洗钱/套现路径和可疑人员图规则 •通过定义图数据源和查询图，得到满足的子图统计分析 •统计当前网络图谱的实体和关系统计以及实体和关系属性的统计 28

29. 案例5：知识图谱-架构图 OLTP  准亿级图数据：6500万关系，2500万实体  服务高可用：监控、限流用户行为和属性 ETL 查询实体和关系图查询和分析服务 (OLAP)  准实时计算：三步图因子平均计算时间260ms  异步计算：服务依赖因子结果，计算依赖Neo4j  实体入图：平均12.3ms  关系入图：平均12.7ms 汽融放款实体和关系基本信息明细查询规则计算 D+ 实体属性 OLAP  千亿级图数据：4800亿关系，1200亿实体  风险标签：20+ 因子结果因子查询  每天命中风险标签：5万+  多种图算法：骨干分析、最短路径等  多种布局算法：力导图布局、矩阵布局等 API服务(OLTP) 实时消息流 29

30. • 如何做好一个优秀的高并发应用服务 • 如何实现高并发、高存储的应用服务 • 如果快速检索多维Cube数据 • 如何构建图应用