金融大数据存储实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 金融大数据存储实践 2023.04/沈百军
2.
3. 目录  大数据发展趋势  存储设计和选型  5个实用案例
4. 大数据发展趋势 数据的重要性 大数据趋势特点 • 应用服务爆发 • 数据分析将成为主流 • 与云计算密不可分 • 中国占据重要市场 • 安全与隐私更受关注 • 分析领域快速发展 应用服务爆发 4
5. 大数据VS应用服务 大数据与应用服务对比 大数据的特点 • 海量的数据 • 快速的数据流转 • 多样的数据类型 • 潜在价值高 应用服务 应用服务 大数据 商业价值:场景丰富,逻辑复杂 商业价值:场景单一,逻辑简单 处理对象:结构化,半结构化,非结构化 处理对象:结构化,半结构化 系统工具:开源组件胜多 系统工具:模式简单,相对比较少 处理方式:批流一体,解决吞吐问题 处理方式:事务处理,解决并发问题 数据量小,Request/Response 数据量大,用户行为复杂 单任务,资源消耗小 批流一体,资源消耗大 大数据 磁盘、内存、CPU 5
6. 高并发的JAVA应用服务架构 可省略 读 写 CDN 本地缓存 Java Java JVM缓存 MQ 必须 Redis缓存 持久化缓存 Redis缓存 持久化缓存 核心是存储 架构的精髓是存储的设计 6
7. 目录  大数据发展趋势  存储设计和选型  5个实用案例
8. 存储设计的原理 CAP定理(CAP theorem) CAP ➢ 一致性(Consistency) (所有节点在同一时间具有相同的数据) ➢ 可用性(Availability) (保证每个请求不管成功或者失败都有响应) ➢ 分隔容忍(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作) 三个需求,最多只能同时较好的满足两个  CA - 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。  CP - 满足一致性,分区容忍性的系统,通常性能不是特别高。  AP - 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。 ACID模型弱化 ACID ➢ 原子性(atomicity) ➢ 一致性(consistency) ➢ 隔离性(isolation) ➢ 持久性(durability) BASE模型盛起 BASE ➢ Basically Available --基本可用 ➢ Soft-state --软状态/柔性事务。 "Soft state" 可以理解为"无连接"的, 而 "Hard state" 是"面向连接"的 ➢ Eventual Consistency -- 最终一致性, 也是 ACID 的最终目的。 8
9. 存储的选型 关系型存储 MySql GraphDB 检索和聚合型存储 内存NoSql 大存储KV Redis HBase Aerospike Cassandra MongoDB Elasticsearch 9
10. 存储的选型 对象存储 大数据 Presto(HDFS) Ceph Swift Kylin ClickHouse starRocks Hive/Spark(批处理) 10
11. 存储的选型 图数据库 向量引擎 Neo4j JanusGraph Milvus Ultipa/ Galaxybase/ AtlasGraph AI算法 11
12. 存储服务的硬件架构 什么是傲腾持久性内存? 内存 DRAM /3D Point /Flash 傲腾内存, 是Intel基于3DXpoint存储介质而打造的缓存设备,其主要作用是为硬盘(HDD,SSD)加速。 PC存储架构  英特尔® 傲腾™ 持久内存和英特尔® 傲腾™ 固态盘之间有什么区别 傲腾持久内存 PMem  英特尔® 傲腾™ 持久内存和标准 DRAM 什么是无限带宽技术? SSD/HDD InfiniBand(“无限带宽”)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的 延迟,用于计算机与计算机之间的数据互连。 Infiniband • 搭建多层存储类型,可用提供高并发,高可用的,高性能的计算机网络线上服务,保证满足银行业务发展 的需求的同时,更好的引领业务发展。 单点 PC架构 分布式 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大 主要用于一些复杂的,高并发,高可用,而且数据量比较大的线上实时服务,一般一致性差 12
13. 存储服务的软件架构 Read(索引) Write 存储方式 ●Hash索引 ● Log Write(后一致性) ● 列式存储 ●B+树索引 ● Sync Write(一致性) ● 行式存储 ●倒排索引 ● 行列混合存储 ●BloomFilter ●向量化引擎 ●预计算 13
14. 目录  大数据发展趋势  存储设计和选型  5个实用案例
15. 平安银行大数据技术平台 Jupyter 统 一 脱 敏 离线计算平台 交互式查询引擎 SAS AI C`loud 征信 客户图谱 实时计算平台 YARN(1200台) NoSQL存储 HBase/MongoDB Elastic Search 调 度 平 台 Z + Hue B+ 可视化界面 侦测 指标系统 KDC/Kerberos 服务器4000台,总容量160PB,日新增数据140T,未来一年需翻倍 15
16. 平安银行AI技术平台架构 业务应用 OCR 计算框架 Tensorflow 智能客服 智能推荐 Caffe Pytorch 容器集群 基础设施 广告系统 NLP Spark R … Python GPU AI与云计算的结合 GPU资源的统一管理 使用Kubernetes + Docker基于构建基于 容器的云平台 支持主流深度学习与机器学习框架 分布式存储 FPGA加速支持 FPGA ` 网络 存储 块存储 任务管理 日志管理 Kubernetes + Docker CPU 监控管理 对象存储 权限管理 文件系统 以云服务的形式提供AI的能力 利用GPU并行运算能力为深度学习加速 资源隔离与资源限制;基于镜像发布;弹性计算(秒级动态扩容);HA;多租户;自动化部署 TF、Caffe、Pytorch、Spark、xgboot、sklearn 块存储、对象存储、分布式文件系统,支持海量训练数据 利用FPGA卡对深度学习算法加速(正在调研评估) 16
17. 案例1:决策引擎 事件驱动,提供稳定,高效的实时计算引擎,底层使用Flink、E+ 规则 决策 引擎 变量 中心 规则组 决策树 26 ms 40 ms 为了满足一定业务场景,对各种变量进行逻 辑处理 规则的集合,规则组包含多条规则,按条件判断 是否全满足或者部分满足 根据规则或者规则组的运算结果,进行树状 分支的逻辑逻辑判断 决策引擎硬件成本较低,自研,扩展性比较好,吞吐量比较大, 未来打造基于event的实时变量计算引擎,支持大数据风控及营销 性能99% 性能99.9% 17
18. 案例1:客户事件中心 交易数据 埋点数据 … 业务系统 实时数据 决策引擎 业务可配置 实时数据接入 通过决策引擎接入实时 数据语言翻译,将数据 数据源,根据业务规则 翻译成业务可理解的语 定义原子事件以及事件 言,业务可根据需求自 属性列表 定义用户筛选规则 用户列表 原子事件库 事件可订阅 业务规则配置 事件中心输出 业务断点 用户筛选 MQ消息队列 统计 事件定义 …… 接口服务 监控 各个对接系统可动态订 阅事件,通过消息队列 实时接受满足业务规则 的用户客户号 事件统计与监控 周期性统计各个事件的 发生次数,监控异常事 件 18
19. 案例2:交易明细产品介绍 – 功能介绍 1 借贷数据整合,客户视 角的资金变动。灵活的 查询,搜索服务体验。 2 基础数据全面整合优 化,针对500多种借记 卡交易和300多种信用 卡交易。 3 环绕客户日常生活,衣 食住行,理财还款等进 行分类归纳。清晰用 途。 4 客户收支月度年度分 析,丰富的维度和图 示,客户收支一目了然 19
20. 案例2:交易明细 借助大数据技术能力,全新打造收支分析,一方面面向客户的收支查询做到业内第一,另一方面提供给内部各个业务条线使 用,发挥金融数据的深层价值。 ● 数据完整度超招 行,对标支付宝 ● ● ● 借贷数据整合。 在第三方支付交易 的商户、产品信息 和订单详情。 关联交易、退款退 票交易等原始交易 信息。 ● 客户视角分类、 商户层分类、交 易层分类等多纬 度组合的模型。 商户纬度分类, 准确率达到 80%。 精准引流(商 城、理财、保 险、贷款等) ● 客户视角的信息 流和资金流闭环 ● 多纬度的分类模 型,进行精准引流 理财在途、贷 款、信用卡在途 (例如:已赎回 未到账,已审核 未放款,待还款 等) ● ● 梳理银行卡签约的 协议,进行整合和 运营。 一键否认交易 安全锁等环绕账户 安全的引导 AI智能搜索等 ● 查询的时效性:实 时流水分类查询 5S以内 助力AI客服 ● 环绕客户用卡的安 全和侦测渗透 ● 将梳理的数据, 场景全面融入AI 客服,提升AI客 服能力。 技术突破和创新 20
21. 案例2:交易明细---技术架构图  高性能 : api服务3000QPS, 平响50ms以内  百亿级别数据量:80亿/年*5  高可用:限流, 监控,熔断,降级 按客户号哈希均匀分片 按交易时间分库分表 离线数据 基本 D+/v+ 网联… 商 户  高吞吐:4000TPS,日处理3000万  低延迟:链路平均时延小于3秒  计算高效:规则计算平均深度250步, 平均耗时 3ms  不重不丢:故障转移,故障恢复 异步重试队列 分级缓存 API服务 信息 信 息 规 则 计 算 账单明细 交易明细 明细表 收支分析 实时数据 Lambda架构解决方案 离线为主,实时补充 21
22. 案例3:标签系统 利用银行标签和个金标签,构建客户八大分类,标签共2000余个 个人信息 身份阶层 非金融产品及行 为 金融产品及行为 客户第一视图 客户360 全景图 投资偏好 客户综合视图 生命周期 生活消费 财富价值  组合标签:是一组规则,判断客户符合此规则,返回布尔类型  人群过滤:通过对一组规则过滤,确定客户集合  标签值查询:高并发获取客户数据 22
23. 案例3:标签系统-平台结构 整合行内外用户数据,建立平安银行生态中用户标签体系,为多种营销场景提供高价值,高可用的客群精准定向服务。 渠道 口袋A 产品货架 搜索平台 广告系统 …… 系统架构 标签系统核心基于ES提供大容量数据存储和高效的查询服 务,同时支持DB, 消息数据,外部接口数据接入 标签数据 标签 系统 客户画像服务 客群圈选服务 客群画像分析 目前已经建立起客户维度的用户标签体系,拥有上千标 签,并在不断扩展。 标签每周被上百次的组合,百亿次的使用 多主题基础标签 实时标签 此外还有产品,信用卡,贷款等多个主题 外部标签 平台应用 数据 来源 标签系统通过接口方式为外部80个系统提供服务,覆盖口 袋A,行员A,爱客系统,UCP(微信端),BBC等主要 数据集市加工 分析模型 白名单标签 业务自有标签 实时消息 营销渠道 23
24. 案例3:标签系统-技术架构图 在线服务 标签数据 • 在线判定:30000+QPS,日服务量在15亿 • ES集群索引量在20Tb,单索引最大5Tb • 服务高可用:监控、限流、降级 • HiveToES 导数时间约2.5小时 • 整体数据时效T+17小时 • 客户标签高达20000+ 实 时 消 息 API服务 流 实时标签 E+ 规则 计算 离线基础标签宽表 客群判定 客群画像 Z+ 离线基础标签宽表 客群数据批 取 24
25. 潘多拉数据平台 —— 指标管理与指标消费的统一平台 以指标驱动分析,灵活高效  原子指标  派生指标  衍生指标  复杂指标  1分钟 找到数据  3分钟 创建看板  5分钟 挖掘价值 ✓ 营造 数据 生 态 ✓ 数据 资产治 理 ✓ 降 成 本 提 产能 25
26. 案例4:指标平台  实现自动跑批,节省50%ETL开发  支持数据模型的纬度笛卡尔加20亿+  节省80%重复跑批资源和80%重复存储空间  支持指标数5000+  实现亚秒级指标查询(非cache情况下指标平均查询响应时间  重复指标率<1% 1.5s,去重计数类指标平均为5.8s)  Cube数据膨胀率1.3倍,低于业界3.0倍的标准 Hive离线数据 查询引擎 统一构建服务 统一查询服务 指标应用 集市 视图管理 业务表 纬度管理 埋点数据 跑批管理 标签数据 Cube构 建 接入适配 指标平台构建 服务 redis kylin 命 中 cu be 查询 路由 clickhouse presto 指标平台统一 presto 查询服务 查 询 下 压 指标看板 智能预警 归因分析 相关性分析 指标搜索 26
27. 案例5:知识图谱 多维度数据融合,构建网络图谱 客户 信息 非金 信息 • 证件信息 • 住宅地址 • 单位地址 • 手机号 • 年龄 • 性别 • 设备类型 • IP信息 • GPS信息 • 涉案交易信息 • 设备指纹信息 • 伪冒授权交易案件 • 社交信息 • 外围卡片管制信息 • WIFI信息 • 信用卡交易信息 金融 信息 客户 信息 • 借记卡流水信息 • 网银交易信息 • 金融 创新支付信息 • 信息 贷款信息 • 事件池信息 欺诈风 非金融 险信息 信息 27
28. 案例5:知识图谱 业务能力 交易反欺诈 申请反欺诈 汽融贷款反欺诈 反洗钱/套现 •从身份证、银行卡等多种纬度对持 卡人的交易信息进行关联分析,输出 可疑人员和可疑交易 系统能力 关联反查 •根据某个或者多个可疑数据,通过关联反 查模块,查询其他数据 路径跟踪 •在当前图中查询任意两个实体的 •选中关系中查询实体的最短路径 •从身份证、手机号、家庭住址、单 位地址等多纬度对申请人进行关联分 析 •结合图规则,识别图中异常信息, 判断申请人信息的真实性和可靠性 血缘分析 •选中任意实体及相关关系,查询与该实体 有相同关系的实体 群体分析 •选中多个实体以及相关关系,查询这些实 体之间存在那些关系 •从身份证、经销商、车型等多维度 对贷款人进行关联分析,可视化识别 故意骗贷者、欺诈者和团伙预谋性骗 贷等 骨干分析 •当前网络图谱中查询最重要的实体 聚类分析 •引入聚类算法,扩展网络图谱 •追踪卡卡之间的交易路径,从源头 账户/卡号/商户等关联至最后的收款 方 •定义套现模式来识别洗钱/套现路径 和可疑人员 图规则 •通过定义图数据源和查询图,得到满足的 子图 统计分析 •统计当前网络图谱的实体和关系统计以及 实体和关系属性的统计 28
29. 案例5:知识图谱-架构图 OLTP  准亿级图数据:6500万关系,2500万实体  服务高可用:监控、限流 用户行为 和属性 ETL 查询实体和关系 图查询和 分析服务 (OLAP)  准实时计算:三步图因子平均计算时间260ms  异步计算:服务依赖因子结果,计算依赖Neo4j  实体入图:平均12.3ms  关系入图:平均12.7ms 汽融放款 实体和关系 基本信息 明细查 询 规 则 计 算 D+ 实体属性 OLAP  千亿级图数据:4800亿关系,1200亿实体  风险标签:20+ 因子结果 因子查 询  每天命中风险标签:5万+  多种图算法:骨干分析、最短路径等  多种布局算法:力导图布局、矩阵布局等 API服务(OLTP) 实时消息流 29
30. • 如何做好一个优秀的高并发应用服务 • 如何实现高并发、高存储的应用服务 • 如果快速检索多维Cube数据 • 如何构建图应用

ホーム - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 00:25
浙ICP备14020137号-1 $お客様$