众安金融特征中台建设
如果无法正常显示,请先停止浏览器的去广告插件。
1. 金融特征中台建设
2022年5月12日
2. 特征工程
是什么
特征工程是将原始数据转化
成更好的表达问题本质的特
征的过程,使得将这些特征
运用到预测模型中能提高对
不可见数据的模型预测精度。
居于对业务理解,找到对因
变量y有影响的自变量x。特
征工程是数据挖掘模型开发
中最耗时、最重要的一步。
特征挖掘 特征开发 特征服务
风控老师慧眼识金 开发团队精耕细作 提供特征的稳定服务
经过数据分析和处理,特征
提取和选择挖掘出有效的合
规的特征 根据特征的数据源不同,
通过对接三方,离线计算,
实时计算等方式进行特征
加工开发 通过特征平台为风控前筛,
反欺诈,风控决策提供风
控特征数据服务,实现特
征全生命周期的管理,进
行持续的监控和优化,确
保特征的稳定性和正确性
3. 特征中台核心指标
实时计算引擎
Flink
特征加工准确无误
性
准
确
特征数据实时可得
稳定性
高性能存储引擎
Tablestore
系统和计算可扩展
高
性
能
特征计算快速响应
系统功能平台化
微服务架构
4. 特征中台现状
A B C D
300+三方接口 50+实时特征任务 1万+特征总量 2000万/天调用
5. 特征中台业务架构图
零售-联营
前置系统
用户系统
机构-分润
信贷核心
机构-兜底
信保核心
资金平台
保险服务
额度系统
生活服务
...
保后系统
...
项目管理 策略管理 规则管理 变量管理 差错管理 任务监控 权限管理
卡件中心 案件管理 统计大盘 辅助工具 调额管理 案件回溯 ...
决策引擎
特征网关(鉴权限流,特征编排,数据路由)
特征配置
特征计算
三方特征 互斥特征
信贷特征 模型特征
特征管理
金融实时特征计算
反欺诈特征
离线特征
特征统计
特征管理 模型管理 特征链路 特征统计大盘
变量管理 预跑批管理 特征告警 效果分析统计
.... ....
....
....
特征监控
....
三方数据管理平台
风险名单系统
金融关系图谱
供应商管理 接口管理 名单管理 名单配置 图谱可视化 图计算
计费配置 调用管理 名单上传/同步 名单复核 图特征 社群发现
权限管理 ... 权限管理 ...
人行网关...
数据源(人行、三方、业务数据(保险/信贷)...)
离线/实时数仓...
....
三方数据...
6. 特征中台系统架构图
网关层
前台系统
决策系统
特征网关
数据接入层
特征计算层
特征组合层
三方数据
平台 三方特征
服务 反欺诈特
征服务 组合特征
服务 联合建模服
务
征信数据
网关 信贷特征
服务 关系图谱
服务 风控模型
服务 机器学习
平台
保后系统
数据集市
特征管理
平台
名单特征
服务
特征监控
平台
实时计算
平台
调度平台
特征中台是以微服务化构建的特征服务体系,数据来源主要是三方数据,征信数据,实时数据,离线数据,
通过三方特征服务,特征组合服务,模型服务提供特征计算的一个风控数据系统。
7. 特征网关核心功能
鉴权限流 n
n 应用维度的调用鉴权和token机制
应用维度的动态限流实现
业务编排 n
n 根据特征元数据配置信息路由到不同的特征数据源
根据特征类型调用报文解析服务,互斥特征服务,特征组合服务,模型服务等
标准接口 n
n 提供统一接口定义,支持同步和异步调用,单次和批量接口调用,内部异步化实现
以特征组+特征粒度为服务单元,确保同一个案件的生命周期内,同一特征组只计算一次
特征配置 n
n 特征后台提供了特征的需求管理,过程管理,结果管理,特征预跑批功能,模型管理,互斥管理
特征链路查询,特征的波动监控,特征的效果分析
8. 特征计算数据流图
三方特征
三方特征服务
反欺诈
贷前
贷中
特征网关
三方数据平台 百融 朴道 天翼
融360 移动 同盾
海纳 fico ...
人行数据网关 人行 中互金
数据集市 司内数据
内部特征
信贷特征服务
风控名单服务
业务库
大数据存储
离线特征服务 Graph DB
反欺诈特征服
务 NoSQL
业务事件
离线数仓
9. 三方数据平台
三方数据平台
Ø
三方数据接口配
置化接入
数据接入管理
数字资产管理
供应商管理
接口配置化
外部数据源
业务场景应用
加密解密
同盾
Ø
三方特征配置化
加工
百融
朴道
Ø
实时数据调用监
控
对
外
接
口
配
置
对
内
调
用
渠
道
管
理
数据校验
数据解析
数据缓存
....
预警管理
调用统计报表
产品营销
业务拓展
其他场景
数据计费
授权管理
风险控制
缓存管理
系统管理
10. 信贷特征服务
11. 信贷特征服务核心设计
功能特性
登录明细表
• Flink实时任务把明细数据和多维明细宽表
写入TableStore
• 使用TableStore的高性能点查能力支持灵
活和复杂的特征计算
• 抽象用户ID,身份证,手机号等用户实体
关系,结合业务数据进行多维查询
• 利用自定义特征计算引擎实现用户自助的
特征配置化加工
授信明细表
支用明细表
ID-Mapping
系
关
强
弱
关
系
逾期明细表
Entity-Mapping
entity_type
src_entity
des_entity
TableStore
额度明细表
NableGraph
12. 反欺诈特征服务
功能特性
Ø Flink+Nebula实现关
系图谱数据的实时存
储和使用,实时简易
社群算法实现,使用
GraphX实现社群算法
离线计算
Ø 使用TableStore的多
元索引和LBS函数实现
位置相关类反欺诈特
征的计算
Ø 多维时间粒度窗口统
计任务使用redis作为
source数据源,大窗
口数据使用bitmap状
态存储
13. 反欺诈特征类型
位置 设备 图谱 社群
识别 关联 关系 特性
1 GPS+GeoHash位置类型特征
2 同一设备关联的用户数业务数等实时数
据
3 关系图谱邻边关系:节点度数, 是否关
联黑灰名单等图谱特征
4 关系图谱社群大小,社群特性等社群特
征
14. 关系图谱实现路径
图数据源
图数据存储
图数据计算
相邻边
用户信息
Query
ETL
设备信息
联系人信息
三方信息
图数据应用
Flink
Nebula
Graph
最大路径/
最短路径
Spark GraphX PageRank
社群发现
风控决策
API
反欺诈
营销推荐
15. 图特征提取
疑似
中介
代办
疑似
信息
冒用
邻边
关系
图数
据
疑似
团伙
欺诈
第一
方欺
诈
社群
统计
特征
节点特征:
• 邻边关系:节点度数, 是否关联黑灰名单
• 第一方欺诈:申请多次,而且数据不一致
社群特征:
• 疑似中介代办:部分人使用了相同的联系人手机号
• 疑似信息冒用:一个手机号被很多人作为申请手机号
• 疑似团伙欺诈:社群的规模巨大
• 社群特征分布:年龄分布,消费预估水平分布,平均额度使
用率等
• 社群统计属性:群内节点类型数量和比例,群类黑灰名单数
量和比例等
16. 未来规划
流批一体 在线机器学习
01 02
17. THANKS
谢
谢
聆
听