金融领域大模型数据集管理与应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:史鑫鑫
蚂蚁集团 / 大安全 数据研发专家
2. 01 引言与背景
02 智能数据管理
03 CoT思维链数据工厂
04 多模态数据管理与应用
05 业务场景应用案例分享
06 总结与展望
3.
4. 01
5. 人工智能的三架马车
结构化 非结构化 Transformer A100
图片 音频 Vision Transformer H100
Diffusion Transformer H800
视频
其他
MoE
数据
算法
算力
6. 小模型到大模型的变迁
小模型
策略
业务知识
大模型
专家经验
模型
LLM
知识
模型
NN
CV
XGBoost
数据
特征
用户
交易
设备
VLLM
MoE
业务数据
作案手法 用户特征 交易时间
业务知识 对手特征 支付方式
策略 设备 行为序列
法律法规 网络 …
7. Data-Centric AI
Data(V1)
DCAI(Data-Centric AI)是一种大模
型研发范式,其以高质量数据集为核心
Data(V2)
Data(V3)
迭代大模型的性能。
8. 金融大模型数据
交易数据
交易方、商品、时间、地点
设备数据
型号、OS、网络
用户数据
性别、年龄、常住地
业务知识
法律法规、作案手法
9. ➢ 业务复杂、数据分散在不同的业务场景、数据看不全、看不清
➢ 数据存在孤岛、重复使用困难
➢ 数据存储和计算与大模型训练平台之间链路长、应用效率低
➢ 在重点业务场景,数据精细化运营困难
10. 02
11. 关键问题
➢ 看清、看全业务数据 ✓ 以数据集、数据专题的数据管理能力
➢ 打破数据孤岛,加速数据流通 ✓ 统一数据管理平台
➢ 提升数据应用效率 ✓ 打通数据应用上下游关键链路,让数据应用走上“高速路”
➢ 标签化管理的精细化数据运营 ✓ 重点业务场景数据,精细化打标,实现数据标签化运营
12. 数据管理体系
点
数据集
交易
面
样本库
专题
资金风控
资金风控
内容风控
特征
内容风控
图/文/音/视
…
…
样本湖
13. 数据集
◆ 看清安全域数据集/样本库/知识库全貌
① 核心板块:列表页,详情页(简介、详情、下载);
② 功能列表:数据集注册,编辑,标签级连,预览,权限管理,高敏内容处理,核心数据更新(浏览、下载等),样本量级;
全
14. 样本库
◆ 聚焦核心数据集应用:秒级样本精细化标签体系分析与策略运营,一键对接各业务系统
①
能力建设:标签体系自定义;样本列表模板化;列表样式模板化;功能标准化(增/删/查/改/接口/上传);内嵌页模板化;数据回流
标准化;
②
深
功能列表:样本上传,编辑,标签管理,高敏内容处理,系统对接,帮助文档。
15. 标签化数据管理
业务标签
• 性别
主体
• 年龄
基础标签
文本
• Token数
• 语种
• 省份
设备
• 型号
图片 • 分辨率
视频 • 分辨率
• 大小
• 系统版本
• 可信
• 时长
• 金额
交易
• 时间
• 双方关系
音频
• 码率
• 比特率
16. “0”代码数据管理产品化
标签管理
业务标签、通用标签
应用系统配置
线上应用、训练、评测
可视化配置
展示形式、布局
权限管控
审计、数据安全
17. 03
18. 设计理念
上下文构造
数据科学
模型评估
样本合成
模型训练
“飞轮”驱动的数据研发,加速大模型应用落地
19. CoT构建车间
流程编排
• 业务数据
批量生产
任务队列 训练样本
任务1 样本集1
任务2 样本集2
• 知识库
上下文构造
• 专家经验
• 大模型生成
思维链生成 • 数据合成
任务3
任
务
调
度
样本集3
• 基于AI的数据质量评估体系
质量管理
… …
任务N 样本集N
• 小批量快速验证
效果评估
• 数据科学体系
20. 长上下文构造
原始样本集
业务数据仓库
Q
主体画像
A
行为序列
上下文
业务数据
系统日志
角色
核心数据
场景
指令
输出格式
样本
Target
Q Filter 筛选高质量样本
业务输入
难度过滤器
质量过滤器
1
多样性采样器
prompt
Model Based
Rule Based
指令定义 输出定义
角色定义 场景定义
2
RAG 样本领域知识补齐
实体识别
检索
知识库
3
LLM总结
输入样本集
名词解释 法律法规
业务知识 业务报告
A
Q
上下文
角色
指令
场景
核心数据
输出格式
补充知识
样本
Target
21. CoT样本质量管理
多样性控制
• 业务场景覆盖全
难度分层
• 高
逻辑核验
格式校验
• 中
• 低
• 思考过程准确性
• 语言一致性
• 格式正确
22. CoT样本构建
简单模版
复杂模版
➢ “手搓”CoT进化到自动化、流程化
➢ 高质量CoT样本构建进入日产十万+,解决业
务CoT样本慌的问题
➢ 样本产出到模型训练进入流程化
23. 04
24. 缓存
•
•
•
•
•
表格
JSON
CSV
Excel
富文本
结构化/半结构化
数据湖
•
•
•
长图
横图
JPG、PNG、WebP
图片
•
•
•
长视频
短视频
MP4、MOV、AVI、WebM
视频
OSS
•
•
•
长音频、短音频
纯音乐
单人、多人
音频
25. 标签检索
业务标签、内容标签
数据应用
模型训练、评估
可视化
检索、结构化
权限管控
数据安全、合规
26. 业务数据
AI预标注 质量过滤 人工标注
数据应用 入库 特征提取
业务系统
模型训练
…
27. 05
28. 资金风控场景大模型数据管理
欺诈
策略1
条件1
策略2
条件2
...
策略N
条件N
思
维
链
构
建
主体
交易
特征
设备
…
业务知识
切片
知识点
RAG
29. 资金风控场景CoT构造案例
➢ 风险管控策略语义化,将专家经验及业务知识转化为文本内容,制定模型思考框架
➢ 业务特征语义化,数字化特征语义化,转化为模型可理解的内容,为模型提供关键判断依据
30. 内容风控场景多模态数据管理
风险样本
模型训练
数据服务
质量管理
数据ETL
标注
截帧
切片
特征提取 结构化 半结构化
书籍 合成数据 法律法规
数据源
业务数据
开源数据
影视作品
31. 06
32. 总结与展望
➢ 数据管理:从「杂乱无章」到「整齐划一」的提升
➢ 数据生产革命:从「人工标注」到「AI增强闭环」,从「纯手工」到「工业化」
➢ 数据质量评估体系:从「准确」到「高质量」
➢ 数据应用效率:从「天」到「秒」的提升
33. 希望您能收获
➢ 大模型数据进行数据集、专题、样本库分层数据管理理念
➢ 标签化数据管理方式为业务带来数据应用带来的效率提升
➢ AI+的方式提升大模型数据生产效率
数据管理体系
专
题
样
本
库
“
手
搓
”
数
据
集
数据生产
流
水
线
34.
35. 探索 AI 应用边界
Explore the limits of AI applications