多模态大模型在金融行业的实践和展望
如果无法正常显示,请先停止浏览器的去广告插件。
1. 多模态大模型在
金融行业的实践和展望
火山引擎金融解决方案总监 &
金融大模型负责人/周思霁
2.
3. 目录
1.海内外多模态大模型发展趋势洞察
2.多模态大模型技术深度解析
3.机遇与挑战,金融多模态大模型场景落地展望
4. 海内外多模态大模型发展趋势洞察
5. 大模型对各行业的影响深远、并逐渐走向多模态
文生文
文生图
文生视频
……
……
6. 多模态是大模型落地发展的必经之路
多模态数据无处不在,且加速增长
“据高通思科统计,2022年,视频流量占消费互联网总流量的82%。”
多模态协同更符合人类感知与表达方式
“看、听、说、读”
7. 当我们在说多模态大模型时,我们在说什么?
Sources: Gemini: A Family of Highly Capable Multimodal Models
8. 海内外多模态应用示例
GPT-4V
Gemini
Claude3
…
Runway
Pica
Suno
Remini
…
9. 多模态理解
以Google Gemini为例,原生多模态模型能够无缝理解和推理各种形式的输入,包括文本、图像、视频、音频和代码等。
10. 文生图
DALL-E 3
适用领域:
• 生成高分辨率、细节丰富的图像
• 支持复杂多主题提示,适合制作概念艺
术和插画
应用场景:
• 游戏和动画制作中的概念设计
• 产品设计和建筑可视化
• 科研和教育领域的图像生成
适用领域:
• 生成富有艺术性和创意的图像
• 支持多种艺术风格,如写实、抽象等
应用场景:
• 艺术创作和插画设计
• 广告和营销视觉内容制作
• 个人艺术爱好者的创作工具
适用领域:
• 擅长理解和呈现复杂文本描述
• 生成具有创意和想象力的图像
应用场景:
• 新闻和媒体图像生成
• 儿童读物和故事书插图
• 视觉艺术创作和实验
11. 文生视频
• 生成质量高:Runway的Gen-2模型在成像和美学质量
上较为领先。
• AI"魔法工具"套件:提供30多种AI工具,通过文
本、图像或视频生成编辑内容。
• 多功能生成编辑:支持多种内容生成编辑,简化数
字工作流程。
• 实时协作设计:支持团队实时协作,促进创意和多元
视角融合。
• 独特艺术风格:采用动画和程式化技术,使其输出具
有独特个性和吸引力。
• 擅长营销向内容:适合重视风格化和创造性的社交
媒体、市场营销和娱乐领域。
• 易于使用:Pika平台用户友好,让不同技能水平的创
作者都能轻松探索视频生成
• 高效逼真视频生成:利用“扩散变换器”在视频时
空补丁上高效生成逼真视频。
• 智能字幕扩展:GPT技术将用户提示扩展为详细字
幕,提供丰富视频上下文。
• 捕捉细节与动态:大量数据集训练,精准捕捉视频细
节和动态变化。
• 视频质量全面领先:在视频质量、成像、美学及动
态范围方面全面超越竞品。
12. AI音乐生成
AI音乐生成模型suno在发布V3版本后火爆出圈,只需要输入简单的提示词,比如音乐主题、风格、流派、歌词、音色
等, Suno就能快速生成一首长达2分钟的完整音乐
13. 多模态大模型技术深度解析
14. 多模态技术演进曲线浅析
•
•
•
输入空间从文本扩展到多模态
通过图文对进行输入空间的对齐
自然地通过LLM基座以文本方式进行输出
典型的文本到图像生成模型概述(截止到2023年7月)
典型MLLMs发展时间线(截止到2024年3月)
Sources: Multimodal Foundation Models: From Specialists to General-Purpose
Assistants,p29,Figure 3.2
视频生成模型与产品时间线(截止到2023年12月)
Sources:a16z 转引自新智元《AI 视频年大爆发:Gen-2 / Pika 成时代爆款,2023 年
AI 视频生成领域的现状全盘点》,华创证券
Sources: A Survey on Multimodal Large Language Models,p2,Figure 1
15. MLLM技术路径概述
编码器、连接器、LLM、生成器(多模态、可选)
多模态语义表示
Sources: Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-
training
指令微调
• 多模态指令调整(MIT)
• 多模态上下文学习(M-ICL)
• 多模态思想链(M-CoT)
• LLM辅助视觉推理(LAVR)
Sources: A Survey on Multimodal Large Language Models,p2,Figure 1
16. 从模态平等到以语言为中心
BLIP-2
SOURCE:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large
Language Models
MiniGPT4
SOURCE:MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING
WITH ADVANCED LARGE LANGUAGE MODELS
17. 多模态生成技术路径概述
扩散模型
Ø Stability Al-Stable Diffusion
Ø OpenAI-GLIDE, DALL-E2
Ø Google Imagen &Imagen 2
扩散模型
Ø Stability AI-Stable video
Ø DiffusionGoogle-Imagen Video
基于Transformer的自回归模型:
Ø Google-Parti
Ø OpenAI-DALL-E1
扩散模型+Transformer架构:
Ø OpenAI-DALL-E 3
基于Transformer的自回归模型:
Ø
Google-VideoPoet
扩散模型+Transformer架构:
Ø OpenAI-Sora
Ø Google-W.A.L.T
……
18. 从ViT到DiT,多模态生成的大一统架构出现了?
ViT
DiT
19. 机遇与挑战,金融多模态大模型场景落地展望
20. 金融行业多模态大模型应用场景
•
•
营销赋能
智能客服、助手
•
信息检索及总结 • 知识助手
• • 办公助手
报告生成
21. 多模态赋能企业客户服务
什么理财产品好,怎么购买?
智能客服
多意图、
多轮识别
理财产品的选择主要取决于您的投资目标、风险承受能
力、时间成本以及对投资品种的了解等因素。
流程指引
数据获取
文档检索、
接口调用
*多意图的统一、深度理解
*检索文档、调用数据接口并进
行统一回复。
产品名称 年化收益率 风险等级 起购金额
产品AA 7% R3 1000元
产品BB 3.5% R2 1元
>>如需购买,可点击链接跳转
信息检索
账户管理
对话引导
和风格化
润色
我能买吗?
当然可以买啦!不过在投资之前,记得做足功课,
*对话润色、合规回复 选好产品,适当分散风险。保持关注,及时调整
策略,祝您投资顺利!
22. 多模态赋能客户服务 – 更全面智能的服务能力
我在买基金的时候弹出了这个,我之前
都可以买的呀。
我登录不了,显示这个,怎么回事?
非常抱歉给您带来不便,根据国家相关
金融法律法规要求,用户确实需要定期
进行风险评估确定风险偏好等级后才能
购买理财产品。
风险评估的有效期是1年,一旦过期需
要重新评估后才能购买。请您理解,这
是为了确保您能够持续符合我们产品的
风险承受能力要求。
如果您之前可以购买但现在出现了这个
问题,可能是因为您的风险评估已经过
期。为了解决这个问题,您可以点击页
面上的“查看我的风险评估结果”按
钮,重新进行风险评估。在评估完成
后,您就可以正常购买基金了。
非常抱歉,由于您在登录时选择了人脸
识别,但系统未能识别您的面部特征,
因此无法成功登录。为了帮助您解决这
个问题,请您尝试以下解决方案:
调整光线:确保您所处的环境光线充
足,避免在强光或阴影下尝试人脸识
别。
重新定位:微微移动您的头部,确保摄
像头可以清晰地捕捉到您的面部特征。
等待片刻:有时候系统需要一点时间来
适应您的面部特征,您可以稍微等待一
下再进行尝试。
参考资料:
登录方式包括密码、人脸识别、手势
识别三种,人脸识别是调用手机的人
脸识别功能进行验证,失败原因可能
是因为识别时间过短、环境光线不足
参考资料:
根据国家相关金融法律法规要求,用
户需要定期进行风险评估确定风险偏
好等级后才能购买理财产品。风险评
估的有效期是1年,一旦过期需要重
新评估后才能购买
23. 多模态赋能客户服务 – 更拟人的交互形态
多模态交互数字人技术
将传统文本互动升级为数字人交互,把服务带到用
户面前,为用户和企业主提供“面对面,有人情味
儿”的专业服务。
个性化形象及音色
仅需要用户秒级别的音频数据即可即时完成对用户
音色、说话风格、口音和声学环境音的复刻。
24. 多模态赋能客户服务 – 运用全新自研语音算法MegaTTS
仅需要用户秒级别的音频数据即可即时完成对用户
音色、说话风格、口音和声学环境音的复刻。
当数据量在10秒到5分钟之间时,MegaTTS不仅可以在任
意来源的新用户的短提示下合成保同语音,而且始终优于基
于Fine-tuning的基线方法(Porta speech 2)。
25. 多模态赋能营销全流程
构建营销素材生成到分发的全链路能力,使用的频次越高、时间越久,模型生成效果越好,实现
生成质量提升的正循环
业务理
解与内
容洞察
转化数
据回收
数据飞轮
内容分
发
素材
生成
Prompt
知识库
26. 智能图片生成,生产效率提升超300%
背景替换
图片生成
文
案
生
图
图
片
风
格
化
一张长方形的
书桌上放着一
台笔记本电脑,
两三本书。书
桌靠着窗户,
桌上还有一些
绿植。时间是
傍晚,体现出
傍晚的阳光。
种
草
平
台
特
色
生
图
原图
小红书风格
原
图
赛博朋克
风格,重
金属
图
片
延
展
向
右
向下
生成一张高分辨率的海滩背景图,场景是一个阳
光明媚的下午,天空湛蓝,前景是细腻柔软的沙
滩
27. 可控视频生成,生产效率提升160%,非真人素材成本节约60%
28. 结合大语言模型形成个性化、可控视频生成
数字人名片
数字人计划书播报
数字人产品介绍
智能创作金融产品模板
29. 多模态赋能智能投研
分析框架
供货量
上游
价格 一键
收并购 查询
出货量 智能
价格 分析
产业链
下游
消费
投研数据
自动
总结
年报 经营分析 财务报告 财务辅助
行情 涨跌分析 量价分析 大宗交易
行业 行业对比 行业排名 行业预测
宏观政策 财务政策 货币政策 汇率变动
经营
分析
行业
对比
盈利
预测
30. 多模态赋能智能投研 – 提升信息理解能力
对研报、招股书、审计报告等文档的解构和识别,统一支持包括目录、
表格、图片、段落、标题等信息的识别和关键要素抽取
文字去水印
去除水印文字、去除背景LOGO、去除背景花纹
图片校正
倾斜校正、图像增强
图表解读
利用多模态理解技术,对K线、折线图、柱状图等图表进行理解
表格抽取
• 支持灵活定制各类表格抽取及分页合并;
• 以财务三大表为例,抽取准确率>95%,召回率>85%。
31. 多模态赋能智能投研 – 提升信息理解能力
多模态内容
多种核心算法结构化理解内容
视频
视频
视频分类模型
分析
关键帧
场景
品牌
企
业 企业识别 情感分析 产品识别
行
业 行业分类 行业政策 核心企业
环境管理 节能减排 环境污染
员工管理 产品信息 供应商
客户权益 公共关系 行政处罚
安全事故 政策扶持 官员变动
经营治理 企业形象 高层动态
生产销售 合同订单 财务风险
经营异常 监管关注 涉诉失信
资本运作 债务违约
音频、抽帧图片转文字
数据清洗
分析
消重模型
广告识别
音频
视频特征元素识别
人物
音频
图文
投研标签输出
旧闻模型
低质数据
语义分析
实体识别
事件聚合
情感分析 行业分类
信源等级 关键词提取
自然灾害
事
件
分
类
32. 多模态赋能数字员工 – 多模态知识检索
回答
用户
Q ue
s t io
n
向量化入库
Question+ Top N匹配内容
大模型
ChatGPT
向量数据库
降低训练成本
补充长短期记忆
更新知识库
多模态知识助手
Vector Database
企业自有知识库
33. 多模态赋能数字员工 – 提升业务流程效率
远程视频尽调和风控
智能资产巡检
34. 展望未来:多模态智能体
智能体设计模式
应用元信息
文献数据库
VectorDB
1.规划(Plan):LLM理解用户任务的具体要
专题数据集
人群队列
……
1. 模仿人类研发流程(需求思考→方案
Memory
求和目标。
设计→任务分解→方案开发→测试验
2.行动(Action&Do)阶段: 任务计划生产、
工具调用与执行、动态调整与优化
3.反馈与迭代(Check): 完成所有子任务
Tools
多模态
智能体
证)
Plan
2.智能体自主规划落地载体:提示词、知
识库、插件、工作流
后,评估最终结果;自我进化,以应对更复杂
的任务。
生成模式从人工定义到自主规划
3.*当前自主规划流程中仍需引入人工纠
Action
偏,以保障输出稳定性
35.
36.