多模态大模型在金融行业的实践和展望

如果无法正常显示，请先停止浏览器的去广告插件。

1. 多模态大模型在金融行业的实践和展望火山引擎金融解决方案总监 & 金融大模型负责人/周思霁

3. 目录 1.海内外多模态大模型发展趋势洞察 2.多模态大模型技术深度解析 3.机遇与挑战，金融多模态大模型场景落地展望

4. 海内外多模态大模型发展趋势洞察

5. 大模型对各行业的影响深远、并逐渐走向多模态文生文文生图文生视频 …… ……

6. 多模态是大模型落地发展的必经之路多模态数据无处不在，且加速增长 “据高通思科统计，2022年，视频流量占消费互联网总流量的82%。” 多模态协同更符合人类感知与表达方式 “看、听、说、读”

7. 当我们在说多模态大模型时，我们在说什么？ Sources: Gemini: A Family of Highly Capable Multimodal Models

8. 海内外多模态应用示例 GPT-4V Gemini Claude3 … Runway Pica Suno Remini …

9. 多模态理解以Google Gemini为例，原生多模态模型能够无缝理解和推理各种形式的输入,包括文本、图像、视频、音频和代码等。

10. 文生图 DALL-E 3 适用领域: • 生成高分辨率、细节丰富的图像 • 支持复杂多主题提示,适合制作概念艺术和插画应用场景: • 游戏和动画制作中的概念设计 • 产品设计和建筑可视化 • 科研和教育领域的图像生成适用领域: • 生成富有艺术性和创意的图像 • 支持多种艺术风格,如写实、抽象等应用场景: • 艺术创作和插画设计 • 广告和营销视觉内容制作 • 个人艺术爱好者的创作工具适用领域: • 擅长理解和呈现复杂文本描述 • 生成具有创意和想象力的图像应用场景: • 新闻和媒体图像生成 • 儿童读物和故事书插图 • 视觉艺术创作和实验

11. 文生视频 • 生成质量高：Runway的Gen-2模型在成像和美学质量上较为领先。 • AI"魔法工具"套件：提供30多种AI工具，通过文本、图像或视频生成编辑内容。 • 多功能生成编辑：支持多种内容生成编辑，简化数字工作流程。 • 实时协作设计：支持团队实时协作，促进创意和多元视角融合。 • 独特艺术风格：采用动画和程式化技术，使其输出具有独特个性和吸引力。 • 擅长营销向内容：适合重视风格化和创造性的社交媒体、市场营销和娱乐领域。 • 易于使用：Pika平台用户友好，让不同技能水平的创作者都能轻松探索视频生成 • 高效逼真视频生成：利用“扩散变换器”在视频时空补丁上高效生成逼真视频。 • 智能字幕扩展：GPT技术将用户提示扩展为详细字幕，提供丰富视频上下文。 • 捕捉细节与动态：大量数据集训练，精准捕捉视频细节和动态变化。 • 视频质量全面领先：在视频质量、成像、美学及动态范围方面全面超越竞品。

12. AI音乐生成 AI音乐生成模型suno在发布V3版本后火爆出圈，只需要输入简单的提示词，比如音乐主题、风格、流派、歌词、音色等， Suno就能快速生成一首长达2分钟的完整音乐

13. 多模态大模型技术深度解析

14. 多模态技术演进曲线浅析 • • • 输入空间从文本扩展到多模态通过图文对进行输入空间的对齐自然地通过LLM基座以文本方式进行输出典型的文本到图像生成模型概述（截止到2023年7月）典型MLLMs发展时间线（截止到2024年3月） Sources: Multimodal Foundation Models: From Specialists to General-Purpose Assistants,p29,Figure 3.2 视频生成模型与产品时间线（截止到2023年12月） Sources:a16z 转引自新智元《AI 视频年大爆发：Gen-2 / Pika 成时代爆款，2023 年 AI 视频生成领域的现状全盘点》，华创证券 Sources: A Survey on Multimodal Large Language Models,p2,Figure 1

15. MLLM技术路径概述编码器、连接器、LLM、生成器（多模态、可选）多模态语义表示 Sources: Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre- training 指令微调 • 多模态指令调整（MIT） • 多模态上下文学习（M-ICL） • 多模态思想链（M-CoT） • LLM辅助视觉推理（LAVR） Sources: A Survey on Multimodal Large Language Models,p2,Figure 1

16. 从模态平等到以语言为中心 BLIP-2 SOURCE：BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models MiniGPT4 SOURCE:MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS

17. 多模态生成技术路径概述扩散模型 Ø Stability Al-Stable Diffusion Ø OpenAI-GLIDE, DALL-E2 Ø Google Imagen &Imagen 2 扩散模型 Ø Stability AI-Stable video Ø DiffusionGoogle-Imagen Video 基于Transformer的自回归模型： Ø Google-Parti Ø OpenAI-DALL-E1 扩散模型+Transformer架构： Ø OpenAI-DALL-E 3 基于Transformer的自回归模型： Ø Google-VideoPoet 扩散模型+Transformer架构： Ø OpenAI-Sora Ø Google-W.A.L.T ……

18. 从ViT到DiT，多模态生成的大一统架构出现了？ ViT DiT

19. 机遇与挑战，金融多模态大模型场景落地展望

20. 金融行业多模态大模型应用场景 • • 营销赋能智能客服、助手 • 信息检索及总结 • 知识助手 • • 办公助手报告生成

21. 多模态赋能企业客户服务什么理财产品好，怎么购买？智能客服多意图、多轮识别理财产品的选择主要取决于您的投资目标、风险承受能力、时间成本以及对投资品种的了解等因素。流程指引数据获取文档检索、接口调用 *多意图的统一、深度理解 *检索文档、调用数据接口并进行统一回复。产品名称年化收益率风险等级起购金额产品AA 7% R3 1000元产品BB 3.5% R2 1元 >>如需购买，可点击链接跳转信息检索账户管理对话引导和风格化润色我能买吗？当然可以买啦！不过在投资之前，记得做足功课， *对话润色、合规回复选好产品，适当分散风险。保持关注，及时调整策略，祝您投资顺利！

22. 多模态赋能客户服务 – 更全面智能的服务能力我在买基金的时候弹出了这个，我之前都可以买的呀。我登录不了，显示这个，怎么回事？非常抱歉给您带来不便，根据国家相关金融法律法规要求，用户确实需要定期进行风险评估确定风险偏好等级后才能购买理财产品。风险评估的有效期是1年，一旦过期需要重新评估后才能购买。请您理解，这是为了确保您能够持续符合我们产品的风险承受能力要求。如果您之前可以购买但现在出现了这个问题，可能是因为您的风险评估已经过期。为了解决这个问题，您可以点击页面上的“查看我的风险评估结果”按钮，重新进行风险评估。在评估完成后，您就可以正常购买基金了。非常抱歉，由于您在登录时选择了人脸识别，但系统未能识别您的面部特征，因此无法成功登录。为了帮助您解决这个问题，请您尝试以下解决方案：调整光线：确保您所处的环境光线充足，避免在强光或阴影下尝试人脸识别。重新定位：微微移动您的头部，确保摄像头可以清晰地捕捉到您的面部特征。等待片刻：有时候系统需要一点时间来适应您的面部特征，您可以稍微等待一下再进行尝试。参考资料：登录方式包括密码、人脸识别、手势识别三种，人脸识别是调用手机的人脸识别功能进行验证，失败原因可能是因为识别时间过短、环境光线不足参考资料：根据国家相关金融法律法规要求，用户需要定期进行风险评估确定风险偏好等级后才能购买理财产品。风险评估的有效期是1年，一旦过期需要重新评估后才能购买

23. 多模态赋能客户服务 – 更拟人的交互形态多模态交互数字人技术将传统文本互动升级为数字人交互，把服务带到用户面前，为用户和企业主提供“面对面，有人情味儿”的专业服务。个性化形象及音色仅需要用户秒级别的音频数据即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。

24. 多模态赋能客户服务 – 运用全新自研语音算法MegaTTS 仅需要用户秒级别的音频数据即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。当数据量在10秒到5分钟之间时，MegaTTS不仅可以在任意来源的新用户的短提示下合成保同语音，而且始终优于基于Fine-tuning的基线方法（Porta speech 2）。

25. 多模态赋能营销全流程构建营销素材生成到分发的全链路能力，使用的频次越高、时间越久，模型生成效果越好，实现生成质量提升的正循环业务理解与内容洞察转化数据回收数据飞轮内容分发素材生成 Prompt 知识库

26. 智能图片生成，生产效率提升超300% 背景替换图片生成文案生图图片风格化一张长方形的书桌上放着一台笔记本电脑，两三本书。书桌靠着窗户，桌上还有一些绿植。时间是傍晚，体现出傍晚的阳光。种草平台特色生图原图小红书风格原图赛博朋克风格，重金属图片延展向右向下生成一张高分辨率的海滩背景图，场景是一个阳光明媚的下午，天空湛蓝，前景是细腻柔软的沙滩

27. 可控视频生成，生产效率提升160%，非真人素材成本节约60%

28. 结合大语言模型形成个性化、可控视频生成数字人名片数字人计划书播报数字人产品介绍智能创作金融产品模板

29. 多模态赋能智能投研分析框架供货量上游价格一键收并购查询出货量智能价格分析产业链下游消费投研数据自动总结年报经营分析财务报告财务辅助行情涨跌分析量价分析大宗交易行业行业对比行业排名行业预测宏观政策财务政策货币政策汇率变动经营分析行业对比盈利预测

30. 多模态赋能智能投研 – 提升信息理解能力对研报、招股书、审计报告等文档的解构和识别，统一支持包括目录、表格、图片、段落、标题等信息的识别和关键要素抽取文字去水印去除水印文字、去除背景LOGO、去除背景花纹图片校正倾斜校正、图像增强图表解读利用多模态理解技术，对K线、折线图、柱状图等图表进行理解表格抽取 • 支持灵活定制各类表格抽取及分页合并； • 以财务三大表为例，抽取准确率>95%，召回率>85%。

31. 多模态赋能智能投研 – 提升信息理解能力多模态内容多种核心算法结构化理解内容视频视频视频分类模型分析关键帧场景品牌企业企业识别情感分析产品识别行业行业分类行业政策核心企业环境管理节能减排环境污染员工管理产品信息供应商客户权益公共关系行政处罚安全事故政策扶持官员变动经营治理企业形象高层动态生产销售合同订单财务风险经营异常监管关注涉诉失信资本运作债务违约音频、抽帧图片转文字数据清洗分析消重模型广告识别音频视频特征元素识别人物音频图文投研标签输出旧闻模型低质数据语义分析实体识别事件聚合情感分析行业分类信源等级关键词提取自然灾害事件分类

32. 多模态赋能数字员工 – 多模态知识检索回答用户 Q ue s t io n 向量化入库 Question+ Top N匹配内容大模型 ChatGPT 向量数据库降低训练成本补充长短期记忆更新知识库多模态知识助手 Vector Database 企业自有知识库

33. 多模态赋能数字员工 – 提升业务流程效率远程视频尽调和风控智能资产巡检

34. 展望未来：多模态智能体智能体设计模式应用元信息文献数据库 VectorDB 1.规划（Plan）：LLM理解用户任务的具体要专题数据集人群队列 …… 1. 模仿人类研发流程（需求思考→方案 Memory 求和目标。设计→任务分解→方案开发→测试验 2.行动（Action&Do）阶段：任务计划生产、工具调用与执行、动态调整与优化 3.反馈与迭代（Check）：完成所有子任务 Tools 多模态智能体证） Plan 2.智能体自主规划落地载体：提示词、知识库、插件、工作流后，评估最终结果；自我进化，以应对更复杂的任务。生成模式从人工定义到自主规划 3.*当前自主规划流程中仍需引入人工纠 Action 偏，以保障输出稳定性

35.

36.