北京银行金融人工智能应用平台建设与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 北京银行金融人工智能 应用平台建设与实践 1
2.
3. 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用
4. 1.1 项目背景: 人工智能技术是金融科技发展的重要推动力 国际形势 AI全球竞争加剧 • 自ChatGPT诞生到Sora走红,AI大模型技术引发 国家层面 构建人工智能增长引擎 • 人工智能是新一轮科技革命和产业变革的重要驱动 全球持续关注,掀起了第四次人工智能革命浪潮。 力量,加快发展新一代人工智能是我们赢得全球科 大模型呈现出来的智慧涌现能力,被认为不亚于 技竞争主动权的重要战略抓手,是推动我国科技跨 PC和互联网的诞生,将彻底改变产业形态和竞争 越发展、产业优化升级、生产力整体跃升的重要战 格局。 略资源。 •通用人工智能是全球科技竞争的焦点,也是中美科 技博弈和战略竞争的必争之地。未来的竞争力取决 于人工智能在日常业务中的应用。 我国在芯片、框架、基座模型等 AI生态上处于劣势 • 大模型在芯片、框架方面的建设生态不如英伟 达、cuda、Pytorch等国外产品。 《加快建设具有全球影响力的人 工智能创新策源地实施方案》 • 2023年5月提出,到2025年,本市人工智能技术 创新与产业发展进入新阶段,基础理论研究取得 突破,原始创新成果影响力不断提升,关键核心 行业层面 金融服务全生命周期智能化 • 2021年,人民银行发布《金融科技发展规划2022- 2025》 抓住全球人工智能发展新机遇,以人为本全面推进 智能技术在金融领域深化应用。着力打造场景感知、 人机协同、跨界融合的智慧金融新业态,实现金融 服务全生命周期智能化。 • 2022年,银保监会发布 《关于银行业保险业数字化转型的指导意见》 加强创新技术的前台应用,丰富智能金融场景。 技术基本实现自主可控。 “人工智能+”行动 政府工作报告 • 深化大数据、人工智能等研发应用,开展“人工 智能+”行动,打造具有国际竞争力的数字产业 集群。 3 •注重引进和培养金融、科技、数据复合型人才, 重点关注大数据、人工智能等专业领域。推动营 销、交易、服务、风控线上化智能化。
5. 1.2 项目背景: 金融行业大模型应用的难点 l美国政府半年来三次修改贸易政策,限制AI芯片、材料,甚至装有芯片的个人 电脑出口中国。 l英伟达限制中国AI芯片运行CUDA框架。 l90%的网络数据为国外产生或国外语言,ChatGPT使用的数据英文占92%,中 文不到1%。 l金融行业数据集较少,中文更少,内容主要是新闻和上市公司公告,内容单一。 l生成式模型输出不可控,在金融场景下表现未知。 l大模型金融应用测试验证困难,风险暴露不充分。 l端到端解决方案不够,降低使用场景充数。 4
6. 1.3 项目背景: 建设AIB——人工智能驱动的商业银行 2023年,北京银行提出了“B=IB+AIB”理念,并指出: “要加快 企业级数字化转型,用AI驱动构建面向未来的金融核心能力,推动经 营质效和客户体验的提升,为高质量发展注入新动能。秉持“一个银 行、一体数据、一体平台”的理念,聚焦人工智能技术的创新应用, 积极构建金融智能生态。” 5
7. 1.4 项目目标:建设以知识驱动的“大模型”应用体系 全面建设数字京行 发展模式 1 提高 运营效率 利用大模型驱动 RPA、数字人等 数字化技术重塑 业务流程,降低 成本,提升效率。 业务结构 2 精准 拓客营销 利用机器学习技 术,建设量化投 资组合、精准营 销、客户流失等 模型,助力获客、 活客、留客。 客户结构 3 营运能力 4 支持 产品创新 开放语音、图像、 文 字 识 别 等 AI 服 务 , 利 用 AI 技 术 促进智能化、数 字化产品创新应 用。 优化 客户服务 助力建设智慧金 融服务场景,为 一线客户经理提 供智能营销工具, 提升双客体验。 管理方式 5 加强 风险管理 建立量化风控模 型,依托模型实 验室和风险滤镜, 助力打造全面的 风险管理体系。 “大模型”+“小模型”双轮驱动 知识驱动的“大模型”应用体系 以数据驱动的“小模型”应用体系 6
8. 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用
9. 2.1 总体功能架构 场景应用 (应用) 服务中心 (服务) 北银投顾 初审报告生成 京信妙笔 尽调报告生成 会议纪要 流程开发 语音识别 视频分析 流程挖掘 文字识别 图像处理 模型管理 镜像管理 效果对比 京智助手 智能客服 法律合规 定制OCR识 别 定制文本识 别 模型共享 智能会议 知识图谱 虚拟数字人 指标查询 生成写作 智能决策 知识推理 多模态大模型 问答检索 任务执行 优化加速 安全加密 模型纳管 大模型分布式训练服 务 RLHF P-Tuning SFT Notebook 模型验证 AutoML 可视化建模 智能OCR 大规模分布式训练框架 高性能推理引擎 分布式建模 在线建模 量化分析 Prompt工程 插件管理 文本标注 交易信息 图片标注 产品信息 语音标注 行为信息 操作手册 行为信息 表管理 标注审核 服务注册 太乙 规章制度 字段管理 数据底座—数据沙箱(脱敏数据) 基础设施 (算力) 大模型推理服务 作业建模 京智大模型 NPU 存储统一接入 服务发布 雅意 应用接入 存储统一管理 8 计算资源接入 自动测评 特征监控 资源监控 服务启停 文心一言 知识库 产业研报 行外资讯 数据申请 节点管理 两级资源池 党建知识 客服数据 Data Analytics Engine(DAE) 计算资源管理 用户管理 项目管理 数据底座—数据安全屋(真实数据) 弹性扩缩 信息统计 效果监控 监控管理 组织权限 数据权限 系统消息 一个国产化算力底座 GPU 竞赛报名 云上纳管 作业调度 CPU 竞赛发布 模型下发 可视化分析 深度学习模型 边缘计 算 服务发布 特征探查 客户信息 特征平台 (数据) Agen t 自动化建模 机器学习模型 双录视频质检 语义理解 大模型开发 模型中心 (算法) 京行视窗 审计问题引证 公共服务 集群管理 邮件通知
10. 2.2 应用架构 精细管理 降本增效 以数据驱动的 以知识驱动的 小模型应用体系 大模型应用体系 写作 助手 京行 研究 校对 助手 会议 助手 财报 助手 智能 客服 京客 图谱 数币 银行 专精 特新 智能 合规 京行 策略 … 支行价值图谱 库 企业知识 机构价值图谱 京智13B大模型 京智130B大模型 … 建立基础模型应用平台,集约接入先进预训练大模型 千问大模型 智谱大模型 百川大模型 AIB 金融人工智能应用平台 9 雅意大模型 … 京智6B大模型 型 行业大模 建立行业模型,洞悉产业链价值链金融需求 分行价值图谱 场景 赋能 提供八大AI技术能力。 差旅 助手 总行价值图谱 算力中心 全栈人工智能中台, 视频 助手 建立全行知识管理平台,训练北京银行企业级大模型 算法中心 数据中心 表格 助手 运营 助手 场景应用 服务中心 客服 助手 … 建立金融场景应用平台,打造特定业务领域最强大脑 大模型 北银 投顾 京 智 大 脑 人 工 智 能 平 台 营销 助手 + 建立办公智能助理平台,实现全员AI Agent私人订制 小模型 营商环境 型 模 大 础 基
11. 2.3 技术架构 业务应用层 • 开放的大模型生态 审计 助手 AIB 支持多种行业主流大模型部署 研报 生成 模型层 应用,支持根据业务场景需要, 择优使用。 实体识别 应用层 知识问答 意图识别 京智6B 可将大模型与行内现有业务系 统、数据服务、办公系统无缝 数据清洗 雅意2 京智7B 京智13B L0:基础大模型 百川2 太乙 特征抽取 京智130B 向量化存储 规章制度 操作指引 监管政策 运营制度 研究报告 业务培训 行内数据 算力层 GPU NPU 模型层 支持国内、外主流模型部署, 框架层 依托京智大脑,构建大模型 数据层 整合行内外数据夯实数据基 基于主流开源大模型,。 GLM3 通义千问 数据层 • 内外联通数据体系 工商 司法 招投标 基于全行知识库、互联网资讯 财报 榜单 园区 数据、企业信用数据,为大模 企业数据 文档抽取 规、数据分析、协同办公等场 指标查询 框架层 Tokenization 探索AIGC在智能客服、法律合 景应用。 L1:金融行业模型 自主研发大模型插件集成框架, 型注入和更新知识。 尽调 报告 L2:场景任务模型 知识抽取 • 丰富的插件能力 集成。 指标 分析 会议 纪要 10 CPU 搜索增强 提示工程 金融资讯 百科 行业数据 产业链数据 互联网聚合数据 推理和训练平台。 础,建立金融数据集500亿 token。 算力层 建设国产化AI算力至资源池, 搭建智算网络。
12. 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用
13. 3.1 建设全栈国产化算力基座和训练框架,提升自主可控能力 全国产化算力 算力层面依托华为实验室昇腾910B在不同参数大模型适配 进展,采用全国产NPU算力,打造国产化算力集群,使我 行国产化算力增加一倍。 MindSpore昇思框架 框架层面基于MindSpore昇思框架,发挥硬件最大潜力, 达成模型实际性能,实现从单卡到集群的最大线性集成度, 云边端全场景高效部署,可降低40%迁移工作量。 智算网络 构建全行智算网络,实现在中心训练、在分行推理、在边 缘终端应用的模式,满足低延迟、高并发的AI推理应用需 求,AI算力的使用效率提升30%,模型部署效率提升45%。 12
14. 3.2 构建可信金融训练集 多维度金融数据集智能过滤技术 高可信混合式金融指令数据生成技术 利用全球多模态数据采集技术、金融文档解析技术、数据清洗技术、多维度智 能过滤去重技术、内容质量筛查技术,基于启发式规则过滤器、困惑度评分器、 基于多级别与精确匹配的级联去重器,构建高质量的金融数据集。 针对金融领域数据更新快、内容忠实性高、风险厌恶的特点,通过种子指令 扩张、背景数据混杂、拒答指令混杂、rag风格指令生成等技术,增加指令多 样性、提高模型信息忠实性、抗干扰能力。 13
15. 3.3 构建金融领域混合专家模型 l 节约推理资源:与传统模型 相比,在相同参数 量的条件下,混合专家模型推理速度提升25%。 l 提高模型准确性:通过集成多个专家模型,混 合专家模型能够综合各个模型的优点,在我行 金融数据测试集上,预测准确性提高15%。 l 灵活性和可扩展性:实现应用系统和具体模型 版本、数据的解绑,灵活的添加或调整专家模 型,给系统开发和维护增加灵活度。 l 处理复杂问题:对不同数据特征实现“专注”, 通过多专家模型,使得每类子问题都找到最优 的解决方案,提升了服务质量。 14
16. 3.4 建设大模型服务平台,降低大模型训推成本 大模型市场 1 更全面-打造全栈式工具链 • 提供基础配置、数据管理、模型训练、模型管理、模型部署、 预测服务、在线测试全链路工具能力,覆盖大模型全生命周期 , 高效实现端到端的大模型开发、训练和部署工作。 2 更高效-训推成本降低50% • 预置京智大模型和10个L0大模型能力,结合场景数据,可对 全栈工具链 大模型进行二次性能增强,提供三种自动化训练工具,优化模 型吞吐、降低模型尺寸、集成先进加速框架,实现模型推理速 度 的大服务提升,据 测 算 , 调 优 后 模型体 积 可 压缩 至 25%~50%,推理训练成本可降低50%。 3 更安全-集成多种安全机制 • 平台内置安全算子和高危词典安全过滤,保障输出内容安全, 并通过完善的鉴权与流控安全机制,全面严格的数据安全策略 和技术支撑体系,保障行内数据安全;安全合规的训练数据和 SFT多种训练方式,保障模型安全。 15
17. 3.5 建设Agent智能体应用能力,实现大模型应用能力快速对接 流程编排 Agent配置 插件建设 可继承行内现有能力或自主增加能力作为Agent 技能,促进基础技能、业务技能的不断沉淀与提 升。 工作流编排 对于逻辑复杂的多步骤任务场景,可灵活组装多 个节点,有稳定的输出结构,支持重复任务执行。 知识库构建 集成BGE、multilingual-e5-large等多个向量化 技能化 模型,可自主构建业务知识库。将业务数据进行 对话调试 沉淀,实现Agent感知和理解的功能。 Agent配置 基于主流开源大模型技术,实现Agent的自主思 考和行动能力。将Agent与知识相连接,同时发 展Agent各种技能,理解用户意图、进行任务规 划、任务分解,完成各种各样的业务任务。 多模型管理 可对接入的大模型,进行模型监控、日志管理、 16 权限管理、算力优化等全方位管理。
18. 3.6 自研搜索引擎,构建多元化金融知识库,提升大模型的安全性 1 可解释 2 可执行 3 自学习 4 高精度 5 低成本 依据知识搜索增强,生成内 根据用户意图,推荐各类智 自动更新语义向量库,实现 确保金额、数值、表述的准 对于80%以上的能力更新, 容,有引述有来源。 能中台服务,可直接执行。 模型知识自我更新。 确性。 无需对模型进行微调重训。 用低维向量对内容进行编码,并保留其特征含义 Em beddings 模型 用户问题 向量化 银行知识向量化 1 银行知识库 可解释 向量化后入库 知识结构化 3 自学习 规章制度 RPA流程 业务知识 图像识别服务 金融资讯 知识图谱服务 企业年报 外部数据服务 政策法规 查询向量库 输入问题 新闻时事 查询向量库 语义问答服务 Chat Bot 返回TopN条匹配知识 返回结果 向量数据库 返回TopN条匹配知识 用户桌面 4 高精度 回答生成 构建Prom pt 调用问答服务 向量化后入库 2 大语言模型 (7B/ 13B/ 1760B) 17 可执行 流程执行引擎 5 低成本
19. 3.7 建设数据安全标注环境,满足大模型数据标注安全 (1)数据安全保护态势日趋严格 2021年,《关键信息基础设施安全保护条例》、《数据安全法》、《个人信息 保护法》正式实施,与2017年已实施的《网络安全法》共同构建了“三法一条 数 据 安 全 屋 ︵ 运 维 ︶ 例”的数据安全保障网,此外《金融数据安全数据生命周期安全规范》等一系 列文件,也对数据安全治理做出相关补充。 (2)银行建设生产数据标注安全环境 ③ 数 据 安 全 屋 ︵ 运 行 ︶ 测 试 环 境 ︵ 运 行 ︶ 为满足各条线、分行对生产数据标准、模型训练、联合建模等需求,在顺义研 发中心建设数据安全屋,设置门禁、监控、设备存储柜等安全设备,为相关工 ② ⑤ 作提供独立、安全的物理环境,确保生产数据合规使用,避免数据泄露等安全 ⑥ 风险。 生 产 环 境 ︵ 运 维 ︶ 安全门禁 独立网络环境+终端控制 行为监控 18 ① 生 产 环 境 ︵ 运 行 ︶ ⑦ 测 试 环 境 ︵ 脱 敏 文 件 接 收 ︶ ④
20. 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用
21. 4.1 场景应用(一):“京信妙笔”智能报告工具 Ø基于大模型和知识库,利用AIGC技术结合业务场景实际情况,根据关键字和要求AI一键生成文档内容。提供多场景材料编 写能力,辅助一线员工快速、高效地编写文档。 step 1.选择业务模板 利用OCR技术,对用户上传的文档自 动分类、识别。 step 3.生成初审材料 上传资料后,点击一键生成,就看到 一份完整的初稿。 通过对话方式,让大模型收集知识体 系中的数据和图表,一键插入报告。 step 2.上传尽调报告 是用大模型对整篇或者指定部分进行 改写、扩写、缩写、风格化等。 通过智能校对算法,识别错别字、标 点语法错误等,提升质量。 20
22. 4.2 场景应用(二):智能会议助手工具 内容摘要 会 议 纪 要 生 成 要点导航 会议纪要生成 与我行云会议系统打通,一键式视频导入纪要生成能力,提供 各参会人讲话内容识别、情绪识别、重点讲话内容识别等多种 能力。 情绪 会议内容分析 会议内容 基于已生成的会议纪要,利用大模型问答能力,实现对会议内 容、参会人观点的问答总结和查询功能。 对话问答 关键信息提取 会 议 内 容 问 答 智能会议纪要提供会议重点内容导航,对于一生成的会议纪要 实现关键会议信息的提取和问答能力。 业务场景探索 智能会议纪要适用于我行多种会议场景,目前,智能会议纪要 已经在我行审贷会场景做了初步探索,取得较为理想的效果。 21
23. 4.3 场景应用(三):智能校对助手工具 全能力校对 提供3大校对类型、12种校对模型、27类全栈校对技术。 Ø文 字 标 点 差 错 校 对 : 错别字检查、语义重复、句式杂糅、句 子查重、语序错误等12类; Ø内 容 导 向 风 险 识 别 : 涉国家统一和主权领土完整、涉黄、涉 暴、涉民族宗教、涉敏感内容等6类; Ø知 识 性 差 错 校 对 : 地理名词、职务信息、时政重点词、法律 法规名称、重要讲话引用等9类。 全数据知识库 基于10亿级数据量专有知识库,4类权威参考文献作为校对标 准,提供快速的校对服务。 Ø系列专有数据库拥有大规模训练集 Ø权威参考文献优化训练专业领域知识图谱 高效校对体验 校对速度达1000字/秒 22
24. 北京银行 2024年8月 23

- 위키
Copyright © 2011-2025 iteam. Current version is 2.139.1. UTC+08:00, 2025-01-16 13:57
浙ICP备14020137号-1 $방문자$