北京银行金融人工智能应用平台建设与实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 北京银行金融人工智能应用平台建设与实践 1

3. 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用

4. 1.1 项目背景：人工智能技术是金融科技发展的重要推动力国际形势 AI全球竞争加剧 • 自ChatGPT诞生到Sora走红，AI大模型技术引发国家层面构建人工智能增长引擎 • 人工智能是新一轮科技革命和产业变革的重要驱动全球持续关注，掀起了第四次人工智能革命浪潮。力量，加快发展新一代人工智能是我们赢得全球科大模型呈现出来的智慧涌现能力，被认为不亚于技竞争主动权的重要战略抓手，是推动我国科技跨 PC和互联网的诞生，将彻底改变产业形态和竞争越发展、产业优化升级、生产力整体跃升的重要战格局。略资源。 •通用人工智能是全球科技竞争的焦点，也是中美科技博弈和战略竞争的必争之地。未来的竞争力取决于人工智能在日常业务中的应用。我国在芯片、框架、基座模型等 AI生态上处于劣势 • 大模型在芯片、框架方面的建设生态不如英伟达、cuda、Pytorch等国外产品。《加快建设具有全球影响力的人工智能创新策源地实施方案》 • 2023年5月提出，到2025年，本市人工智能技术创新与产业发展进入新阶段，基础理论研究取得突破，原始创新成果影响力不断提升，关键核心行业层面金融服务全生命周期智能化 • 2021年，人民银行发布《金融科技发展规划2022- 2025》抓住全球人工智能发展新机遇，以人为本全面推进智能技术在金融领域深化应用。着力打造场景感知、人机协同、跨界融合的智慧金融新业态，实现金融服务全生命周期智能化。 • 2022年，银保监会发布《关于银行业保险业数字化转型的指导意见》加强创新技术的前台应用，丰富智能金融场景。技术基本实现自主可控。 “人工智能+”行动政府工作报告 • 深化大数据、人工智能等研发应用，开展“人工智能+”行动，打造具有国际竞争力的数字产业集群。 3 •注重引进和培养金融、科技、数据复合型人才，重点关注大数据、人工智能等专业领域。推动营销、交易、服务、风控线上化智能化。

5. 1.2 项目背景：金融行业大模型应用的难点 l美国政府半年来三次修改贸易政策，限制AI芯片、材料，甚至装有芯片的个人电脑出口中国。 l英伟达限制中国AI芯片运行CUDA框架。 l90%的网络数据为国外产生或国外语言，ChatGPT使用的数据英文占92%，中文不到1%。 l金融行业数据集较少，中文更少，内容主要是新闻和上市公司公告，内容单一。 l生成式模型输出不可控，在金融场景下表现未知。 l大模型金融应用测试验证困难，风险暴露不充分。 l端到端解决方案不够，降低使用场景充数。 4

6. 1.3 项目背景：建设AIB——人工智能驱动的商业银行 2023年，北京银行提出了“B=IB+AIB”理念，并指出: “要加快企业级数字化转型，用AI驱动构建面向未来的金融核心能力，推动经营质效和客户体验的提升，为高质量发展注入新动能。秉持“一个银行、一体数据、一体平台”的理念，聚焦人工智能技术的创新应用，积极构建金融智能生态。” 5

7. 1.4 项目目标：建设以知识驱动的“大模型”应用体系全面建设数字京行发展模式 1 提高运营效率利用大模型驱动 RPA、数字人等数字化技术重塑业务流程，降低成本，提升效率。业务结构 2 精准拓客营销利用机器学习技术，建设量化投资组合、精准营销、客户流失等模型，助力获客、活客、留客。客户结构 3 营运能力 4 支持产品创新开放语音、图像、文字识别等 AI 服务，利用 AI 技术促进智能化、数字化产品创新应用。优化客户服务助力建设智慧金融服务场景，为一线客户经理提供智能营销工具，提升双客体验。管理方式 5 加强风险管理建立量化风控模型，依托模型实验室和风险滤镜，助力打造全面的风险管理体系。 “大模型”+“小模型”双轮驱动知识驱动的“大模型”应用体系以数据驱动的“小模型”应用体系 6

8. 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用

9. 2.1 总体功能架构场景应用 (应用) 服务中心（服务）北银投顾初审报告生成京信妙笔尽调报告生成会议纪要流程开发语音识别视频分析流程挖掘文字识别图像处理模型管理镜像管理效果对比京智助手智能客服法律合规定制OCR识别定制文本识别模型共享智能会议知识图谱虚拟数字人指标查询生成写作智能决策知识推理多模态大模型问答检索任务执行优化加速安全加密模型纳管大模型分布式训练服务 RLHF P-Tuning SFT Notebook 模型验证 AutoML 可视化建模智能OCR 大规模分布式训练框架高性能推理引擎分布式建模在线建模量化分析 Prompt工程插件管理文本标注交易信息图片标注产品信息语音标注行为信息操作手册行为信息表管理标注审核服务注册太乙规章制度字段管理数据底座—数据沙箱（脱敏数据）基础设施（算力）大模型推理服务作业建模京智大模型 NPU 存储统一接入服务发布雅意应用接入存储统一管理 8 计算资源接入自动测评特征监控资源监控服务启停文心一言知识库产业研报行外资讯数据申请节点管理两级资源池党建知识客服数据 Data Analytics Engine（DAE）计算资源管理用户管理项目管理数据底座—数据安全屋（真实数据）弹性扩缩信息统计效果监控监控管理组织权限数据权限系统消息一个国产化算力底座 GPU 竞赛报名云上纳管作业调度 CPU 竞赛发布模型下发可视化分析深度学习模型边缘计算服务发布特征探查客户信息特征平台（数据） Agen t 自动化建模机器学习模型双录视频质检语义理解大模型开发模型中心（算法）京行视窗审计问题引证公共服务集群管理邮件通知

10. 2.2 应用架构精细管理降本增效以数据驱动的以知识驱动的小模型应用体系大模型应用体系写作助手京行研究校对助手会议助手财报助手智能客服京客图谱数币银行专精特新智能合规京行策略 … 支行价值图谱库企业知识机构价值图谱京智13B大模型京智130B大模型 … 建立基础模型应用平台，集约接入先进预训练大模型千问大模型智谱大模型百川大模型 AIB 金融人工智能应用平台 9 雅意大模型 … 京智6B大模型型行业大模建立行业模型，洞悉产业链价值链金融需求分行价值图谱场景赋能提供八大AI技术能力。差旅助手总行价值图谱算力中心全栈人工智能中台，视频助手建立全行知识管理平台，训练北京银行企业级大模型算法中心数据中心表格助手运营助手场景应用服务中心客服助手 … 建立金融场景应用平台，打造特定业务领域最强大脑大模型北银投顾京智大脑人工智能平台营销助手 + 建立办公智能助理平台，实现全员AI Agent私人订制小模型营商环境型模大础基

11. 2.3 技术架构业务应用层 • 开放的大模型生态审计助手 AIB 支持多种行业主流大模型部署研报生成模型层应用，支持根据业务场景需要，择优使用。实体识别应用层知识问答意图识别京智6B 可将大模型与行内现有业务系统、数据服务、办公系统无缝数据清洗雅意2 京智7B 京智13B L0：基础大模型百川2 太乙特征抽取京智130B 向量化存储规章制度操作指引监管政策运营制度研究报告业务培训行内数据算力层 GPU NPU 模型层支持国内、外主流模型部署，框架层依托京智大脑，构建大模型数据层整合行内外数据夯实数据基基于主流开源大模型，。 GLM3 通义千问数据层 • 内外联通数据体系工商司法招投标基于全行知识库、互联网资讯财报榜单园区数据、企业信用数据，为大模企业数据文档抽取规、数据分析、协同办公等场指标查询框架层 Tokenization 探索AIGC在智能客服、法律合景应用。 L1：金融行业模型自主研发大模型插件集成框架，型注入和更新知识。尽调报告 L2：场景任务模型知识抽取 • 丰富的插件能力集成。指标分析会议纪要 10 CPU 搜索增强提示工程金融资讯百科行业数据产业链数据互联网聚合数据推理和训练平台。础，建立金融数据集500亿 token。算力层建设国产化AI算力至资源池，搭建智算网络。

12. 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用

13. 3.1 建设全栈国产化算力基座和训练框架，提升自主可控能力全国产化算力算力层面依托华为实验室昇腾910B在不同参数大模型适配进展，采用全国产NPU算力，打造国产化算力集群，使我行国产化算力增加一倍。 MindSpore昇思框架框架层面基于MindSpore昇思框架，发挥硬件最大潜力，达成模型实际性能，实现从单卡到集群的最大线性集成度，云边端全场景高效部署，可降低40%迁移工作量。智算网络构建全行智算网络，实现在中心训练、在分行推理、在边缘终端应用的模式，满足低延迟、高并发的AI推理应用需求，AI算力的使用效率提升30%，模型部署效率提升45%。 12

14. 3.2 构建可信金融训练集多维度金融数据集智能过滤技术高可信混合式金融指令数据生成技术利用全球多模态数据采集技术、金融文档解析技术、数据清洗技术、多维度智能过滤去重技术、内容质量筛查技术，基于启发式规则过滤器、困惑度评分器、基于多级别与精确匹配的级联去重器，构建高质量的金融数据集。针对金融领域数据更新快、内容忠实性高、风险厌恶的特点，通过种子指令扩张、背景数据混杂、拒答指令混杂、rag风格指令生成等技术，增加指令多样性、提高模型信息忠实性、抗干扰能力。 13

15. 3.3 构建金融领域混合专家模型 l 节约推理资源：与传统模型相比，在相同参数量的条件下，混合专家模型推理速度提升25%。 l 提高模型准确性：通过集成多个专家模型，混合专家模型能够综合各个模型的优点，在我行金融数据测试集上，预测准确性提高15%。 l 灵活性和可扩展性：实现应用系统和具体模型版本、数据的解绑，灵活的添加或调整专家模型，给系统开发和维护增加灵活度。 l 处理复杂问题：对不同数据特征实现“专注”，通过多专家模型，使得每类子问题都找到最优的解决方案，提升了服务质量。 14

16. 3.4 建设大模型服务平台，降低大模型训推成本大模型市场 1 更全面-打造全栈式工具链 • 提供基础配置、数据管理、模型训练、模型管理、模型部署、预测服务、在线测试全链路工具能力，覆盖大模型全生命周期，高效实现端到端的大模型开发、训练和部署工作。 2 更高效-训推成本降低50% • 预置京智大模型和10个L0大模型能力，结合场景数据，可对全栈工具链大模型进行二次性能增强，提供三种自动化训练工具，优化模型吞吐、降低模型尺寸、集成先进加速框架，实现模型推理速度的大服务提升，据测算，调优后模型体积可压缩至 25%~50%，推理训练成本可降低50%。 3 更安全-集成多种安全机制 • 平台内置安全算子和高危词典安全过滤，保障输出内容安全，并通过完善的鉴权与流控安全机制，全面严格的数据安全策略和技术支撑体系，保障行内数据安全；安全合规的训练数据和 SFT多种训练方式，保障模型安全。 15

17. 3.5 建设Agent智能体应用能力，实现大模型应用能力快速对接流程编排 Agent配置插件建设可继承行内现有能力或自主增加能力作为Agent 技能，促进基础技能、业务技能的不断沉淀与提升。工作流编排对于逻辑复杂的多步骤任务场景，可灵活组装多个节点，有稳定的输出结构，支持重复任务执行。知识库构建集成BGE、multilingual-e5-large等多个向量化技能化模型，可自主构建业务知识库。将业务数据进行对话调试沉淀，实现Agent感知和理解的功能。 Agent配置基于主流开源大模型技术，实现Agent的自主思考和行动能力。将Agent与知识相连接，同时发展Agent各种技能，理解用户意图、进行任务规划、任务分解，完成各种各样的业务任务。多模型管理可对接入的大模型，进行模型监控、日志管理、 16 权限管理、算力优化等全方位管理。

18. 3.6 自研搜索引擎，构建多元化金融知识库，提升大模型的安全性 1 可解释 2 可执行 3 自学习 4 高精度 5 低成本依据知识搜索增强，生成内根据用户意图，推荐各类智自动更新语义向量库，实现确保金额、数值、表述的准对于80%以上的能力更新，容，有引述有来源。能中台服务，可直接执行。模型知识自我更新。确性。无需对模型进行微调重训。用低维向量对内容进行编码，并保留其特征含义 Em beddings 模型用户问题向量化银行知识向量化 1 银行知识库可解释向量化后入库知识结构化 3 自学习规章制度 RPA流程业务知识图像识别服务金融资讯知识图谱服务企业年报外部数据服务政策法规查询向量库输入问题新闻时事查询向量库语义问答服务 Chat Bot 返回TopN条匹配知识返回结果向量数据库返回TopN条匹配知识用户桌面 4 高精度回答生成构建Prom pt 调用问答服务向量化后入库 2 大语言模型（7B/ 13B/ 1760B） 17 可执行流程执行引擎 5 低成本

19. 3.7 建设数据安全标注环境，满足大模型数据标注安全（1）数据安全保护态势日趋严格 2021年，《关键信息基础设施安全保护条例》、《数据安全法》、《个人信息保护法》正式实施，与2017年已实施的《网络安全法》共同构建了“三法一条数据安全屋︵运维︶例”的数据安全保障网，此外《金融数据安全数据生命周期安全规范》等一系列文件，也对数据安全治理做出相关补充。（2）银行建设生产数据标注安全环境 ③ 数据安全屋︵运行︶测试环境︵运行︶为满足各条线、分行对生产数据标准、模型训练、联合建模等需求，在顺义研发中心建设数据安全屋，设置门禁、监控、设备存储柜等安全设备，为相关工 ② ⑤ 作提供独立、安全的物理环境，确保生产数据合规使用，避免数据泄露等安全 ⑥ 风险。生产环境︵运维︶安全门禁独立网络环境+终端控制行为监控 18 ① 生产环境︵运行︶ ⑦ 测试环境︵脱敏文件接收︶ ④

20. 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用

21. 4.1 场景应用（一）：“京信妙笔”智能报告工具 Ø基于大模型和知识库，利用AIGC技术结合业务场景实际情况，根据关键字和要求AI一键生成文档内容。提供多场景材料编写能力，辅助一线员工快速、高效地编写文档。 step 1.选择业务模板利用OCR技术，对用户上传的文档自动分类、识别。 step 3.生成初审材料上传资料后，点击一键生成，就看到一份完整的初稿。通过对话方式，让大模型收集知识体系中的数据和图表，一键插入报告。 step 2.上传尽调报告是用大模型对整篇或者指定部分进行改写、扩写、缩写、风格化等。通过智能校对算法，识别错别字、标点语法错误等，提升质量。 20

22. 4.2 场景应用（二）：智能会议助手工具内容摘要会议纪要生成要点导航会议纪要生成与我行云会议系统打通，一键式视频导入纪要生成能力，提供各参会人讲话内容识别、情绪识别、重点讲话内容识别等多种能力。情绪会议内容分析会议内容基于已生成的会议纪要，利用大模型问答能力，实现对会议内容、参会人观点的问答总结和查询功能。对话问答关键信息提取会议内容问答智能会议纪要提供会议重点内容导航，对于一生成的会议纪要实现关键会议信息的提取和问答能力。业务场景探索智能会议纪要适用于我行多种会议场景，目前，智能会议纪要已经在我行审贷会场景做了初步探索，取得较为理想的效果。 21

23. 4.3 场景应用（三）：智能校对助手工具全能力校对提供3大校对类型、12种校对模型、27类全栈校对技术。 Ø文字标点差错校对：错别字检查、语义重复、句式杂糅、句子查重、语序错误等12类； Ø内容导向风险识别：涉国家统一和主权领土完整、涉黄、涉暴、涉民族宗教、涉敏感内容等6类； Ø知识性差错校对：地理名词、职务信息、时政重点词、法律法规名称、重要讲话引用等9类。全数据知识库基于10亿级数据量专有知识库，4类权威参考文献作为校对标准，提供快速的校对服务。 Ø系列专有数据库拥有大规模训练集 Ø权威参考文献优化训练专业领域知识图谱高效校对体验校对速度达1000字/秒 22

24. 北京银行 2024年8月 23