破局升维革新大模型时代的数字员工
如果无法正常显示,请先停止浏览器的去广告插件。
1. 破局·升维·革新
大模型时代的数字员工
重塑业务流程、知识体系和组织范式 / 科大讯飞 黄鹏
2.
3. 自我介绍(About Me)
先后参与并主导开发推荐系统、企业级大数
据平台和AI中台的架构设计与升级。专注于
平台架构设计和中间件开发。
目前带领团队应用LLM与RPA技术开发AI
Agent产品,推动大模型技术在企业级场景
的实际应用。
科大讯飞 企业数字化业务群研发部总监 黄鹏
AI技术赋能的思考者和实践者。希望让AI如水般智慧,善利万物,赋能千行百业。
4. 目录
Contents
一、数字员工业务背景概述
二、大模型:破局与升维之钥
三、大模型赋能数字员工创新实践
四、数字员工价值探索与未来图景
5. 一、数字员工业务背景概述
6. 起源于企业数字化转型发问
企业需要将数字技术整合到业务所有领域,从根本上改变为客
户提供价值的方式
根据企业的数字化成熟度,不同的不同的企业在不同的阶段:
在线化、集成化、数字化、智能化
科大讯飞作为人工智能国家队,使命是“让机器能听会说,能理
解会思考,用人工智能建设美好世界”
如何利用好自身能力,实现公司使命,将AI技术深度整合到各
行业业务中,改变企业的运营模式,为客户创造价值
数字化企业与传统企业的主要不同特征(信息来源:普华永道思略特分析)
智慧大脑?AI加持?先从哪个阶段开始做?为什么?如何做?
7. 数字化转型核心思路及目标
DAMA(数据管理协会国际标准)数字化转型核心思想:业务与技术的双向动力 、数据
驱动决策、整合与协同、流程自动化与智能化等等
企业数字化转型“六化模型”(资料来源:赛迪智库整理)
业务与技术“双向奔赴”,推进企业朝着“六化”目标迈进
8. 立足于企业根本 从源头审视技术
架构原则、愿景和需求
预备阶段
架构愿景
架构原则
业务战略
业务原则、目的和
驱动力
技术战略
架构愿景
利益关系者
架构需求
需求
约束
假设
信息系统架构
业务架构
动机
驱动力
目标
差距
数据
目的
技术架构
应用
平台服务
测度
数据实体
信息系统服务
组织
组织
位置
施动者
角色
逻辑技术构件
逻辑数据构件
逻辑应用构件
功能
业务服务
流程、事件
物理技术构件
控制、产品
功能
物理数据构件
物理应用构件
架构实现
实施治理
机会及解决方案、迁移规划
TOGAF企业架构
工作包
架构契约
标准
指引
规格
企业架构(EA)诸如TOGAF,虽然提供了全面的、可复用的企业架构框架和方法论,但依然存在不足,
如架构脱离业务需求,面对业务变化敏捷性不足
9. 立足于企业根本 从源头审视技术
集成接口众多,设计与维护管理工作繁重
需求出自业务,实现来自技术,存在整体性设计问题
企业业务流随着需求的变化而更新,业务流的更新势必导致接口的变化。定制型接口的弊端是需要相关系统的
原厂家修改接口代码实现,这样往往会导致业务的卡顿和故障率
10. 从业务人员视角出发 定义数字员工产品
文档 表格 会议纪要 设计图 ...... 产物
运营 分析 服务 开发 ...... 活动
人和系统互动
表格
文档
需求链接(客户协同)
1
数字化
转型
精心服务(服务化延伸) 6
精细核算(精细化管理)
2
5
邮件 信息 逻辑
信息 文档 逻辑
表格
经验
研发协同(设计生产一体化)
3
4
数据
人和人互动
精准供应(网络化协同)
精益生产(智能生产)
系统和系统
人和信息载体
API
数据 逻辑 文档
经验 模型 流程
表格
人
以人为本,聚焦流程,梳理企业业务流程运转中的人、文、数等要素。挖掘人际互动中的隐性知识,将流程经验智
慧显性化,助力业务流程数字化,激发组织效能,点燃创新活力
11. 助力企业构建数字员工 实现流程数字化转型
企业高质量发展,员工高效率工作
能源、电力、医疗、烟草、政务、电商零售等行业,财务、人资、供应链等部门
星火数字员工平台
流程编排 流程执行 流程调度
流程生成、智能录制、批量数
据抓取 一键启停,多种触发方式 远程调度,API集成
流程管控
卓越中心,无人值守客户端
AI能力组件
RPA基础组件
AI能力组件
网页自动化 桌面自动化 操作系统 文档处理 表格处理 通用OCR 文本摘要 机器翻译
数据处理 人机交互 鼠标键盘 循环判断 …… 语音转写 语音合成 ……
指令微调的信息抽取模型
任务理解与结构模型
通用LLM模型
多模感知模型
AI模型
融合RPA、AI、LLM等技术,打造新一代的生成式数字员工平台。基于大模型和企业数据知识资产,支持以轻量化方式构建各类
数字员工,提高企业生产力和创新力
12. 星火数字员工平台概览
低代码拖拽,实现与系统、文档、数据等流程过程信息交互
集成图文识别、自然语言理解、大模型等能力
执行过程录制,生成流程片段
13. 二、大模型:破局与升维之钥
14. 数字员工价值被认可 但挑战依然存在
描述需求
业务人员
需要具备编码思维
可维护技术要求高
非直接的业务思维
工具上手门槛
流程中潜在的编码思维
使用门槛仍然较高
业务分析师
需求梳理
懂业务、懂系统
经验要求丰富
应用场景受限
交付工程师
拖拽式开发
上线运维
版本更新
环境变动
需要人介入的图文校验
元素识别难
自动化边界有限
非结构信息处理弱
环境依赖强
依靠专家经验
鲁棒性较低
非结构数据处理
业务知识传递
多人协作完成
变
化
需求变化
环境变化
如何解决以上问题?
环境变动
15. 大模型技术火爆 为问题带来希望
Scaling Laws:模型能力随参数规模指数级增长(规模效应)
Next Token Prediction:增强上下文感知,为开发能够全面理解和交互的
AGI提供了重要的技术和理论基础
模型规模扩展的选项
《NNCP v2: Lossless Data Compression with
Transformer》 Fabrice Bellard Feb 6, 2021
Loss随着模型大小、数据集大小和用于训练的计算量的增
加而平稳下降
Understanding the Next Word Prediction
随着Loss的下降,一些下游任务的性能可能会出现突变,出现涌现现象,即
模型智慧涌现,这种现象无法通过尺度定律进行准确预测。这项经验,刷新
了人们对模型涌现能力的认知。 OpenAI 研究员 Jack Rae 在斯坦福研讨会上通过其演讲“Compression for
AGI”强调大语言模型的本质,其实是一个性能强大的数据无损压缩器,LLM
= Compression
Scaling Laws 量化了模型性能与训练数据规模、模型架构等设计要素之间的
关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。 压缩理论从数学上证明了大语言模型的目的,并不是尝试“拟合”训练集,而
是无损地找到训练集所代表的本质规律(概率分布),从而可以生成出哪怕在
训练集之外的内容。
16. 周边延展思考:语言符号信息学
语言符号信息学:
结合了语言学、信息理论、计算机科学等多个学科的理论和方法,以探索语言作为信息传递系统的功能和效率
如何将语言的抽象概念转换为可以由计算机系统处理的符号,以及如何从这些符号中恢复原始的语言信息
使用信息论的概念,如熵(entropy)和互信息(mutual information),来量化语言单位中携带的信息量
香农在1948年定义了信息熵概念,并于1950年通过预测实验研究英语的熵和冗余度,利用语言统计知识,为信
息度量和传输提供理论支持。
信息熵: H(X) = -Σ p(x) * log2(p(x)),其中 p(x) 是事件
x 发生的概率。
《A Symbolic Analysis Of Relay And Switching Circuits》By C. E.
SHANNON 1936
《Prediction and Entropy of Printed English》By C. E. SHANNON 1950
信息论创始人,克劳德·艾尔伍德·香农(Claude
Elwood Shannon,1916年4月30日-2001年2月
26日)
17. 周边延展思考:知识表征与心智意识
知识表征:
知识表征是智能体用于代理或替代世界事物的方式,允许通过符号操作而非实际行动来进行思考。
它包括一套本体论承诺,定义智能体如何用术语思考世界。
知识表征形成了关于智能推理的理论,包括推理的基本看法、允许的推理集和推荐的推理集。
语言乃是世界的一个“图像”,语言表征是对世界的一种“代理”它也是人类用以思考世界的表达式中
介。
从认知心理学、脑科学、哲学等角度,再看“语言”、“知识”、“心智”、“意识”:
维特根斯坦在《逻辑哲学论》中提出,语言是世界的“图像”(语言图像论),是实在的一个模型,这与知识表征中的代理概
念相呼应。
认知心理学将知识视为心智中储存的信息,这些信息指导我们的行为和决策。脑科学研究如何通过神经网络存储和检索信
息,揭示了记忆形成和知识构建的生物学基础。
心智是指个体的思维、感知、记忆和决策能力的总和。认知心理学通过研究这些过程来理解心智的工作机制。脑科学探索心
智活动的生物基础,研究大脑如何处理和响应外部信息。哲学则考虑心智的本质和存在方式,探讨心智与身体的关系以及心
智如何影响我们对世界的认识。
在认知心理学中,意识通常被视为个体对自己思想、感受、环境和存在的主观感知和自我意识。脑科学试图解释意识如何在
大脑中产生,研究涉及识别与意识活动相关联的特定脑区和神经网络。
以上观点共同构成了对语言、知识、心智和意识的多维视角,揭示了它们在人类认知和社会互动中的复杂作用和基本角色。
18. 周边延展思考:贝叶斯理论与认知心理学
贝叶斯理论与认知心理学:
认知心理学研究人类的感知、记忆、思考和语言等认知过程。它是通过使用心理测量、行为观察和
神经成像等方法来分析认知活动。关注如何从感官输入到信息处理再到行为输出的整个过程。
人类认识研究自然、开展社会实践,包括现在的人工智能都遵循着,做出假设、收集数据、判断决
策、观察结果、修正假设的周而复始的类似过程。
贝叶斯理论通过先验概率和似然性来解释人类如何基于经验进行感知和推理。它描述了人们如何利
用先验知识和观察到的证据来形成对世界的认知和判断。
后验概率:新的认知
posterior
先验概率:旧的认知
prior
似然函数
likelihood
19. 大模型技术创新,升维数字员工核心能力
1. 柏拉图表征假说:语言作为思想与世界的桥梁 2. 多模态统一建模:打破数字员工感官藩篱
大模型学习的高维语义空间,与柏拉图所说的"理式世界"
高度类似 传统数字员工难以处理非结构化数据如图像、语音
等,导致感知能力受限
大模型将词语映射到丰富的语义表征,实现了语言符号到
真实世界的关联 大模型支持文本、图像、语音等多模态数据的统一
建模
数字员工借助大模型构建的语义表征,获得了深度语言理
解与认知推理能力,可以更好地理解用户需求,提供智能
服务 跨模态对比学习等技术,实现不同模态信息的融合
与映射
多模态大模型赋予数字员工更全面的感知能力,拓
展其应用边界,实现更自然的人机交互
20. 大模型技术创新,升维数字员工核心能力
3. 知识增强学习:为数字员工注入专家级认知 4. 持续学习:让数字员工像人一样不断进化
传统数字员工难以有效利用领域知识,面对复杂专业
问题时常常束手无策 传统数字员工难以适应数据分布变化,面对新场景、
新任务时需要重新训练
大模型在海量文本数据上预训练,习得了广泛的世界
知识 大模型具备持续学习能力,可以在部署后持续吸收新
数据,优化和扩充自身能力
将大模型与行业知识库、知识图谱相融合,可以为数字
员工装载行业专家知识 持续学习范式下,数字员工可以不断积累经验,日渐
精进,适应环境变化
知识增强的数字员工能够开展专业领域的分析、推理
与决策,提供更加精准、智能的服务 元学习、少样本学习等新范式,进一步提升了数字员
工持续学习、快速适应的能力,使之更加智能化、人
性化
21. 三、大模型赋能数字员工创新实践
22. 大模型赋能 促进数字员工跃迁
隐性知识,可以转化为显性知识 扩充人类现有的边界知识(生物、医药、科学...)
传统的信息化系统,以NUI交互新形态出现 传统的局部自动化,终将会端到端自动化
从拥有know-what到拥有know-how进阶 人机共存的新伦理
将大模型深度融入现有产品,对现有架构重新设计
23. 大模型赋予数字员工智能大脑
上下文理解
对话管理
对话生成
记忆管理
思维链与记忆存储
对话策略
思维链跟踪
任务型技能类理解
数据处理
语义理解
闲聊类理解
知识问答类理解
数据理解
数据分析能力
数据可视化
范围外的泛化理解与迁移能力
代码理解
代码生成能力
代码自动编写
系统环境感知
自然语言生成
实时环境感知
文本生成能力
个性化文本生成
动态决策
文本修订
自我适应
24. 从实际业务使用角度出发 开始构思核心功能
25. •
核心能力提炼—流程助手
业务员描述需求 业务流自动生成
业务流程自动生成
功能清单自动生成
RPA脚本自动生成
参数自动填充
26. 智能数据问答功能 对话式获取分析结果
输入query
大模型-解析query
大模型-生成分析结果
RPA-图表结果展示
27. 借鉴AI Agents 打造全新一代数字员工
浏览器截
图
网页源码
用户指令
历史动作
{“action”:”click“,
“ref”:”6”}
微软UFO:专为 Windows 定制
谷歌WebGUM:基于多模态的浏览器Agent
UFO(UI-Focused Agent)是一个以ui为中心的双代理框 WebGUM同时观察网页截图和HTML页面,并输出网页漫
架,通过在单个或跨多个应用程序中无缝导航和操作来满 游动作,如点击和输入。通过在大量演示数据上联合微调
足Windows操作系统上的用户请求。 语言模型和视觉Transformer,实现了WebGUM的训练。
港大团队OpenAgents:可扩展Agent平台
具有200多个日常工具,同时支持自定义python
代码生成,并可供拓展插件智能体 ;
28. 对业内大模型能力进行充分验证
29. 业内大模型能力场景验证测试结果
模型能力评测结果表
结论:通用场景代价较较大,短期不可达,特定场景微调后可达SOTA
30. 星火数字员工平台新一代架构
星火数字员工平台控制台
第三方搭建控制台
流程逻辑-画布配置
小红书舆情分析机器人 某银行税务查询机器人 病人随访信息整理机器人
订单状态跟踪机器人 异常系统报警机器人 ……
亚马逊商品比价 抖音数据监测 天气分析
PDF摘要总结 公司财报分析 ……
用户/专业人员搭建
Agent大脑
基础插件库
基线RPA构建
用户
Freeswitch
编
排
层
IVR
语音识别引擎
ASR
星火
大模
型
基础插件商城
地图 天气
计算机 新闻
音乐 导航
领域的知识库
语音合成引擎
TTS
……
客户案例累积
后台知识库
行业垂类领域客户定制
金融同业盯市机器人
企查查商户状态信息查询机器人
京东购物机器人
抖音舆情分析机器人
流程模板
京东购物机器人
银行业务晒单机器人
……
钉钉产品说明书 百度百科数据库
亚马逊操作手册 ……
31. 某银行客户案例演示:企查查征信查询
核心思路:
低维的操作、逻辑判断等聚合成RPA机器人或流程片
段,抽象成高维可调用的能力或应用,更利于收敛
大模型负责对业务需求、数据内容进行理解、分析,
输出智能化的处理逻辑,驱动机器人去执行
常规部分由AI Agent自动执行,关键决策节点或信息
由人类介入,提供判断和把控,实现人机协同
32. 数字员工技术助力会议全流程数智化升级
星火大模型和会议场景深度结合,涌现新思路、新方案,赋能会议会前、会中、会后全流程,助力会议数智化升级,同时
通过统计和分析会议数据,辅助领导层管理决策。
本地会议+远程会议+智慧会议室
会前
会中
会后
智能日程管理 智能转写/翻译 提取要点,全局get记录内容
全局管理用户日程,重点事件不遗忘,重要会 会议语音智能转换为文字,方便参会人员查看 提取会议记录关键词、全文摘要、章节重点、
议不冲突。 和编辑; 发言人内容总结。
多语言翻译,进行涉外交流;
智能预约
一键纪要和待办生成
智能检测参会人会议冲突情况。 会议协作 通过大模型生成技术,一键生成会议纪要和会
依据会议类型和习惯推荐会议室。 赋能会中应用,提升会中协作效率; 议待办。
智能通知提醒 智能辅助会议记录编辑 智能统计分析
多类型通知方式 对会议记录进行结构、逻辑、语言等方面进行 对会议内容和参会人的数据进行分析,分析和
自定义通知策略 调整和优化。 评估会议效果。
33. 赋能数字员工跃迁 我们正在进行
隐性知识,可以转化为显性知识 扩充人类现有的边界知识(生物、医药、科学...)
传统的信息化系统,以NUI交互新形态出现 传统的局部自动化,终将会端到端自动化
从拥有know-what到拥有know-how进阶 人机共存的新伦理
将大模型深度融入现有产品,对现有架构重新设计,我们在路上
34. 四、数字员工价值探索与未来图景
35. 以流程规划中心为内核 激活数字员工基因
4
企业运营充满活力
企业基因迭代更新、持续挖掘,流
程运转智能、高效提升,员工及部
门价值跃迁,组织运营充满活力
业务流程进化
3
规划器调度企业运营流程,人机
协同,重新定义业务流程运行,
带来颠覆性提效
2
流程基因升级
利用大模型记忆、归纳、学习能
力,持续挖掘、优化现有流程基
因,让企业充满活力
流程知识激活
通过知识库管理、人才管理与个
性化管理法等方式激活企业已有
的知识资源
1
36. 构建企业可持续进化的企业大脑
高质量发展
企业办公场景 (降本、增效、提质)
写作
会议
PPT制作
文档问答
后勤
外事
数字员工 (聪明大脑+敏捷双手,打造企业各岗位的数字化助手)
企业大脑 (构建企业级专家经验/知识系统)
Agent平台
MaaS平台
知识工匠平台
企业数据资产 (充分利用企业现有数据资产)
文本生成 语言理解 知识问答
逻辑推理 数学能力 代码能力
多模态
能力
生产数据
经营数据
客户数据
37. 数字员工形象持续丰富
个性化形象(打造城市名片)
年龄、性别、穿着装扮
支持多种情绪
极具新鲜感与独特性
个性化声音(打造城市名片)
可复刻真人声音
提供百种不同类型音库资源
MOS分达到4.5
形态丰富多样
同时具备2D/3D形象
支持换肤和换装
支持融合人脸
支持半身、全身、站姿、坐姿
多种语言表达
支持中、英、日、韩、泰、越等17国语言
支持藏语、维语、彝语3种民族语言
支持广东话、四川话、山东话等11种方言
表情生动自然 AI智能互动问答
A.I.自动预测情感 “面对面”实时智能交互
面部表情自然生动 提供场景智能回答
支持自定义动作、标准动作库 支持自定义问答知识库
结合虚拟人技术,让数字员工有更具象化的载体形象
多种情绪 多种服装 站姿坐姿 多语种 多分频
专属声音 形象服饰 形象背景 多轨混编 横屏竖屏
38. AI人格–赋予数字员工以“灵魂”
记忆组件 情感组件
决策组件
通过模拟海马体等脑功能机 通过模拟杏仁核与额叶机 通过大模型算法迭代与推
制,赋予AI代理诸如短期记 制,赋予AI代理性格、情 理,赋予AI代理任务处理、
忆、长期记忆、遗忘和条件 绪、情感、语气和语调等特 决策、判断和响应能力
反射等能力 征
通过模拟人类大脑功能与大型语言模型相结合,虚拟数字人被赋予了类似于人类的人格反应,包括:长期稳定的记忆力、
多样化的个性、丰富的情感和拟真的语气
39. 最后:有机械者必有机事,有机事者必有哲心!
机器不再像过去一样是冰冷的器具
数字员工不仅可以完成需求,还能理解人类情感需求
《庄子》天地篇:有机械者必有机事,有机事者必有机心
《心智、语言和机器》——徐英瑾
《超能查派》电影
数字员工与人类携手,共同推动着社会的进步。这何尝不是一种"天人合一"的现代诠释呢?
40. 拥抱变革,为数字员工创新铺路
Embrace change and pave the way for innovation for digital employees.
THANKS