大模型时代的AI能力工程化
如果无法正常显示,请先停止浏览器的去广告插件。
1. 大模型时代的
AI能力工程化
肖然 ArchSummit 2024
© 2024 Thoughtworks
2. © 2024 Thoughtworks | Confidential
2
3. AI 进入2.0时代
AI应用的成本越低,AI应用的范围越大
海量数据标注 VS 自监督学习
单一领域任务 VS 基础模型
(跨领域知识的)
高成本模型训练
VS
低成本模型微调
李开复在2023年3月19日发布Project AI 2.0时谈到AI 1.0和AI 2.0的关键变化
当具备跨领域知识的基础模型出现之后,微调适应不同领域任务的
AI模型的成本极低
© 2024 Thoughtworks
Source:量子位
基础模型:On the Opportunities and Risks of Foundation Models
3
4. 我们正在进入一个新应用时代!
用自然语言提出问题
You
用自然语言给出答案
内部或外部的
工具 / 模型
Goals
AI助理
V
Tasks
Model a
Task 3 Tool b
Task n
Output
© 2024 Thoughtworks
Task 2
of
LLM
Large Language
Model
Tool a
Li
ne
b
is i
y
ilit
Task 1
Model n
Memory
Source: Generative AI PoV - Generative AI in Fashion
4
5. 出现了许多新的应用场景
AI 辅助 SDLC
软件工程、数据工程...
客户
经验
工程效果
有效性
商业
AI 驱动创新产品
软件开发
市场营销、销售、客户服务、公共信息...
用户
研发
增强企业能力
增强 SDLC
增强个人能力
增强个人能力
AI 增强个人能力
培训, 问答系统, 人工智能助手, AI4Science,...
人工智能服务
打造人工智能服务
数据工程师 算法工程师
基础模型
SDLC
© 2024 Thoughtworks
AI 平台工程
创新产品
个人能力
平台工程
人工智能服务平台、MLOps、Dataloop
5
6. 融合AI技术的应用开发变得更复杂
为了将 GenAI 应用于生产环境,我们需要考虑一系列
Existed Application
(CMS, CRM, etc.)
Security
(Cybersecurity, AI
security, and Privacy)
AI Agents
Existed
Backend
Services
AI Tools
Vectorstore
Embedding
Models
LLMs & Prompt
Management
Backend
Databases
© 2024 Thoughtworks
Backend Data
Platform
Compliance &
Dataloop
(Audit & Logs)
问题,如安全性与合规性、模型选择与部署、资源应用
与购买等。
MLOps & LLMOps
(deployment, serving, fine-tuning)
Public Cloud Service
(Azure GPT, OpenAI, etc.)
如果我们需要大规模应用 GenAI 怎么办?
6
7. 上一个AI时代
企业应用的惊人事实
87%
50%
© 2024 Thoughtworks
的AI模型开发项目未投入生产
-VentureBeat
的时间花在模型部署上
-Algorithmia
https://venturebeat.com/2019/07/19/why-do-87-of-data-science-projects-never-make-it-into-production/
8. AI 模型的治理仍然很随机
AI模型治理面临的共性难题:难管理、难部署、难监控、难协作
简单数据
小数据量
单机可完成模型开发
大数据量
模型开发需要多机多卡
复杂数据
(结构化数据为主,包含简单文本数据) (非结构化数据为主,另含视频、雷达等多模态数据)
常见场景:推荐引擎、精准营销、异常检测等业务场
景;非结构化数据以文本分类,情感分析为主
开发模式:本地,单机即可完成数据处理、训练和发
布等所有工作,GPU资源需求小
难点挑战:难以获取数据,数据权限管理和内部流程
平台需求:开放数据、模型管理、部署和运行
常见产品:Dataiku, Databricks 常见场景:以OCR、语音识别、语音合成、文本生
成、视频生成等多模态生成式AI为主的应用场景
开发模式:以云端服务器微调的方式训练模型,
难点挑战:数据标注与数据合成,GPU资源需求大
平台需求:数据标注工具、模型管理、部署和运行
常用产品:Databricks, Sagemaker, PaddlePaddle,
ModelArts, ...
常见场景:推荐引擎、精准营销、异常检测等业务场
景;非结构化数据以文本分类,情感分析为主
开发模式:云端多人协作,根据企业相关人员规模选
择平台产品或自研平台
难点挑战:难以获取数据,数据权限管理和内部流程
平台需求:大数据平台、开放数据、模型管理和部署
常见产品:Dataiku, Databricks, 自研机器学习平台 常见场景:自动驾驶、语音识别、各类生成式AI,各
类数据的基础模型开发
开发模式:多人协作,基于云端算力打造自研平台
难点挑战:标注数据成本高,算力需求巨大
平台需求:端到端支持数据采集、挖掘、标注、算法
训练、模型评估、模型管理等
常见产品:自研机器学习平台
8
© 2024 Thoughtworks
“难管理、难部署、难监控、难协作”参考《人工智能化研发运营一体化(Model/MLOps)能力成熟度模型 第一部分:开发管理》
9. AI能力工程化才刚刚开始
行业内探索MLOps过程管理和LLMOps模型治理的标准,但构建全流程的AI研发运营体系仍
然任重道远。
AI模型开发 ● 小作坊式的开发,工具链碎片化
● AI资产(算法/数据/算力)管理散乱
● 数据来源分散,数据不标准,获取难
AI模型交付 ● 一旦交付,很难重新训练和发布新模型
● 缺少基础设施支持大规模训练和推理
● 无法观察监控模型在生产环境的运行状态
AI应用协作 ● AI团队&IT:模型适配只能交给AI团队
● AI团队&业务:业务不知道已有AI能力
● AI团队&AI团队:AI模型分享交流难
© 2024 Thoughtworks
考虑到AI模型开发方法发生
巨变的今天,需要全新思考
如何解决这部分问题!
参考《MLOps模型交付标准解读》、《魔塔中文开源模型社区-模型即服务》
9
10. 实现AI能力工程化,Hugging Face经验值得借鉴
Hugging Face不是一个AI模型开发平台,而是AI模型治理平台和应用社区,吸引大家用起来。
Hugging Face关注模型的应用、探索和社区
1. 降低模型开发成本
2. 降低模型使用难度
3. 助力模型分享交流
© 2024 Thoughtworks
https://thenewstack.io/how-hugging-face-positions-itself-in-the-open-llm-stack/
10
11. AI 能力工程化发展路径
面向未来
Integrate with Data
Platform Self-service AI Platform
Unified AI Model Platform Model as a Service
Foundation
Models
Conversation AI
for Internal use case
Self Service
Generator Apps
Self Service
Chat Apps
Standard Services:
OCR / ASR / TTS etc.
Initial
具备基本能力
© 2024 Thoughtworks
重点抓手
激活创新
统一服务
AI Market MLOps
Self Service Foundation Model
Fine tune Data Loop
Conversation AI
for external use case Versioned Dataset
Management GAI as a service
Conversation AI
as a Service Multi-Agent Digital Human
as a Service
Self Service
Knowledge Base SLA Measurement Community
Fine tune
Foundation Model
Dataset
Management
Defined
提供标准化服务和管理
Managed
服务度量与全面治理
Optimizing
引领创新与持续优化
11
12. GluonMeson平台能力 能力复用
Thoughtworks 交界平台 成本下降
● 单模型的性能提升提效,推理加速。
● 实现多模型的路由选择
审计合规
● 平台避免数据出境等带来的数据安全
● 个人保护法PII/可审计
命名来源背景介绍:
胶子(gluon) 是负责在两个夸克之间传递强作用力的基本粒子,
安全实践
● 企业级AI 安全监测与评估;企业级Chat
介子(meson) 是粒子物理学中一个夸克和一个反夸克通过强作用力
捆绑在一起的复合粒子。
象征着我们平台是介子,通过平台的能力(胶子),将大模型和各业务
场景凝聚到一起。
© 2024 Thoughtworks
提升应用效果:在GM平台下,Prompt帮助模型
更好的理解任务,COT模型的编码过程更加优化,
FT则使得模型更好地适应特定任务
LLMOps 运维简化
12
13. 面向AI 2.0的企业级平台蓝图
1 持续的AI战略设计和规划(Continuous AI Strategy Development)
AI创新机会点识别和评估
业务价值链 AI影响分析
管理层愿景目标对齐
端到端智能化旅程设计
优先级评估和落地演进路线
价值评估度量体系
2 支持规模化的AI方案创新工厂(AI Solution Factory at Scale)
2.4 以数据为中心的持续改进和AI治理
2.3 AI 原生的应用工厂 - 价值驱动·持续运营
AI
场景
运营
效率-数字员工
效率-伴随助手
体验-智能检索
体验-AI工作空间
体验-多模态互动
体验-智能IDE
创造-内容生成
AI运营门户
2.2 AI 服务平台 - 可控·标准化·持续交付·开放
AI
开放
服务
模型
服务
AI Agent 模版集市
Q & A chatbot、文档阅读理解助手、总结摘要 Agent、情感分析 Agent、翻译 Agent、文本转语音 Agent … etc
Knowledge/知识 Skill |技能 Tools | 工具
客户信息、产品信息、交易信息、流程处理信息、术
语知识、协议知识、规章制度、技术规格... 总结、聚类、文本生成、文本分类、意图识别、
模式识别、检索、推理、 API Lookups、NL2SQL、数据可视化、自然语言处理、
计算机视觉、图形处理、 机器学习框架...
内部与外部的生成式AI模型(GLM/LLaMa/Baidu/Aliyun…)
判别式AI模型(CV/NLP/分类/回归)
2.1 AI 基础设施 - 低碳·弹性·异构·云中立
算力
资源
管理
与
调度
统一管理、调度、监控的开放服务(通过API、SDK、算子等形式)
资源监控
任务监控
CPU/GPU资源动态调度
集群监控
国产算力资源动态调整
AI容器服务
AI镜像管理
物理机算力资源动态调度
虚拟化硬件
算力
底座
训练云集群(容器化算力)
流程管理
项目与需求管理、数据流通、项目追踪、流程审批
数据开发
数据采集、数据挖掘、数据标注、数据集管理、测试验证
模型开发
算法开发、模型调优、模型微调、构建集成、模型评测
安全评估
在数据收集、模型训练和模型运行阶段提供防御手段
合规治理
AI服务可追溯、内容审查、签名水印、日志审计
模型与AI服务运营
服务发布、持续监控、A/B测试、资源管理、成本管理
推理云集群(容器化算力、物理机算力)
3 企业级的运营治理机制(Enterprise AI Governance)
AI转型推动组织
© 2024 Thoughtworks l
AI创新框架和管理流程
具备端到端能力的AI PoD团队
AI能力卓越中心
AI GuardRails 安全合规治理体系
14. AI不会淘汰你,
但学会使用AI的人会
© 2024 Thoughtworks
15. AI能力工程化的关键是人!
数据/算法工程师
对于
想要
这是
共享数据集、经验并微调基础模
型。
●
●
●
●
●
●
提供 GPU 和其他资源。
提供基础模型
提供数据集管理。
提供微调服务
评估 LLM 和提示
自助服务 Gradio 应用程序集
成
在日常工作中内容生成、Copilot
或知识管理
● 能够利用提示和知识创建人工
智能服务
● 能够添加和管理存在的数据服
务和应用程序
● 能够管理人工智能服务
● 定义 LLM 护栏
● 能够为日常工作创建内容或提
升效率
● 改善企业知识搜索和访问体验
● 能够使用各种轻量级人工智能
应用程序
人工智能开发平台
提供基础模型管理和微调服务
我们的产品
创建人工智能服务或Agent,以
构建智能应用程序
用户
人工智能服务平台
不像
© 2024 Thoughtworks
软件工程师
为创建人工智能服务提供开放标准
提供适合每个人日常使用的应用程序
16. AI 应用的复杂度带来了新的协同关系
Models
AI Services
Fine-tuning or train
models (eg. Jupyter,
数据/算法工程师
软件工程师
Build AI playground
App
Stable Diffusion)
(eg. nl2df, seal detector)
Evaluate model
quality & publish it Build prototype of AI
Service
Build Model
Management Build components
for AI service
development
(eg. MLflow)
(eg. Doc Chat)
Create AI service in
components
(eg. Atom)
© 2024 Thoughtworks
Intelligent Apps
Experience
AI playground
Build AI playground
for users
用户
17. AI 2.0时代组织能力升级
Thoughtworks AI 2.0 战略
大模型技术、算力技术、监管政策、市场等存在高度不确
定性,需要在不确定性中寻找确定性
● 三个核心能力
敏捷交付思维
产品思维
○ AI驱动的数字产品
○ AI驱动的一体化平台
○ 现代化的数据架构
低
摩
擦
运
营
模
式
● 两个支柱
○ 低摩擦运营模式
○ 负责任的技术
● 企业文化
○ 产品思维
○ 敏捷交付思维
拥抱变革
人工智能驱动的
数字产品
AI驱动的
一体化平台
现代化的
数据架构
负
责
任
的
技
术
AI-Enabled
的团队
○ AI使能的团队
○ 拥抱变革
© 2024 Thoughtworks l
17
18. 拥抱 AI 2.0,
迎接数智化未来
Thoughtworks提供AI 2.0在业务和研发场景下的数智化转型战略规划、
体系化AI人才培养和能力建设、企业私有化大模型构建方案、AI平台和
应用框架设计开发,以及AI高价值场景从探索、设计到落地实施及运营
推广的端到端方案,加速您的数智化转型之旅。
Thoughtworks服务号
© 2024 Thoughtworks
Thoughtworks商业洞见