爱奇艺 AI 推理平台演进和实践

1. 爱奇艺AI推理平台演进和实践张俊钦爱奇艺深度学习平台研究员

2.

3. 1. 2. 3. 4. 背景介绍 AI 推理平台架构演进 AI 推理平台落地优化实践总结与展望

4. 1. 背景介绍

5. 背景介绍 • AI 在爱奇艺的应用场景

6. 背景介绍 • AI 业务的归类 CV/NLP 搜索/广告/推荐爱奇艺 AI 推理平台

7. 背景介绍 • 从离线模型训练到模型部署高可用离线模型训练模型上线低延迟监控告警在线生产部署弹性扩缩容稳定性

8. 背景介绍 • 爱奇艺深度学习平台总体架构创作 Applications 生产 AI Frameworks 标注 TensorFlow 分发播放 … … Pytorch Data Platform Algorithm Store AI as a Service Resource Management & Orchestration Infrastructure 数据样本分析训练平台 Mesos CPU/GPU 推理平台工作流 Kubernetes 公有云网络存储

9. 2. AI 推理平台架构演进

10. AI 推理平台架构演进 • 架构演进 V1 V2 - 自定义镜像 - 容器化部署 - 支持 VIP - 抽象环境 - 模型独立 - 版本管理 V3 - 模型热更新 - 支持多版本 - 服务发现

11. 架构演进 V1 • 自定义推理镜像  • Docker 容器化部署  • 将模型封装到镜像，推送到 Docker Registry 绑定 VIP，对外提供 HTTP 服务模型版本升级  通过更新镜像和重启容器 Docker Registry Image 部署爱奇艺 AI 推理平台 VIP 对外服务

12. 架构演进 V1 • • 优点  可以自定义复杂的前后处理逻辑  可以封装多个相互关联 AI 模型的推理缺点  推理镜像环境依赖和训练环境难对齐  大部分是 Python 代码封装，推理效率比较低

13. 架构演进 V2 • 抽象深度学习框架环境  • 模型文件独立管理  • 平台提供各个框架版本的容器镜像平台提供 S3 对象存储来上传/下载模型模型加载和版本升级  传递模型 S3 路径到容器，启动时下载，版本更新通过重启容器 S3 对象存储爱奇艺 AI 推理平台模型下载 VIP 对外服务

14. 架构演进 V2 Step1： Step2：上传模型文件到 S3 存储用 S3 路径通过平台创建一个模型 Step3：选择对应的镜像和实例规格 8 CPU 20G MEM 1 GPU 模型 A 实例 2 Step4：通过平台创建 Endpoint 服务，自动把 S3 路径传递到容器中爱奇艺 AI 推理平台 Step5：容器启动时从 S3 下载模型文件，然后加载模型 Step6：模型 A 模型 A VIP 对外服务升级时，传递新模型 S3 路径到容器，并逐个重启

15. 架构演进 V2 • • 优点  推理服务只依赖于模型文件  支持模型优化，提高推理效率缺点  模型更新时版本不统一  不能适应搜索/广告/推荐类业务对 TCP 长连接的需求

16. 架构演进 V3 • 模型版本动态热更新  • 模型多版本管理  • 通过 S3 对象存储下载模型，实时热更新，不需要重启容器可以同时服务模型的多个版本，支持回滚服务发现  支持 Consul 服务发现 S3 对象存储爱奇艺 AI 推理平台模型下载服务发现

17. 架构演进 V3 概念定义 • Model  • Model Version   • 表示某个 Model 的一个具体版本，指向一个具体的模型文件一个 Model 下可以包含多个模型版本，版本号必须是自增的 Serving Set Version  • 表示某一个 AI 模型，一个逻辑的模型名称，并不包括任何模型实体文件当前服务的模型版本集合，包含一个或多个 Model Version Endpoint  一个推理服务，包括一个或多个容器实例，每个实例服务相同的模型版本

18. 架构演进 V3 Model A Model Version V1 V2 Step3：设置期望的模型版本 … Vn-1 Serving Set Version Model A V2 Model A Vn Step4：执行升级接口，平台自动发送 HTTP 升级请求到每个容器 Vn Step1：上传模型到 S3 存储 Step2：创建对应的模型版本当前期望模型版本为 Model A 的 V2 和 Vn Step5：直接下载模型版本然后加载 Endpoint Docker Docker V2 V2 Vn Vn

19. 架构演进 V3 • 模型版本滚动升级 Model A Model Version Step1： V1 设置期望的服务版本 V2 Serving Set v1 Model A V10 Model A V11 升级 … V10 Step2： V11 设置期望的服务版本 V12 Serving Set v2 Model A V11 Model A V12 升级

20. 适配更多业务场景 • • XGBoost/FM 机器学习模型  在 TensorFlow Serving 的基础上增加了 XGBoost 和 FM 模型的推理支持，并对外开源  https://github.com/iqiyi/xgboost-serving ANN 向量检索  将 HNSW 算法封装成 TensorFlow OP 加入到训练和推理服务  在 TensorFlow 中训练索引导出模型，部署推理服务

21. 适配更多业务场景 • • • CTR 大模型分布式推理将 TF 模型里的 Embedding 矩阵拆分出来独立部署增加远程 Embedding lookup OP

22. 3. AI 推理平台落地优化实践

23. 落地优化实践 • 指标监控  • 自动扩缩容  • 优化其他地区的推理服务从北京地区下载 AI 模型请求限流  • 根据监控指标变化进行动态扩缩容跨地区模型下载  • 服务内部的延迟，QPS 等监控指标让推理服务在高负载下仍然可以降级服务模型热更新请求毛刺优化  模型热更新期间，客户端请求超时毛刺优化

24. 指标监控 • • 使用 Brpc bvar 增加服务内部的延迟，QPS 等监控指标 bvar 是多线程环境下的计数器类库，几乎不会给程序增加性能开销

25. 自动扩缩容 • 支持 4 种类型的自动扩缩容策略 Scheduled Rule • 支持定时的扩缩容 Range Track Rule • 对特定指标的变化进行动态扩缩容 • 使指标保持在指定范围（range）内 Target Track Rule • 对特定指标的变化进行动态扩缩容 • 使指标尽可能接近并小于指定目标（target） Predict Rule • 对指标的变化进行提前预测，并根据预测结果提前进行扩缩容

26. 跨地区模型下载 • • • S3 对象存储集群部署在北京地区在中西部地区的推理服务需要从北京地区下载模型当实例数量过多，模型较大时对带宽压力比较大，时间过长北京地区中西部地区 Endpoint Docker Docker V2 V2 Vn Vn 模型下载模型上传

27. 跨地区模型下载 • • 增加下载代理，通过智能 DNS 重定向代理分片多线程下载，本地缓存北京地区模型下载中西部地区 Endpoint Docker Docker V2 V2 Vn Vn 代理智能 DNS 模型上传

28. 请求限流 • • 线上业务在高峰期出现服务过载不断重启的情况原因是 GRPC Server 处理线程不断增加导致 OOM

29. 请求限流 • 限制 GRPC Server 的最大线程数量 MainWorkLoop 重新进入 PollForWork 从队列中获取 GRPC 消息已到 quota DoWork 开始处理 GRPC 消息判断 GRPC 线程数量是否到了 resource quota 未到 quota 创建一个新的 WorkerThread DoWork 开始处理 GRPC 消息新线程

30. 模型热更新请求毛刺优化 • 模型热更新会出现短暂的客户端请求超时现象（称之为毛刺现象）

31. 模型热更新请求毛刺优化 • • • 通过 Warmup 来预热模型使用 Jemalloc 做内存分配优化模型参数分配和 RPC 请求内存分配分离

32. 4. 总结与展望

33. 总结与展望 • • 目前线上以 V1 和 V3 两种为主  V1 的框架比较多样，主要使用是 CV/NLP 类业务  V3 的框架以 TensorFlow 为主，主要使用业务是搜索/广告/推荐后续的方向  利用 Triton 统一 CV/NLP 类模型部署  推理模型自动优化   TVM 自动编译优化超大推荐类模型在线训练和推理支持

34.

35.