快手端侧AI SDK框架

1. 快手端侧 AI SDK 框架崇洋铭 AI 架构师快手 Y-tech 1

2. 2

3. 大纲 • 背景框架设计性能优化和配套工具链 • 未来展望 • Q&A • • 3

4. “童话公主”特效 “隐身衣”特效 “梵高星空”特效 4 “万物AR”特效

5. 快影智能抠像智能识物 5 一键出片

6. AI能力架构业务层快手一甜快影 Snack Kwai Pro 中台层拍摄 SDK 编辑 SDK 直播 SDK 特效 SDK 播放 SDK AI 接口层通用数据接口统一调用方法模块管理参数配置日志上报 AB 实验人脸类分割类人体类智能处理 3D 类 AR 类 GAN 类图像类 AI 底层库 KwaiNN推理引擎模型管理图形图像库内存管理系统层 iOS 安卓 PC 端服务端硬件层 CPU GPU NPU DSP AI 算法层模型导出模型测速量化工具结构方案库引擎工具模型训练 NAS 模型仓库模型压缩训练平台数据采集数据标注数据清洗数据回流数据管理开发环境运行环境 6

7. AI能力一览每日调用量 • 几千亿次量级每日模型创建量 • 几亿次量级 AI 能力 • 近100种 7

8. 挑战 • • • • 效果 • • • • • 帧率 CPU占用内存开销包体积大小崩溃率性能成本 8 AI 能力数量效果观感参数可配置能力特效包装 • • • • 开发周期测试投入业务对接效率算法迭代效率

9. 大纲 • 背景框架设计性能优化和配套工具链 • 未来展望 • Q&A • • 9

10. 整体框架调用接口通用数据接口图形图像库模块工厂分割类检测类深度类人脸类生成式 …… 功能模块模型管理数据转换多端 Demo 引擎接口自动化文档本地素材工具链打包平台日志和上报单元测试核心库 YKit 10

11. 运算流程统一化 CPU 链路 • 通用的推理流程 • 灵活的前后处理 • 丰富的多功能串联支持 GPU 链路 • 高性能的图像后处理 • 高效对接下游特效、编辑、拍摄等模块 CPU 链路输入图像人脸关键点计算模型前处理模型推理模型后处理功能点串联模型输出输入 GPU纹理美颜瘦脸 GPU后处理后处理输出融合渲染美妆录制 GPU 链路 11

12. 功能插件化请求AI能力，触发下载特效素材客户端服务器业务逻辑动态模块核心模块人像分割手势识别人脸关键点 N A G 背景填充 …… 人脸分割果效动态模块：按需下载，可使安卓包体积减小50% 核心模块：高频重要能力随基础库，提升用户体验框架层和基础库 YKit 调用接口模型管理图形图像库功能模块基础库模块工厂模块基类注册表模块基础库：统一基类和注册接口，易于新增功能点，功能之间解耦，同时也提供了组合能力宏开关引擎库：可打包进YKit提供完整AI能力，也可轻量化单独提供推理能力 KwaiNN引擎 12

13. 大纲 • 背景框架设计性能优化和配套工具链 • 未来展望 • Q&A • • 13

14. 性能问题定位输入图像人脸关键点计算模型前处理模型推理模型后处理功能点串联模型输出输入 GPU纹理美颜瘦脸 GPU后处理后处理输出融合渲染美妆录制 14

15. 图形图像库图像类转换接口图像管理类运算后端 • • 50多个优化后的算子 Neon 算子为例：NV12高清图裁剪出256x256的人脸区域、并转为 RGB 格式，在 iPhone 6上耗时0.2ms CPU后端 OpenGL后端 Metal后端 Vulkan后端 CPU算子 OpenGL算子 Metal算子 Vulkan算子高斯滤波引导滤波裁剪算子库内存/纹理池 15 形状变换 ……

16. 模型分级下发功能丰富性： • 基于 CPU、GPU、NPU 性能及系统版本，设置10档分级 • 对于具体特效，可手动灵活设置规则，调整分级 • 支持 AB • 支持各业务方定制模型训练算法开发模型配置管理平台服务端移动端检测硬件分级模型和参数配置服务器 CDN 获得模型分级配置下载模型包和参数部署安全性： • 白名单、预上线、测试服、正式服等多层状态 • 模型版本号、代码版本号双重检查，迭代模型时不影响旧版本用户 • 各模型根据哈希独立存储，并多重备份运行 YKit KwaiNN 推理引擎 CoreML HiAI MTK Metal OpenCL Neon 16 ……

17. 案例一：GAN类特效性能优化 • • • 同一款特效配置8档模型，从 iPhone高端机到安卓低端机，均可达到 >18fps 的流畅效果 3种运行模式 20余个可配置参数，服务端下发即时生效 1. 同步模式延迟小、模型效果好 2. 异步模式线程利用率高、帧率提升25% 3. 压帧模式针对中低端机，保证最大流畅效果帧率可提升60-70%，例：原本15fps的机型可达26fps 17

18. 案例二：人脸动态效果多线程架构 • 4个线程上5个模块异构计算，相比单线程方案性能提高80% 18

19. 案例三：视频编辑场景推理缓存接口 • • 19 预览帧率优于竞品平均34% 导出耗时优于竞品平均73%

20. 挑战 • • • • 效果 AI 能力数量效果观感参数可配置能力特效包装 • 基础公共库和工具链避免重复造轮子，新算法可快速落地 • 通用数据接口和可配置化参数，一套功能点代码对接各业务方，满足效果需求性能成本 20

21. 挑战模型分级下发，适配各档位机型模块化的单点能力使得多线程方案更易开发提供支持各主流 NPU 的模型，降低 CPU 开销内存池设计降低内存开销和崩溃率功能模块动态下发，减小包体积，提升安装成功率 • 完善的日志和错误信息收集、回捞 • • • • • • • • • • 帧率 CPU占用内存开销包体积大小崩溃率效果性能成本 21

22. 挑战 • 统一接口和计算流程提高了业务开发效率，开发、调试周期减半 • 引擎测速平台和 SDK Benchmark 工具，可在早期阶段把控性能 • 多端 Demo，提供快速本地验证能力 • 模型和配置中台，支持快速迭代 • 自动化文档生成和更新效果性能成本 22 • • • • 开发周期测试投入业务对接效率算法迭代效率

23. 大纲 • 背景框架设计性能优化和配套工具链 • 未来展望 • Q&A • • 23

24. 未来展望 • 全平台：服务端移动端统一 • 优化中低端机性能，提供更好的用户体验 • 通过完善开发规范、工具建设、联调流程优化，进一步提升整体开发效率 24

25. 我们的团队快手 Y-tech 介绍 Y-tech 团队是快手公司在人工智能领域的探索者和先行者。我们致力于通过计算机视觉、计算机图形学、机器学习、AR/VR/HCI 等多领域的交叉，一方面帮助每个人更好的表达自己和创作内容，另一方面为每个人提供更好的内容体验和交互方式。Y-tech 在北京、深圳、杭州、Palo Alto 均有研发团队。如果你对我们做的事情感兴趣，希望一起做酷炫的东西，创造更大的价值，欢迎联系并加入我们！联系方式：ytechservice@kuaishou.com。 25

26. 26

27. 27

28. 端侧_AI_SDK_框架，爆款特效批量生产背后的秘密扫描二维码提交议题反馈