华为商城特征平台建设

1. 华为商城特征平台建设实践曾中铭华为商城算法工程师 2022.06.12

2. 特征平台建设实践 • 问题与挑战 • 特征平台设计目标 • Feature as Code • 特征数据一致性 • 业界前沿观察 • Q&A 2/30

3. 问题与挑战数据集成特征、样本试算模型训练特征、样本 Pipeline开发模型部署服务集成监控 &效果评估图片来自Hidden Technical Debt in Machine Learning Systems. NIPS. 2494-2502. AI开发中存在诸多技术挑战，涉及技术栈多，流程长 3/30

4. 问题与挑战数据集成特征、样本试算模型训练特征、样本 Pipeline开发模型部署服务集成 • 开箱即用的算法环境： JupyterLab、GPU资源等一应俱全 • 高性能的模型训练能力：海量资源池、按需计费、多机多卡训练、多级缓存等 • Serverless形式的模型部署能力：快速在线推理/批量推理服务部署监控 &效果评估 4/30

5. 问题与挑战数据集成特征、样本试算特征、样本 Pipeline开发模型训练 • 特征计算难多种数据源组件 • 特征时效性保证 • 大数据场景下的SQL • 数据一致性保证 • 近线/实时计算 • 查询性能优化 • 规避特征穿越服务集成监控 &效果评估 • 特征Serving难 • • 样本生成难模型部署 • 特征、样本监控难 • Pipeline作业监控 • 数据质量监控 • 特征、样本管理缺失 • 特征血缘 • 特征复用 5/30

6. 设计目标数据集成特征、样本试算特征、样本 Pipeline开发模型训练问题与挑战模型部署 MVP 服务集成监控 &效果评估进阶形态特征计算 1. 降低特征Pipeline创建难度 1. 2. 易用性/扩展性兼顾融入DevOps流程样本生成 1. 提供便捷的实时样本生成能力 1. 扩展离线样本生成能力，满足新特征试算特征Serving 1. 2. 提供特征数据一致性保证统一存储/消费入口（以SDK、RPC形式） 1. 透明缓存、容灾等特征、样本监控 1. 2. 特征Pipeline作业监控各底层组件可用性监控 1. 数据质量监控特征管理 1. 2. 存量特征纳管特征共享&复用 1. 2. 特征、样本血缘管理特征探索&推荐 6/30

7. 逻辑架构数据存储特征平台模型训练 Monitoring 特征Pipeline、特征服务API监控数据质量监控 • • 消息中间件数据摄入 Feature Computing 数据湖样本消费 • • • • • 存量特征接入离线特征创建、管理近线特征创建、管理实时特征创建、管理离线/近线特征backfill Feature Serving • • • • 特征线下/线上存储实时样本生成离线样本生成特征服务 Feature Registry 数据仓库数据服务 /数据API • • 在线服务特征消费特征元数据管理特征复用 Compute Storage 实时处理批处理流处理 7/30

8. 特征平台建设实践 • 问题与挑战 • 特征平台设计目标 • Feature as Code • 特征数据一致性 • 业界前沿观察 • Q&A 8/30

9. 特征生产简化特征生产的本质：建立包含AI领域知识的数据Pipeline。依赖大数据工程能力技术栈复杂，特征生产无法通过单个角色承担： 1. 算法工程师：无法独立完成数据Pipeline作特征Pipeline作业业创建、管理、维护 2. 数据工程师：对AI领域知识和业务信息了解有限，跨团队效率下降数据源计算逻辑特征存储如何让算法工程师自助完成特征生产？依赖 AI领域知识和业务信息 9/30

10. 特征生产简化 Before 算法工程师：以 SQL、PySpark 代码形式提供核心计算逻辑 Now 依赖大数据工程能力特征平台特征Pipeline作业数据源计算逻辑依赖 AI领域知识和业务信息特征Pipeline作业特征存储数据源计算逻辑特征存储特征平台： • 负责特征Pipeline作业创建、部署、管理 • 包办I/O逻辑、存储优化等工程难点 10/30

11. 特征生产简化通过 SQL 创建特征，提升平台易用性 11/30

12. 特征生产简化多数据源、多模态、复杂计算逻辑等场景，通过 PySpark 代码创建特征，扩展性好 12/30

13. 特征生产简化特征平台文件数据数据仓库流式数据特征计算特征存储 13/30

14. 特征生产简化 • AI数据由算法工程师“自产自销”，效率提高 • 特征元数据平台统一纳管，实现资产共享复用 • 特征Pipeline作业统一管理，责任清晰 14/30

15. 特征数据一致性数据仓库离线特征存储线下训练（高吞吐）离线层在线层实时处理批处理流处理 15/30

16. 特征数据一致性数据仓库离线特征存储线下训练（高吞吐）离线层在线层在线特征存储线上推理（低时延）实时处理批处理流处理 16/30

17. 特征数据一致性数据仓库离线特征存储线下训练（高吞吐）离线层在线层在线特征存储线下/线上两条Pipeline，数据一致性难保证，导致Training-Serve Skew，引发线上效果劣化线上推理（低时延）实时处理批处理流处理 17/30

18. 特征数据一致性数据仓库离线特征存储线下训练（高吞吐）离线层在线层在线特征存储 • 问题本质是数据来自两条Pipeline 线上推理（低时延）实时处理 • 方案一：线下/线上消费同一套数据批处理 • 方案二：线下/线上Pipeline实现逻辑归一流处理 18/30

19. 特征数据一致性方案一：线下/线上消费同一套数据（来自同一个Pipeline），样本实时生成用于训练 4. 实时样本生成 • 架构简单，只需要维护在线特征存储 • 计算量小，不涉及离线大规模Join操作 • 支持在线模型更新 • 但对特征试算不友好特征服务 Feature Serving 5. 模型训练 2. 查询特征在线服务模型训练 1. 请求服务 3. 返回结果端侧应用实时处理批处理流处理 19/30

20. 特征数据一致性方案一（Alter）：线下/线上消费同一套数据（来自同一个Pipeline），样本实时生成用于训练 2. 实时样本生成流式数据用户行为日志 1. 日志上报特征服务 Feature Serving 在线服务端侧应用 3. 模型训练模型训练实时处理批处理流处理 20/30

21. 特征数据一致性方案二：（演进中）线下/线上Pipeline实现逻辑归一 • 满足特征试算需求 • 特征支持backfill • 计算量较大离线层在线层离线特征存储数据仓库离线生成的样本 Spark/Flink 批流一体计算 API 在线特征存储实时处理批处理流处理 21/30

22. 特征平台建设实践 • 问题与挑战 • 特征平台设计目标 • Feature as Code • 特征数据一致性 • 业界前沿观察 • Q&A 22/30

23. Feature as Code与GitOps 算法工程师：以 SQL、PySpark 代码形式提供核心计算逻辑特征平台简化了特征作业开发过程，特征开发周期从数周降低到数天。特征平台如何引入DevOps，以达成自动、可靠的版本管理与发布？特征Pipeline作业数据源计算逻辑特征存储 23/30

24. Feature as Code与GitOps DevOps流程特征平台简化了特征作业开发过程，特征开发周期从数周降低到数天。特征平台如何引入DevOps，以达成自动、可靠的版本管理与发布？特征Pipeline作业数据源计算逻辑特征存储 24/30

25. Feature as Code与GitOps • Feature as Code，代码定义Feature元数据和作业 • 依托Git完成Feature的版本管理 • 面向终态风格的变更流程（类似Terraform） • 平台自动编排调度Feature Pipeline • 参考Feast[feast.dev]、Tecton[https://www.tecton.ai/] 图片来自https://www.tecton.ai/ 图片来自https://www.tecton.ai/product/ 图片来自https://www.tecton.ai/product/ 25/30

26. Feature as Code与GitOps • 通过DevOps（gitOps）流程管理Feature • 变更审批、审计都前移到Git平台 • 集成自动化测试流程： • 单元测试：mock数据验证特征计算逻辑 • 集成测试：部署测试环境，验证作业正确启动 • UAT：部署验证环境，验证数据正确图片来自https://www.tecton.ai/product/ 26/30

27. 模型效果衰退与数据漂移 • 数据漂移导致算法模型效果下降 • 如何检测&监控数据质量？图片来自https://www.aporia.com/blog/concept_drift_in_machine_learning_101/ 27/30

28. 数据质量如何监控 • 参考Great Expectations • 数据Profiling • 图片来自https://docs.greatexpectations.io/docs/ • 基于对照组的profiling • 基于规则的profiling 基于Profiling结果的 • 可视化报告 • 监控&告警图片来自https://docs.greatexpectations.io/docs/ 图片来自https://docs.greatexpectations.io/docs/ 28/30

29. 特征平台：最佳的AI数据监控落脚点数据质量监控点 • • • • 特征平台入口： • 批式特征质量监控 • 流式特征质量监控特征平台出口： • 训练样本质量监控 • 消费特征质量监控挑战： • 流式数据质量监控 • 实时衍生特征质量监控参考Feast，Data quality monitoring (Alpha) ， [https://docs.feast.dev/reference/dqm] 29/30

30. 参考资料 • Hidden Technical Debt in Machine Learning Systems，https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning- systems • 特征平台需求层次理论，https://www.infoq.cn/article/83sxswlgqvejae7f9vut • 特征平台（Feature Store）：序论，https://zhuanlan.zhihu.com/p/406897374 • 特征平台（Feature Store）：Tecton，https://zhuanlan.zhihu.com/p/410767474 • Back to the Future: Solving the time-travel problem in machine learning， https://www.tecton.ai/blog/time-travel-in-ml/ • 特征平台（Feature Store）：从Feature as Code到Feature Pipeline as Code，https://zhuanlan.zhihu.com/p/512362076 • What is Infrastructure as Code with Terraform?， https://learn.hashicorp.com/tutorials/terraform/infrastructure-as-code • Concept drift in machine learning 101， https://www.aporia.com/blog/concept_drift_in_machine_learning_101/ 30/30

31. Q&A 31/30

32. Thank You 32/30