OpenMLDB:为机器学习高效供给正确数据
如果无法正常显示,请先停止浏览器的去广告插件。
1. OpenMLDB:为 AI 工程化
落地高效供给正确数据
陈迪豪
研发工程师 / OpenMLDB PMC成员
2.
3. About Me
• 第四范式研发工程师
• HBase / OpenStack / TensorFlow / TVM contributor
• OpenMLDB PMC Member
4. • AI工程化落地的数据供给挑战
• OpenMLDB:高效供给正确数据
• OpenMLDB数据库离线性能优化
• 拥抱开源、面向社区的开源数据库
5. • AI工程化落地的数据供给挑战
• OpenMLDB:高效供给正确数据
• OpenMLDB数据库离线性能优化
• 拥抱开源、面向社区的开源数据库
6. AI工程化落地的数据供给挑战
数据侧的技术演进为基于人工智能的决策提供了可能
7. AI工程化落地的数据供给挑战
正确、高效的 AI 数据供给成为数据侧的新挑战
95%
时间精力花费在数据上
Source: How to Operationalize Machine Learning and Data
Science Projects, Gartner, July 2021
≠ AI
8. AI工程化落地的数据供给挑战
AI 工程化落地数据供给的最大挑战:线上线下一致性校验
9. AI工程化落地的数据供给挑战
线上线下一致性校验带来的高昂工程化落地成本
10. • AI工程化落地的数据供给挑战
• OpenMLDB:高效供给正确数据
• OpenMLDB数据库离线性能优化
• 拥抱开源、面向社区的开源数据库
11. OpenMLDB:高效供给正确数据
OpenMLDB:开源机器学习数据库,为机器学习应用高效供给正确数据
12. OpenMLDB:高效供给正确数据
核心价值:
线上线下一致性
开发即上线
13. OpenMLDB:高效供给正确数据
OpenMLDB技术架构图
14. OpenMLDB:高效供给正确数据
拥抱新技术:基于持久内存的高效数据供给
15. • AI工程化落地的数据供给挑战
• OpenMLDB:高效供给正确数据
• OpenMLDB数据库离线性能优化
• 拥抱开源、面向社区的开源数据库
16. OpenMLDB数据库计算性能优化
特征工程常用特征类型
17. OpenMLDB数据库计算性能优化
多窗口并行计算优化
18. OpenMLDB数据库计算性能优化
多窗口并行计算优化
19. OpenMLDB数据库计算性能优化
多窗口并行计算优化性能
20. OpenMLDB数据库计算性能优化
窗口数据倾斜优化
21. OpenMLDB数据库计算性能优化
窗口数据倾斜优化
22. OpenMLDB数据库计算性能优化
窗口数据倾斜优化性能
MPP System
23. OpenMLDB数据库计算性能优化
原生拼表实现优化
MPP System
24. OpenMLDB数据库计算性能优化
零内存拷贝的编解码优化
25. • AI工程化落地的数据供给挑战
• OpenMLDB:高效供给正确数据
• OpenMLDB数据库离线性能优化
• 拥抱开源、面向社区的开源数据库
26. 拥抱开源、面向社区的开源数据库
27. 拥抱开源、面向社区的开源数据库
OpenMLDB 典型案例 – 广发银行事中反欺诈交易
28. 拥抱开源、面向社区的开源数据库
OpenMLDB 典型案例 – AIOPS领域交易系统异常检测
29. 拥抱开源、面向社区的开源数据库
欢迎加入OpenMLDB开源社区
30.
31.