淘宝端计算平台介绍
如果无法正常显示,请先停止浏览器的去广告插件。
1. 淘宝端计算平台介绍
大淘宝 - META技术 - 旁通
2.
3. 一、整体架构
二、计算环境
三、研发运维
四、计算框架
五、业务实践
六、总结展望
4. 一、整体架构
5. 云计算
端计算
• 非实时响应,几十毫秒级 • 实时响应,无延迟
• 数据上云存在隐私安全、传输量大 • 端侧计算和存储,无需传输上云
• 云端资源消耗大 • 移动终端算力提升明显
什么是端计算平台?
面向端侧算法任务的一站式研发平台,包括基于Python的多端一致计算
容器及计算框架、端云数据通道以及任务发布和管理控制台。
统一高效的计算环境 | 灵活的发布实验策略 | 便捷的研发调试能力
6. 流数据计算
端 云
算法业务 在/离线算法系统
端计算任务管理与调度 云端特征接入与管控
端计算框架 端计算控制台
数据读写
数据封装
监控统计
任务管控
特征管控
基础能力封装层
端侧行为
数据采集
数据库读写API
数据库监控
数据读写监控
模型推理
API
基础能力
Sqlite
KV DB
AliNNPython
MNN
任务发布
AB实验
异常告警
数据通道 MNN工作台
发布通道 脚本开发
数据通道 真机调试
7. 二、计算环境
8. 算法:跨端、动态
工程:高效、受限
MNN推理引擎,轻量级高性能推理引擎 AliNNPython,基于CPython的端侧高性能
a. 通用性,支持TensorFlow、Caffe、ONNX等主流模 PythonVM
型格式,支持CNN、RNN、GAN等常用网络 a.
精简大小,10+MB -> 1.3MB
b. 高性能,支持CPU、GPU、NPU,充分发挥设备算力 b.
线程级VM,支持多线程并发执行Python脚本
c. 易用性,转换、可视化、调试工具⻬全,方便部署
https://www.mnn.zone/m/0.3/
https://github.com/alibaba/MNN
9. 三、研发运维
10. 任务组织
基于Git的任务组织方式:
仓库
场景1
场景2
任务内部资源结构:
任务
场景3
资源
脚本
分支
任务1
任务2
任务3
共享资源
标签
版本1
版本2
配置
版本3
资源:包括数据、模型等
独享资源
11. 研发流程
12. 任务发布
灵活、快速
1. 统一策略
2. 定制策略
a. 设备类型
b. APP版本
c. 用户属性
d. 特定APP
e. … …
3. 推拉结合
13. 调试运维
基于MNN工作台进行开发和真机调试
14. 四、计算框架
15. 复杂用户行为的端侧计算能力
需求:复杂组合行为
1. 现状与需求差异大 •数据定义
数据
标准 •数据操作
2. 计算逻辑复杂 •计算模式
计算
框架 •辅助功能
3. 数据种类增多 •数据可管控
管控
平台 •价值可度量
行为用户意图
意图强弱程度
缺少场景语义
缺少关联性
现状:基于单点采集
16. 数据标准
1.用户行为流/树,基于时间和空间构建的行为事件序列
2.任务触发,基于单个或者多个事件触发
用户行为数据获取/计算
用户行为树/流的裁剪/归并
17. 计算框架:流数据处理框架
Trigger Trie Tree
特征计算示例代
A
D
r
E
B
*
G
p
*
f
s
p
Event Streams
Page Events D ·· B
Basic Events d b
d'
· · · ·
r
s
E
b'
e
· · · ·
c
p
e'
G ·· …
g …
基于过滤后的事件流计算所需特征
18. 管控平台
特征市场
特征监控
特征预览
特征发布
19. 五、业务实践
20. 基于端计算平台的端上信息流推荐
客户端Native
用户行为特征采集
智能触发
请求
实时推荐系统
生成推荐结果
返回
深度模型Embedding
Native处理逻辑(重排/请求)
端计算
触发
上报
训练
日志
发送结果
端上推荐系统
问题:
1. 用户行为感知有延迟。(行为上传、分⻚机制等)
2. 用户行为感知不全面。(数据量大、关联复杂等)
端上重排 + 智能请求:
1. 基于端侧实时用户行为,对未上屏的商品进行重排序。
2. 基于端侧实时用户行为,动态发起请求获取推荐商品。
用户状态
端上重排
发送Embedding
样本生成
模型训练
智能请求
端计算框架 / MNN引擎
离线训练
发送
模型
模型拆分
业务效果: 大促GMV提升10+%
21. 六、总结展望
22. • 更高效。任务研发效率,计算环境效率等。
• 更精细。任务管控粒度,数据管控粒度等。
• 更稳定。计算与数据监控,系统与资源监控等。
23.
24.