美团外卖广告特征平台实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 美团外卖广告特征平台实践美团外卖广告组，邹亚劼美团到家事业部

2. 目录 1、特征平台需求理解 • 特征平台价值 • 特征需求演进 • 系统建设路径 2、特征平台架构 • Static Time需求架构 • Real Time需求架构 • Point Time 需求架构 3、总结与展望 • 长远看“存、算”的问题

3. 特征平台价值搭天花板需要多长时间？什么是天花板？上线1次离线N次特征>60% GPT的回答特征做功空间很大，每一次进步，促进AI提效模型30% 美团外卖广告下，特征应用情况用户&商家精准的匹配，系统决策全链路智能化部署，每一次的特征体系&系统架构升级，都是为了“帮大家吃得更好，生活更好” 创意相关性召回特征模型精排

4. 特征需求演进需求关键词用户数据全还原，超长的行为序列，大模型助力业务数据行规模3+倍，列规模 10+倍增长下高效生产实时特征，特征快照实时一致性，提升模型在业务上效果统计类特征迭代为主，快速支持业务迭代算法需求 “Hive->KV->特征服务”迭离线/在线数据、计算一致 Real Time 单个特征万长几十宽，批的方式，一个作业万级CU也要生产很久代范式快 Static Time 搜推广高QPS下，海量特征快照收集成本工程难题生产不稳定，影响在线服务 Point Time 在线IO量巨大，性能问题离线计算流程如何对齐在线计算流程迭代一次特征，N个服务开发一遍特征演进

5. 特征系统建设路径 Real Time Static Time 1.0阶段：一站式生产、消费的特征平台 Point Time 2.0阶段：在、离线强一致的特征平台 3.0阶段：数据全还原的特征平台 2021 特征管理特征在线服务 2019 特征治理能力特征实时系统特征补录系统特征生产系统特征流批架构特征、推理一体架构特征回流系统特征列存架构系统建设路径

6. 目录 1、特征平台需求理解 • 特征平台价值 • 特征需求演进 • 系统建设路径 2、特征平台架构 • Static Time需求架构 • Real Time需求架构 • Point Time 需求架构 3、总结与展望 • 长远看“存、算”的问题

7. Static Time需求架构精排服务机制服务业务服务业务支持特征服务任务调度监控报警元数据服务特征生产 Hive Spark 特征平台特征注册 Cellar MySQL 基础设施

8. Static Time需求架构-特征生产特征具体理解 Uuid 性别 Uuid 相同 SQL 语义的合并收藏的店 xxxx 品类 Sku Sku Poi 一、语义任务特征生产调度二、聚合任务 Poi Uuid 按维度聚合到宽表三、同步任务多版本存储维度数据分发到线上KV存储 KV V2，V1，V0 四、版本任务多版本生产，分钟级回切 PB结构销量非定长定长 xxxx 特征结构特征是归属到具体某一个维度上的序号类型值序号类型长度值 PB，元数据服务翻译

9. Static Time需求架构-特征服务均衡的IO访问策略本地：高频Item数据内存IO 特征在线服务 Sku Poi 远程：KV引擎的IO与存储Balance I/O量，N条流量*（X+Y+Z）->N*X+Y+Z 调度层 Item T 1 Uuid T n Thread Pool BatchEventHandler BatchEventHandler Feature Fetch 上报配置层 Y 组1 Z 组2 业务独有特征存储量， N*X+Y+Z ->X+Y+Z 数据驱动的DAG调度执行层公共特征 X个组0 高性能特征计算引擎 Feature Compute CodeGen，动态生成执行代码分组策略 Feature Meta MFDL Op(slice) Op(slice) Literal(1) Literal(0) Op(read) * Attr(poi_id) Literal(24) 常量折叠 Literal(60)

10. Static Time需求架构-特征迭代新流程算法开发工作简注册配置读新迭代流程全局用稳定写 Poi … … Query Meta信息全局可视化，血缘可追踪零运维自适应写，机器负载状态，并发写多个平台运维，XT、 Spark、线上服务优先级写，保证重要特征优先写多套代码运维，算子库、离线任务库等多版本写，写错数据，分钟级回切多个组织交流

11. Real Time需求架构模型推理业务服务离线训练业务支持特征服务任务调度元数据服务特征回流特征生产实时生产 Kafka 特征平台特征注册特征治理特征补录 Hive 监控报警 Spark Flink Cellar HBase 基础设施

12. Real Time需求架构-实时特征实时特征生产 Compatible Get Offline Produce Feature Server KV Real Produce Feature Meta SQL描述流量日志对齐离线数据PB格式，分组管理 Get Row 清洗扩维合流 BingLog 分流裁剪 Message 流式同步任务 KV Append Col And Put Row Flink实时生产

13. Real Time需求架构-特征回流 Feature 0.1 1 2 在线预测点击数据一致性问题 0.1 3 2 0.1 点击在线通过KV获取，离线通过 Hive获取，数据不一致 1 5 核心的两个不一致样本零等待 ③ Label流 HBase ④K Query Join 特征实时回流 Window Time Consume 极致成本零内存Join 低数据流通离线训练算子在线、离线两套，计算不一致 Label+特征极致效率点击 HDFS ⑥ ⑤Write Static Feature Sample Batch Training Stream Training KV ②入Kafka Context +Real Static Feature ①Split Feature Online Serving 经常性case：离线训练效果好，线上效果不好

14. Real Time需求架构-特征补录 Feature 0.1 1 2 在线预测点击计算一致性问题 0.1 3 2 0.1 点击在线通过KV获取，离线通过 Hive获取，数据不一致 1 5 点击经常性case：离线训练效果好，线上效果不好离线训练算子在线、离线两套，计算不一致核心的两个不一致预估服务特征计算 MFDL 对齐在线的补录统一描述语言统一算子库 PV粒度特征现场特征描述特征算子部署到线上特征快照复用一套描述，算子新特征调研原始特征模型特征 Label+ Training

15. Real Time需求架构-特征治理特征平台的特征越聚越多，缺少高质量特征流通，没有实现1->N的辐射。其次，当一切变得实时落之后，特征快照量带也来了很大的存储成本。一、标准化特征输入，让模型可简单识别输入特征，比如Cate类特征做表征，Dense类直接到MLP。二、采集高质量特征，监控所有特征在业务模型上线情况，效果正向的特征将会被纳入特征推荐系统。三、特征在模型上实验，将该特征直接补录到当前模型的训练样本中，启动模型训练，然后进行模型评估。四、通知模型负责人，AUC等效果报表推送到每个模型负责同学，去评估是否引入特征。五、模型自动上线，将特征自动添加到线上，线上引流AB。

16. Point Time需求架构模型服务业务服务离线训练业务支持特征、推理一体服务元数据服务特征回流任务调度 Hive 长序列生产特征生产特征回溯特征补录 Kafka Spark Flink 实时生产监控报警特征平台特征治理 KKV HBase Hudi 基础设施

17. Point Time需求架构-超长序列特征生产传统Lambda架构一、流批分离，批每天搅动N张行为表回溯，大量Shuffle计算二、在线合读，数据不一致问题。时间缺口，实时数据冗余1-2天三、分散加工，存在大量重复生产，资源浪费流数据，Kafka实时消费批数据，每天一个分区就绪原始数据行为源1 行为源n 行为源n 行为源1 等待所有就绪，大规模Shuffle计算用户行为宽表，T-1分区用户行为合流作业，T数据历史宽表用户行为宽表，T-2分区 KV存储实时宽表 Redis Cellar 合读，完整行为数据在线合并 T行为2 T行为1 T-1行为1 棘手的边界处理，在线RT影响 T-N行为1

18. Point Time需求架构-超长序列特征生产流批统一架构生产流批统一：流作为主要生产力，批作为一次性作业，“海啸式”生产弱化到“波浪式”，消除了天级等待的生产。数据统一：收口到一个数据源，解决T数据，T-1数据合读问题，减少在线性能额外消耗。作业统一：全局统一的作业，产出的数据，各个组织间复用、共享，资源得到极大节省。冷启动一次元数据增量流 Flink运维一个作业生产配置长作业监控生产任务模块 HBase流批统一存用户1 用户n 行为1 行为n 事件发送监听与微聚合加工插件同步任务模块 KV

19. Point Time需求架构-超长序列特征回溯什么是回溯用户M 找到过去所有发生的线索点击行为行为 N 万级别用户M T T-1 Poi1 亿级别行 x 万级别长 Join 十级别宽大Shuffle计算 T-N PoiN 计算量商家品类亿级别十级别用户X 销量实验x特征特征回溯高频迭代区附属信息别名，Side Information N种行为 x 180天分区

20. Point Time需求架构-超长序列特征回溯大规模长序列SideInfo回溯方案基于在线一致的大宽表，按需导出，减少了N个源头聚合生产，保证了数据一致多级本地Join，数据量从亿级行x万级长 Join 十级宽的Shuffle，缩小到亿级行节点闭环Join 在线批冷启动一次离线流数据 ①Label注入辅助导出 Behavior Sequence ② HBase PoiSideInfo 10个，8GB内存广播 PoiSideInfo 50个，30GB内存 /SSD/HDD广播 SkuSideInfo HBase基于Label 部分行*部分列*部分时间版本序列 HBase压力大，影响线上稳定性，更优的解法？聚合、裁剪 >50个，>50GB内存 /SSD/HDD/KV ③SideInfo内存、磁盘、远程多级本地Join，解决大Shuffle问题 Serving KV ④ 补录系统 ⑤ Training

21. Point Time需求架构-离线列存 Why 列存列式存储明细层曝光明细大宽层 Uuid 加工层特征表1 快照数据下单明细 Poi 特征表n 调研特征 Label B样本 Label C样本 Label 大宽层 Spu Label A样本一、特征回溯部分列需，但整行放入Spark做Join 每个实验都拖着整行快照数据做新特征拼接每个实验都会冗余一份Base快照数据二、特征补录 Tfrecord中间文件模型训练基于Hudi的大宽层从离线数据全流程看按需列取生产调研特征基于Hudi的调研特征存储快照数据基于Hudi的快照存储双数据源直连到训练，解决冗余存储模型训练

22. Point Time需求架构-在线列存 Why KKV？ 1、写的增量性，部分特征就绪，需要直接写入 1、读的稀疏性，列需行取，I/O问题凸显行读列需，IO、反序列化成本 Only Insert 读场景 2、读的下推性，部分过滤可以在存储层 KV使用现状写场景一年数据需近60天，但整行拉过来 3、读的行版本性，特征回流场景，延时消费 2、写的时效性，写的速度，流写、批写，写完整体生效 3、写的稳定性，写失败断点重写，写错数据回切

23. Point Time需求架构-在线列存 Create Table 离线写 ①创建临时万列表v2 HDFS SST WAL ③4K写文件 ②按存储SlotID Repartition Store存储万列表v1 Meta SST ⑤切表 Check& Rename 分片0 在线读 Key Key 反序列化CPU 消耗下降特征平台引擎分片1 分片2 业务列读列ID Uuid,喜欢川菜存、算分离架构 ④Notice Ingest Key，Index 列列 Server引擎按需返回 IO下降50% 索引结构 Value K、V分离 KKV存储引擎

24. Point Time需求架构-特征、模型在线一体历史三个阶段演进 Proxy Feature Inference CTR/CVR/Price/ROR Model OOM CVR CTR Feature Inference 1.0 早期一体化 Feature Feature Inference 2.0 模型为中心拆分 CTR/CVR/Price/ROR Feature Overlap CVR CTR Inference Inference 3.0 特征、模型独立

25. Point Time需求架构-特征、模型在线一体需求的变化在万长百宽的序列下， I/O传输问题多种机器学习场景，多插件后端需求技术的变化更牛的硬件设施 ①存储更大，HBM/Mem/SSD ②计算更强，GPU+新型的CPU 更精益的系统、算法架构 ①大模型计算、存储分离架构 ②多种软件加速手段 ③算法体系升级，一模多出存储异构支撑的一体化在线系统

26. 目录 1、特征平台需求理解 • 特征平台价值 • 特征需求演进 • 系统建设路径 2、特征平台架构 • Static Time需求架构 • Real Time需求架构 • Point Time 需求架构 3、总结与展望 • 长远看“存、算”的问题

27. 长远看AI数据“存、算”的问题 AI数据需求演进统计类等静态数据实时性数据全还原行为序列数据图片、音视频等多模态突破硬件布局的需求？能解吗？大数据架构演进离线数仓 Hive，Spark 实时数仓 Storm，Flink 湖仓一体数据湖主流增量数仓 Flink+数据湖，真正的流批一体 HBM+Mem+SSD/HDD存硬件层面应用长期都是CPU + Mem的标配 CPU+GPU的算开始崭露头角

28. Q&A

29. 招聘：XXX岗位邮箱：XXX@meituan.com 更多技术干货欢迎关注“美团技术团队”