美团大脑：美食领域知识图谱构建及应用进展

1. 美团大脑-生活服务知识图谱构建及应用美团NLP中心张鸿志

2. 目录 CONTENT 01 02 美团大脑简介此部分内容作为文字排版占位显示（建议使用主题字体）标签图谱构建与应用 03 菜品知识图谱构建技术此部分内容作为文字排版占位显示（建议使用主题字体）

3. 美团大脑是什么？ 2018 !"#$ 2019 %&#$ 2020 '(#$ ! " # $ % & ' ( cross

4. 目录 CONTENT 01 02 美团大脑简介此部分内容作为文字排版占位显示（建议使用主题字体）标签图谱构建与应用 03 菜品知识图谱构建技术此部分内容作为文字排版占位显示（建议使用主题字体）

5. 标签图谱——更好地连接商户供给与用户意图我们以生活服务领域的海量评论数据作为主要知识来源，通过标签挖掘、标签间关系挖掘以及标签-商户关联等关键技术，自底向上梳理用户的需求、场景和主要关注点，完成图谱构建。

6. 标签图谱构建—Overview 带孩子 9:;< 同义词上下位 )*+, 亲子带娃 )*-. 带娃玩亲子酒店上下位 =>+, /01 234 ?@6) !56) Aspect78-. 儿童乐园 ABCD EFCD 标签图谱公园溜娃商户供给 KidSteam 儿童乐园 ?@CD 用户意图颐和园

7. 标签图谱构建—标签挖掘及判别 O O O O B I I O O B I I O B 2 • Single span 标签挖掘 O O CRF • 老牌子是南京的老牌子了，房间还挺舒的。 • 跳字标签挖掘 • 房间舒适 MT-BERT 是南京的老牌子，房间还挺舒适的。 1 1 0 牌子房 • 基于语义判别 MT-BERT MT-BERT 老 • Unware 间还 Context-unware标签判别 . $ 房间 $ 还挺 & • Aware 舒适 & 的 Context-ware标签判别-vote • 结合上下文判别 • 远监督+结果投票

8. 标签图谱构建—标签挖掘及判别

9. 标签图谱构建带孩子 9:;< 同义词上下位 )*+, 亲子带娃 )*-. 带娃玩亲子酒店上下位 =>+, /01 234 ?@6) !56) Aspect78-. 儿童乐园 ABCD EFCD 标签图谱公园溜娃商户供给 KidSteam 儿童乐园 ?@CD 用户意图颐和园

10. 标签图谱构建—标签同义词挖掘给出包含N个词的池子，M个业务标签词，查找M中每个词在N中的同义词。标签池 , L=N 夜宵好去处带小孩业务标签词 , L=M 情侣约会带孩子带娃约会拍拖带小朋友寿宴老人生日同义词夜宵圣地 • 现有同义词挖掘方法，缺乏通用性 • 搜索日志挖掘 • 百科数据抽取 • 基于规则的相似度计算，如编辑距离、词向量相似度等 • 目标：通用性强、可泛化到大规模数据集的标签同义词挖掘方案

11. 标签图谱构建—标签同义词挖掘线上计算离线计算 tagA 标签池标签表示向量召回同义词判别模型 tagA,tagB 向量索引同义词对候选生成效率计算复杂度O(Mlog(N)),速度快何种标签嵌入表示方法？准确对比倒排索引候选生成，可召回字面无overlap的同义词，准确率高、参数控制简单同义词判别模型设计？

12. 标签图谱构建—标签表示学习 • 标签词嵌入表示 tagA 标签词嵌入表示方法优点缺点 word2vec 实现简单；词向量取均值，忽略了词的顺序 BERT 预训练过程中能够捕捉更为丰富的语义表示；直接取[CLS]向量，效果与 word2vec相当； Sentence-BERT 准确率高； —— train tagB tagA tagB inference 数据集 word2vec BERT- Base Finetuned BERT (u,v) Sentence BERT (u,v,|u-v|) STS16 65.7% 62% 66.0% 80.8% 同义词 76.1% 76.4% 79.4% 90.1%

13. 标签图谱构建—标签表示学习 • 标签词嵌入表示 Query 词适合少女方法 Top1 Top2 Top3 Top4 Top5 Top6 Top7 Top8 Top9 Word2vec 适合少女心适合文艺适合淑女适合日系适合文艺小青年适合可爱适合小女生适合文青适合爱猫 Bert-Base 适合女同志粉嫩少女适合妹妹适合女人适合新人适合摄影适合新娘爱好者适合三岁 Sentence- Bert 适合小女生适合女孩适合小女能满足少女心适合女生适合女汉子适合女孩纸适合女娃适合小女生去无标注数据？ Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer.” ACL 2021 Gao, Tianyu, Xingcheng Yao, and Danqi Chen. “SimCSE: Simple Contrastive Learning of Sentence Embeddings.” EMNLP 2021. Other related methods

14. 标签图谱构建—标签表示学习 Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self- Supervised Sentence Representation Transfer.” ACL 2021

15. 标签图谱构建—标签表示学习 • 无监督学习 • 对样本做扰动产生样本pair • 最大化batch内同一样本的相似度 • 监督学习 • With 监督学习联合学习方法 Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self- Supervised Sentence Representation Transfer.” ACL 2021

16. 标签图谱构建—标签表示学习无监督表示学习效果对比 Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self- Supervised Sentence Representation Transfer.” ACL 2021

17. 标签图谱构建—标签表示学习 +监督学习效果对比 Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self- Supervised Sentence Representation Transfer.” ACL 2021

18. 标签图谱构建—标签同义词挖掘线上计算离线计算 tagA 向量召回标签表示标签池同义词判别模型 tagA,tagB 向量索引同义词对候选生成 Tag A TagB 方法 AUC 统计学习 86% BERT 92% (+6PP)

19. 标签图谱构建—标签上下位挖掘 • 词汇包含关系是最重要的上下位关系 • 基于语义的挖掘方法 • • • 类似同义词挖掘方案基于统计的挖掘方法 • 所关联商户的交叉比例 • 所共现UGC的交叉比例 • Query-click交叉比例结论 • 亲子乐园带孩子上下位的标准较难统一 • • 亲子酒店 Eg. 海鲜炒饭à海鲜？朋友聚餐-是人群场景还是事件？结合领域需求，对算法挖掘结果进行修正，是相对可行的方案

20. 标签图谱构建——图谱打标带孩子 9:;< 同义词上下位 )*+, 亲子带娃 )*-. 带娃玩亲子酒店上下位 =>+, /01 234 ?@6) !56) Aspect78-. 儿童乐园 ABCD EFCD 标签图谱公园溜娃商户供给 KidSteam 儿童乐园 ?@CD 用户意图颐和园

21. 标签图谱构建—商户打标标签集合 tag 俄罗斯餐厅 (俄罗斯餐厅,普希金文学餐厅) (俄罗斯餐厅,北京展览馆) (俄罗斯餐厅,华熙LIVE) ✔ ✗ ✗ 在工体对面的一家俄罗斯餐厅… 原来叫苏联展览馆，怪不得里面有俄… 里面有家俄罗斯餐厅，改天来尝尝苹果体验店 (苹果体验店,来甩米线) ✗ 在苹果体验店的旁边适合老年人 (适合老年人,泰山) (适合老年人,四世同堂) ✗ ✔ 总体不错，不过不太适合老年人菜品比较清淡，适合老年人自助餐 (自助餐，花隐日本料理) ✗ 比那些日式自助餐好多啦标签及其同义词在商户UGC/团单中出现的频率，卡一个阈值。现状商户打标判别模块候选 tag-POI 对生成 • • 基于统计规则缺少通用关联方案频率高就一定是有关联吗旁边/否定/对比

22. 标签图谱构建—商户打标饮品甜品店咖啡蛋糕店商户 Taxonomy 奶茶店商户一点点 UGC 要啥自行车 UGC 喝个下午茶有点舒服 UGC … 用户评价 Tag TagA Shop Information Eg. 自行车下午茶 Shop Information: 商户名、商户三级类目、商户top标签

23. 标签图谱构建—商户打标四分类：正面/负面/不相关/不确定饮品甜品店咖啡蛋糕店商户 Taxonomy 奶茶店商户一点点 UGC 要啥自行车 UGC 喝个下午茶有点舒服 UGC … 用户评价 Tag

24. 标签图谱构建—商户打标四分类：正面/负面/不相关/不确定分类匹配将tag作为参数输入，支持动态新增标签基于多任务学习的方法基于语义交互的判别模型

25. 标签图谱构建—商户打标速度准确率 TagA Evidence 基于 BERT 的方法基于语义交互的判别模型（轻量级）轻量级 BERT-6 层裁剪 BERT-12 ACC 84.5% 86% 86.8% SPEED ~5000it/s, 15x 640it/s,2x 320it/s,x

26. 标签图谱构建—商户打标四分类：正面/负面/不相关/不确定饮品甜品店咖啡蛋糕店商户 Taxonomy 奶茶店商户一点点 UGC 要啥自行车 UGC 喝个下午茶有点舒服 UGC … 用户评价 Tag

27. 标签图谱构建—商户打标饮品甜品店咖啡蛋糕店 • 商户 Taxonomy • • 奶茶店商户一点点 UGC 要啥自行车 UGC 喝个下午茶有点舒服 UGC … Tag-商户Taxonomy Tag 分为Not, Perhaps 和Must三类方法 • 基于商户层关联结果投票 • 高准确率要求时，人工review 用户评价 • 结果 • 基本满足95%准确率上线需求

28. 标签图谱构建——图谱应用带孩子 9:;< 同义词上下位 )*+, 亲子带娃 )*-. 带娃玩亲子酒店上下位 =>+, /01 234 ?@6) !56) Aspect78-. 儿童乐园 ABCD EFCD 标签图谱公园溜娃商户供给 KidSteam 儿童乐园 ?@CD 用户意图颐和园

29. 标签图谱构建——数据应用之Open知识问答标签标签 Evidence Evidence

30. 标签图谱构建——数据应用之搜索召回/排序 Query DQU-实体链接标签理解（id映射）大搜搜索召回+排序策略标签及打标结果接入索引层打标结果全面可解释性标签展示

31. 标签图谱构建——数据应用之搜索召回/排序

32. 标签图谱构建——数据应用之搜索召回/排序安静的酒店安静的酒店同义映射隔音好美景近美景近同义映射近景点近景点隔音好近景点

33. 标签图谱构建与应用—表示应用知识图谱如何应用到搜索推荐中——GNN • • 构图 • Query-POI点击行为 • Tag-POI关联信息图学习 (Graph Sage) • • • 学习目标 • II(Tag, POI) in (0, 1) • II(Query, POI) in (0, 1) 依据关联强度进行采样 • 搜索Application • Query-POI向量相似度接入 • Query, POI向量接入 • Observation1 • 仅利用Query-POI信息构图，线上无收益 • 引入Tag-POI关联信息后提升显著 Observation2 • 仅接入向量相似度无收益 • 将Query, POI向量接入后提升显著

34. 标签图谱构建与应用—表示应用知识图谱如何融入到序列推荐任务中 S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization— CIKM2020

35. 标签图谱构建与应用—表示应用 • 线上Application I2I向量召回 • 知识图谱如何融入到序列推荐任务中 • 在美食列表推荐页有显著提升

36. 目录 CONTENT 01 02 美团大脑简介此部分内容作为文字排版占位显示（建议使用主题字体）标签图谱构建与应用 03 菜品知识图谱构建技术此部分内容作为文字排版占位显示（建议使用主题字体）

37. 菜品知识图谱构建目标 1. 构建对菜品的系统理解能力 2. 构建完备的菜品图谱技术路线 G " ? @ a e f g ]O^_`aRbcdY\I 9:+,YZ[\I KLMNOPQRSTUVWVTXV GHIJ 封闭域知识图谱构建实践经验

38. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g hiGjkl1 9:+,Y Z[\I !"#$% 012 )*+ KLMNOP QRSTUVWVTXV GHIJ #$% ,-./ 菜名中蕴含着最精准、获取成本最低的菜品信息。对菜名的理解，也是后续显示知识推理泛化能力的前提。

39. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g hiGjkl1 !"#$% 012 )*+ 9:+,Y Z[\I #$% ,-./ KLMNOP QRSTUVWVTXV GHIJ !"#$%& With '()* !"#$%& Without '()*

40. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g 小笼包食材 ? 佛跳墙 9:+,Y Z[\I KLMNOP QRSTUVWVTXV GHIJ 上位词类目 ? 猪蹄功效 ? 锅巴菜场景 ? 烤鱼豆腐上位词？包子海参海鲜养颜美容早餐豆腐基于深度学习模型进行初步的字面推理，可实现对不同字面表述的泛化处理，但对需要专业知识的case表现欠佳，偶尔在字面极其匹配时出现case。

41. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g 9:+,Y Z[\I 菜谱结构化数据菜谱文本信息挖掘抽象推理源知识泛化推理到餐SKU 外卖SKU KLMNOP QRSTUVWVTXV UGC挖掘 GHIJ 多源知识挖掘 X亿店菜从知识内容丰富的文本中挖掘某些菜品的基础知识，构建源知识库；知识推理，泛化到信息缺乏的海量店菜。

42. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g 12 34 vwrxyjstz mnopqr stuvwrG@ {|vwr }~jst• mno•‚ƒG@ 9:+,Y Z[\I „…xyjstz †‡ }~jst• wˆ }~jst• ,-.( KLMNOP QRSTUVWVTXV 23 45 895: GHIJ DL 67 ;< 45 ;<=>!?@ 0 1 r €T pqrà{|vwr •‚ƒ‰$Š‰„…j†‡jwˆ ,-&/( 1 !"#$% &'(!)*+ ,-&'( DH .( ABC !" &'( DE FG 多源数据挖掘，基于菜名理解结果构建solid knowledge triple。同时也依赖菜名理解结果完成泛化规则。该策略主要适合处理食材、功效、人群等标签维度。方法准确率OK，有一定的泛化效果，,但是覆盖偏低&费RD。

43. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g 小笼包上位词食材 ? 9:+,Y Z[\I KLMNOP QRSTUVWVTXV GHIJ 佛跳墙类目 ? 猪蹄功效 ? 锅巴菜场景 ? 烤鱼豆腐上位词？包子海参海鲜养颜美容早餐豆腐 Another way beyond explicit reasoning. Further-pretraining.

44. 菜品知识图谱构建 • Foo-BERT: harvest the training corpus ]O^_`aR bcdY\I G " ? @ a e f g 无肉不欢 9:+,Y Z[\I 健康时蔬 KLMNOP QRSTUVWVTXV GHIJ 1000万商户编辑的自洽的分类树宫保鸡丁川府毛血旺香锅卷心菜上汤西蓝花 Dish TabName Label 宫保鸡丁无肉不欢 1 宫保鸡丁健康时蔬 0 上汤西蓝花健康时蔬 1 上汤西蓝花无肉不欢 0 5 亿 positive pairs 30G corpus

45. 菜品知识图谱构建 • Foo-BERT: training and usage—vanilla BERT matching model ]O^_`aR bcdY\I G " ? @ a e f g 9:+,Y Z[\I KLMNOP QRSTUVWVTXV Shop Dish TabName Label 绿茶餐厅宫保鸡丁无肉不欢 1 绿茶餐厅宫保鸡丁健康时蔬 0 绿茶餐厅上汤西蓝花健康时蔬 1 绿茶餐厅上汤西蓝花无肉不欢 0 • Sometimes surprisingly well. Better than myself. 生滚鱼片粥---海鲜粥 --- 0.85 生滚鱼片 ---海鲜粥 --- 0.83 锅巴菜 ---早餐 --- 0.75 Is tab replaced ? • Sometimes simple error Is the shop replaced? 螃蟹 GHIJ [CLS] 绿茶餐厅 [SEP1] 宫保鸡丁[SEP] 健康时蔬商户名菜品名 ---海鲜粥 --- 0.75 初始化下游模型： 10万标注数据下，菜品上下位/同义词模型准确率提升1.8PP 菜品分类其他细节：50%的概率drop shop name，使得模型仅输入菜名时表现鲁棒。

46. 菜品知识图谱构建 • 多模态&多视图半监督学习——半监督学习for属性挖掘 ]O^_`aR bcdY\I G " ? @ a e f g Why 双塔模型 • 下游应用方便：单塔模型可独立使用&可 Inference出菜品图片的表示并缓存下来； • 图片内容单纯，暂无交互式建模的必要。 InfoNCE loss 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT 训练目标任务名 ShopName DishName DishTab 图像侧图片 - 店菜匹配图片 - 菜名对齐图片 -Tab 对齐文本侧 Shop+Tab+Dish 店菜图片 Tab+Dish / Dish Tab

47. 菜品知识图谱构建 • 多模态&多视图半监督学习——Application ]O^_`aR bcdY\I G " ? @ a e f g InfoNCE loss 菜品品类预测/菜品信息补全 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT ShopName DishName DishTab

48. 菜品知识图谱构建 • 多模态&多视图半监督学习——Application ]O^_`aR bcdY\I G " ? @ a e f g InfoNCE loss 菜品品类预测/菜品信息补全 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT ShopName DishName DishTab

49. 菜品知识图谱构建 • 多模态&多视图半监督学习——Application ]O^_`aR bcdY\I G " ? @ a e f g InfoNCE loss 菜品属性抽取——以烹饪方法抽取为例 1.Name parsing 产生烹饪方法训练样本；红烧肉---红烧 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT ShopName DishName DishTab 2.Train CNN模型预测菜品烹饪方法； 3.CNN模型预测菜品烹饪方法； 4.Finetune 文本模型/多模态模型，基于商户 /tab/菜品名及评论信息预测菜品烹饪方法

50. 菜品知识图谱构建 • 多模态&多视图半监督学习——Application ]O^_`aR bcdY\I G " ? @ a e f g InfoNCE loss 菜品属性抽取——以烹饪方法抽取为例 1.Name parsing 产生烹饪方法训练样本；红烧肉---红烧 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT ShopName DishName DishTab 2.Train CNN模型预测菜品烹饪方法； 3.CNN模型预测菜品烹饪方法； 4.Finetune 文本模型/多模态模型，基于商户 /tab/菜品名及评论信息预测菜品烹饪方法

51. 菜品知识图谱构建 #$%&'(/)*+, Overcome 456 + 789 :;< & => ?56#$@ABCDE/ (4FGHIJKLMNC Knowledge& Lexical Gap OPFQR!"F STFALL_todo UVWX & YZ=> [\]^UV/_V, eg.`a b-cd-efFghFijC Knowledge cdFcdklFmnF OPFopFqr s(tu5v w9=> GHx?yz{|}=>C Lexical Gap ~}•F€•‚FqrF qƒ„…†r q‡>) q‡ˆ‰Š‹Œ•ŽF%& ••Œ‘yqƒ#$’eg.“ ”•–—C ˜™šYZ=>y›Hœ2• x?&•Ž ž†qFcdF Ÿ FQR!" ¡¢• !" !+ ,- ./ 01 -./((01/23)

52. 非常感谢您的观看招聘实习生岗位： NLP算法工程师、算法实习生简历投递邮箱： zhanghongzhi03@meituan.com