美团大脑:美食领域知识图谱构建及应用进展

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 美团大脑-生活服务知 识图谱构建及应用 美团NLP中心 张鸿志
2. 目录 CONTENT 01 02 美团大脑简介 此部分内容作为文字排版占位显 示 (建议使用主题字体) 标签图谱构建与应用 03 菜品知识图谱构建技术 此部分内容作为文字排版占位显示 (建议使用主题字体)
3. 美团大脑 是什么? 2018 !"#$ 2019 %&#$ 2020 '(#$ ! " # $ % & ' ( cross
4. 目录 CONTENT 01 02 美团大脑简介 此部分内容作为文字排版占位显示 (建议使用主题字体) 标签图谱构建与应用 03 菜品知识图谱构建技术 此部分内容作为文字排版占位显示 (建议使用主题字体)
5. 标签图谱——更好地连接商户供给与用户意图 我们以生活服务领域的海量评论数据作为主要知识来源,通过标签挖掘、标签间关系挖掘 以及标签-商户关联等关键技术,自底向上梳理用户的需求、场景和主要关注点,完成图谱 构建。
6. 标签图谱构建—Overview 带孩子 9:;< 同义词 上下位 )*+, 亲子 带娃 )*-. 带娃玩 亲子酒店 上下位 =>+, /01 234 ?@6) !56) Aspect78-. 儿童乐园 ABCD EFCD 标签图谱 公园溜娃 商户供给 KidSteam 儿童乐 园 ?@CD 用户意图 颐和园
7. 标签图谱构建—标签挖掘及判别 O O O O B I I O O B I I O B 2 • Single span 标签挖掘 O O CRF • 老牌子 是 南 京 的 老 牌 子 了 , 房 间 还 挺 舒 的 。 • 跳字标签挖掘 • 房间舒适 MT-BERT 是 南 京 的 老 牌 子 , 房 间 还 挺 舒 适 的 。 1 1 0 牌 子 房 • 基于语义判别 MT-BERT MT-BERT 老 • Unware 间 还 Context-unware标签判别 . $ 房 间 $ 还 挺 & • Aware 舒 适 & 的 Context-ware标签判别-vote • 结合上下文判别 • 远监督+结果投票
8. 标签图谱构建—标签挖掘及判别
9. 标签图谱构建 带孩子 9:;< 同义词 上下位 )*+, 亲子 带娃 )*-. 带娃玩 亲子酒店 上下位 =>+, /01 234 ?@6) !56) Aspect78-. 儿童乐园 ABCD EFCD 标签图谱 公园溜娃 商户供给 KidSteam 儿童乐 园 ?@CD 用户意图 颐和园
10. 标签图谱构建—标签同义词挖掘 给出包含N个词的池子,M个业务标签词,查找M中每个词在N中的同义词。 标签池 , L=N 夜宵好去处 带小孩 业务标签词 , L=M 情 侣 约 会 带 孩 子 带 娃 约 会 拍 拖 带 小 朋 友 寿 宴 老 人 生 日 同义词 夜 宵 圣 地 • 现有同义词挖掘方法,缺乏通用性 • 搜索日志挖掘 • 百科数据抽取 • 基于规则的相似度计算,如编辑距离、词向量相似度等 • 目标:通用性强、可泛化到大规模数据集的标签同义词挖掘方案
11. 标签图谱构建—标签同义词挖掘 线上 计算 离线 计算 tagA 标签池 标 签 表 示 向量召回 同义词判别 模型 tagA,tagB 向量索引 同义词对候选生成 效 率 计算复杂度O(Mlog(N)),速度快 何种标签嵌入表示方法? 准 确 对比倒排索引候选生成,可召回字面 无overlap的同义词,准确率高、参 数控制简单 同义词判别模型设计?
12. 标签图谱构建—标签表示学习 • 标签词嵌入表示 tagA 标签词嵌入表示方法 优点 缺点 word2vec 实现简单; 词向量取均值,忽略了词的顺 序 BERT 预训练过程中能够捕捉更为 丰富的语义表示; 直接取[CLS]向量,效果与 word2vec相当; Sentence-BERT 准确率高; —— train tagB tagA tagB inference 数据集 word2vec BERT- Base Finetuned BERT (u,v) Sentence BERT (u,v,|u-v|) STS16 65.7% 62% 66.0% 80.8% 同义词 76.1% 76.4% 79.4% 90.1%
13. 标签图谱构建—标签表示学习 • 标签词嵌入表示 Query 词 适合 少女 方法 Top1 Top2 Top3 Top4 Top5 Top6 Top7 Top8 Top9 Word2vec 适合少 女心 适合文 艺 适合淑 女 适合日 系 适合文 艺小青 年 适合可 爱 适合小女 生 适合文 青 适合爱 猫 Bert-Base 适合女 同志 粉嫩少 女 适合妹 妹 适合女 人 适合新 人 适合摄 影 适合新娘 爱好者 适合三 岁 Sentence- Bert 适合小 女生 适合女 孩 适合小 女 能满足 少女心 适合女 生 适合女 汉子 适合女孩 纸 适合女 娃 适合小 女生去 无标注数据? Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer.” ACL 2021 Gao, Tianyu, Xingcheng Yao, and Danqi Chen. “SimCSE: Simple Contrastive Learning of Sentence Embeddings.” EMNLP 2021. Other related methods
14. 标签图谱构建—标签表示学习 Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self- Supervised Sentence Representation Transfer.” ACL 2021
15. 标签图谱构建—标签表示学习 • 无监督学习 • 对样本做扰动产生样本pair • 最大化batch内同一样本的相似度 • 监督学习 • With 监督学习联合学习方法 Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self- Supervised Sentence Representation Transfer.” ACL 2021
16. 标签图谱构建—标签表示学习 无监督表示学习效果对比 Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self- Supervised Sentence Representation Transfer.” ACL 2021
17. 标签图谱构建—标签表示学习 +监督学习效果对比 Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self- Supervised Sentence Representation Transfer.” ACL 2021
18. 标签图谱构建—标签同义词挖掘 线上 计算 离线 计算 tagA 向量召回 标 签 表 示 标签池 同义词判别 模型 tagA,tagB 向量索引 同义词对候选生成 Tag A TagB 方法 AUC 统计学习 86% BERT 92% (+6PP)
19. 标签图谱构建—标签上下位挖掘 • 词汇包含关系是最重要的上下位关系 • 基于语义的挖掘方法 • • • 类似同义词挖掘方案 基于统计的挖掘方法 • 所关联商户的交叉比例 • 所共现UGC的交叉比例 • Query-click交叉比例 结论 • 亲子 乐园 带孩子 上下位的标准较难统一 • • 亲子 酒店 Eg. 海鲜炒饭à海鲜? 朋友聚餐-是人群场景还是事件? 结合领域需求,对算法挖掘结果进行修正,是相对可行的方案
20. 标签图谱构建——图谱打标 带孩子 9:;< 同义词 上下位 )*+, 亲子 带娃 )*-. 带娃玩 亲子酒店 上下位 =>+, /01 234 ?@6) !56) Aspect78-. 儿童乐园 ABCD EFCD 标签图谱 公园溜娃 商户供给 KidSteam 儿童乐 园 ?@CD 用户意图 颐和园
21. 标签图谱构建—商户打标 标签集合 tag 俄罗斯餐厅 (俄罗斯餐厅,普希金文学餐厅) (俄罗斯餐厅,北京展览馆) (俄罗斯餐厅,华熙LIVE) ✔ ✗ ✗ 在工体对面的一家俄罗斯餐厅… 原来叫苏联展览馆,怪不得里面有 俄… 里面有家俄罗斯餐厅,改天来尝尝 苹果体验店 (苹果体验店,来甩米线) ✗ 在苹果体验店的旁边 适合老年人 (适合老年人,泰山) (适合老年人,四世同堂) ✗ ✔ 总体不错,不过不太适合老年人 菜品比较清淡,适合老年人 自助餐 (自助餐,花隐日本料理) ✗ 比那些日式自助餐好多啦 标签及其同义词在商户UGC/团单 中出现的频率,卡一个阈值。 现状 商户打标 判别模块 候选 tag-POI 对生成 • • 基于统计规则 缺少通用关联方案 频率高就一定是有关联吗 旁边/否定/对比
22. 标签图谱构建—商户打标 饮品甜品店 咖啡 蛋糕店 商户 Taxonomy 奶茶店 商户 一点点 UGC 要啥 自行 车 UGC 喝个下 午茶有 点舒服 UGC … 用户评价 Tag TagA Shop Information Eg. 自行车 下午茶 Shop Information: 商户名、商户三级类目、商户top标签
23. 标签图谱构建—商户打标 四分类:正面/负面/不相关/不确定 饮品甜品店 咖啡 蛋糕店 商户 Taxonomy 奶茶店 商户 一点点 UGC 要啥 自行 车 UGC 喝个下 午茶有 点舒服 UGC … 用户评价 Tag
24. 标签图谱构建—商户打标 四分类:正面/负面/不相关/不确定 分类 匹配 将tag作为参数输入,支持动态新增标签 基于多任务学习的方法 基于语义交互的判别模型
25. 标签图谱构建—商户打标 速度 准确率 TagA Evidence 基于 BERT 的方法 基于语义交互的判别模型(轻量级) 轻量级 BERT-6 层裁剪 BERT-12 ACC 84.5% 86% 86.8% SPEED ~5000it/s, 15x 640it/s,2x 320it/s,x
26. 标签图谱构建—商户打标 四分类:正面/负面/不相关/不确定 饮品甜品店 咖啡 蛋糕店 商户 Taxonomy 奶茶店 商户 一点点 UGC 要啥 自行 车 UGC 喝个下 午茶有 点舒服 UGC … 用户评价 Tag
27. 标签图谱构建—商户打标 饮品甜品店 咖啡 蛋糕店 • 商户 Taxonomy • • 奶茶店 商户 一点点 UGC 要啥 自行 车 UGC 喝个下 午茶有 点舒服 UGC … Tag-商户Taxonomy Tag 分为Not, Perhaps 和Must三类 方法 • 基于商户层关联结果投票 • 高准确率要求时,人工review 用户评价 • 结果 • 基本满足95%准确率上线需求
28. 标签图谱构建——图谱应用 带孩子 9:;< 同义词 上下位 )*+, 亲子 带娃 )*-. 带娃玩 亲子酒店 上下位 =>+, /01 234 ?@6) !56) Aspect78-. 儿童乐园 ABCD EFCD 标签图谱 公园溜娃 商户供给 KidSteam 儿童乐 园 ?@CD 用户意图 颐和园
29. 标签图谱构建——数据应用之Open知识问答 标签 标签 Evidence Evidence
30. 标签图谱构建——数据应用之搜索召回/排序 Query DQU-实体链接 标签理解(id映射) 大搜 搜索召回+排序策略 标签及打标结果接入 索引层 打标结果 全面可解释性 标签展示
31. 标签图谱构建——数据应用之搜索召回/排序
32. 标签图谱构建——数据应用之搜索召回/排序 安静的酒店 安静的酒店 同义映射 隔音好 美景近 美景近 同义映射 近景点 近景点 隔音好 近景点
33. 标签图谱构建与应用—表示应用 知识图谱如何应用到搜索推荐中——GNN • • 构图 • Query-POI点击行为 • Tag-POI关联信息 图学习 (Graph Sage) • • • 学习目标 • II(Tag, POI) in (0, 1) • II(Query, POI) in (0, 1) 依据关联强度进行采样 • 搜索Application • Query-POI向量相似度接入 • Query, POI向量接入 • Observation1 • 仅利用Query-POI信息构图,线上无收益 • 引入Tag-POI关联信息后提升显著 Observation2 • 仅接入向量相似度无收益 • 将Query, POI向量接入后提升显著
34. 标签图谱构建与应用—表示应用 知识图谱如何融入到序列推荐任务中 S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization— CIKM2020
35. 标签图谱构建与应用—表示应用 • 线上Application I2I向量召回 • 知识图谱如何融入到序列推荐任务中 • 在美食列表推荐页有显 著提升
36. 目录 CONTENT 01 02 美团大脑简介 此部分内容作为文字排版占位显 示 (建议使用主题字体) 标签图谱构建与应用 03 菜品知识图谱构建技术 此部分内容作为文字排版占位显示 (建议使用主题字体)
37. 菜品知识图谱构建 目标 1. 构建对菜品的系统理解能力 2. 构建完备的菜品图谱 技术路线 G " ? @ a e f g ]O^_`aRbcdY\I 9:+,YZ[\I KLMNOPQRSTUVWVTXV GHIJ 封闭域知识图谱构建实践经验
38. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g hiGjkl1 9:+,Y Z[\I !"#$% 012 )*+ KLMNOP QRSTUVWVTXV GHIJ #$% ,-./ 菜名中蕴含着最精准、获取成本最低的菜品信息。 对菜名的理解,也是后续显示知识推理泛化能力的前提。
39. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g hiGjkl1 !"#$% 012 )*+ 9:+,Y Z[\I #$% ,-./ KLMNOP QRSTUVWVTXV GHIJ !"#$%& With '()* !"#$%& Without '()*
40. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g 小笼包 食材 ? 佛跳墙 9:+,Y Z[\I KLMNOP QRSTUVWVTXV GHIJ 上位词 类目 ? 猪蹄 功效 ? 锅巴菜 场景 ? 烤鱼豆腐 上位词? 包子 海参 海鲜 养颜美容 早餐 豆腐 基于深度学习模型进行初步的字面推理,可实现对不同字面表述的泛化处理, 但对需要专业知识的case表现欠佳,偶尔在字面极其匹配时出现case。
41. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g 9:+,Y Z[\I 菜谱结构化数 据 菜谱文本信息 挖掘 抽象 推理 源知识 泛化 推理 到餐SKU 外卖SKU KLMNOP QRSTUVWVTXV UGC挖掘 GHIJ 多源知识挖掘 X亿店菜 从知识内容丰富的文本中挖掘某些菜品的基础知识,构建源知识库; 知识推理,泛化到信息缺乏的海量店菜。
42. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g 12 34 vwrxyjstz mnopqr stuvwrG@ {|vwr }~jst• mno•‚ƒG@ 9:+,Y Z[\I „…xyjstz †‡ }~jst• wˆ }~jst• ,-.( KLMNOP QRSTUVWVTXV 23 45 895: GHIJ DL 67 ;< 45 ;<=>!?@ 0 1 r €T pqrà{|vwr •‚ƒ‰$Š‰„…j†‡jwˆ ,-&/( 1 !"#$% &'(!)*+ ,-&'( DH .( ABC !" &'( DE FG 多源数据挖掘,基于菜名理解结果构建solid knowledge triple。 同时也依赖菜名理解结果完成泛化规则。 该策略主要适合处理食材、功效、人群等标签维度。 方法准确率OK,有一定的泛化效果,,但是覆盖偏低&费RD。
43. 菜品知识图谱构建 ]O^_`aR bcdY\I G " ? @ a e f g 小笼包 上位词 食材 ? 9:+,Y Z[\I KLMNOP QRSTUVWVTXV GHIJ 佛跳墙 类目 ? 猪蹄 功效 ? 锅巴菜 场景 ? 烤鱼豆腐 上位词? 包子 海参 海鲜 养颜美容 早餐 豆腐 Another way beyond explicit reasoning. Further-pretraining.
44. 菜品知识图谱构建 • Foo-BERT: harvest the training corpus ]O^_`aR bcdY\I G " ? @ a e f g 无肉不欢 9:+,Y Z[\I 健康时蔬 KLMNOP QRSTUVWVTXV GHIJ 1000万商户编辑的自洽的分类树 宫保鸡丁 川府毛血旺 香锅卷心菜 上汤西蓝花 Dish TabName Label 宫保鸡丁 无肉不欢 1 宫保鸡丁 健康时蔬 0 上汤西蓝花 健康时蔬 1 上汤西蓝花 无肉不欢 0 5 亿 positive pairs 30G corpus
45. 菜品知识图谱构建 • Foo-BERT: training and usage—vanilla BERT matching model ]O^_`aR bcdY\I G " ? @ a e f g 9:+,Y Z[\I KLMNOP QRSTUVWVTXV Shop Dish TabName Label 绿茶餐厅 宫保鸡丁 无肉不欢 1 绿茶餐厅 宫保鸡丁 健康时蔬 0 绿茶餐厅 上汤西蓝花 健康时蔬 1 绿茶餐厅 上汤西蓝花 无肉不欢 0 • Sometimes surprisingly well. Better than myself. 生滚鱼片粥---海鲜粥 --- 0.85 生滚鱼片 ---海鲜粥 --- 0.83 锅巴菜 ---早餐 --- 0.75 Is tab replaced ? • Sometimes simple error Is the shop replaced? 螃蟹 GHIJ [CLS] 绿茶餐厅 [SEP1] 宫保鸡丁[SEP] 健康时蔬 商户名 菜品名 ---海鲜粥 --- 0.75 初始化下游模型: 10万标注数据下,菜品上下位/同 义词模型准确率提升1.8PP 菜品分类 其他细节:50%的概率drop shop name,使得模型仅输入菜名时表现鲁棒。
46. 菜品知识图谱构建 • 多模态&多视图半监督学习——半监督学习for属性挖掘 ]O^_`aR bcdY\I G " ? @ a e f g Why 双塔模型 • 下游应用方便:单塔模型可独立使用&可 Inference出菜品图片的表示并缓存下来; • 图片内容单纯,暂无交互式建模的必要。 InfoNCE loss 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT 训练目标 任务名 ShopName DishName DishTab 图像侧 图片 - 店菜匹配 图片 - 菜名对齐 图片 -Tab 对齐 文本侧 Shop+Tab+Dish 店菜 图片 Tab+Dish / Dish Tab
47. 菜品知识图谱构建 • 多模态&多视图半监督学习——Application ]O^_`aR bcdY\I G " ? @ a e f g InfoNCE loss 菜品品类预测/菜品信息补全 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT ShopName DishName DishTab
48. 菜品知识图谱构建 • 多模态&多视图半监督学习——Application ]O^_`aR bcdY\I G " ? @ a e f g InfoNCE loss 菜品品类预测/菜品信息补全 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT ShopName DishName DishTab
49. 菜品知识图谱构建 • 多模态&多视图半监督学习——Application ]O^_`aR bcdY\I G " ? @ a e f g InfoNCE loss 菜品属性抽取——以烹饪方法抽取为例 1.Name parsing 产生烹饪方法训练样本; 红烧肉---红烧 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT ShopName DishName DishTab 2.Train CNN模型预测菜品烹饪方法; 3.CNN模型预测菜品烹饪方法; 4.Finetune 文本模型/多模态模型,基于商户 /tab/菜品名及评论信息预测菜品烹饪方法
50. 菜品知识图谱构建 • 多模态&多视图半监督学习——Application ]O^_`aR bcdY\I G " ? @ a e f g InfoNCE loss 菜品属性抽取——以烹饪方法抽取为例 1.Name parsing 产生烹饪方法训练样本; 红烧肉---红烧 9:+,Y Z[\I ReseNet KLMNOP QRSTUVWVTXV GHIJ BERT ShopName DishName DishTab 2.Train CNN模型预测菜品烹饪方法; 3.CNN模型预测菜品烹饪方法; 4.Finetune 文本模型/多模态模型,基于商户 /tab/菜品名及评论信息预测菜品烹饪方法
51. 菜品知识图谱构建 #$%&'(/)*+, Overcome 456 + 789 :;< & => ?56#$@ABCDE/ (4FGHIJKLMNC Knowledge& Lexical Gap OPFQR!"F STFALL_todo UVWX & YZ=> [\]^UV/_V, eg.`a b-cd-efFghFijC Knowledge cdFcdklFmnF OPFopFqr s(tu5v w9=> GHx?yz{|}=>C Lexical Gap ~}•F€•‚FqrF qƒ„…†r q‡>) q‡ˆ‰Š‹Œ•ŽF%& ••Œ‘yqƒ#$’eg.“ ”•–—C ˜™šYZ=>y›Hœ2• x?&•Ž ž†qFcdF Ÿ FQR!" ¡¢• !" !+ ,- ./ 01 -./((01/23)
52. 非常感谢您的观看 招聘实习生岗位: NLP算法工程师、算法实习生 简历投递邮箱: zhanghongzhi03@meituan.com

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 07:50
浙ICP备14020137号-1 $Map of visitor$