美团大脑:美食领域知识图谱构建及应用进展
如果无法正常显示,请先停止浏览器的去广告插件。
1. 美团大脑-生活服务知
识图谱构建及应用
美团NLP中心 张鸿志
2. 目录 CONTENT
01
02
美团大脑简介
此部分内容作为文字排版占位显
示
(建议使用主题字体)
标签图谱构建与应用
03
菜品知识图谱构建技术
此部分内容作为文字排版占位显示
(建议使用主题字体)
3. 美团大脑 是什么?
2018 !"#$
2019 %&#$
2020 '(#$
!
" #
$
%
& '
(
cross
4. 目录 CONTENT
01
02
美团大脑简介
此部分内容作为文字排版占位显示
(建议使用主题字体)
标签图谱构建与应用
03
菜品知识图谱构建技术
此部分内容作为文字排版占位显示
(建议使用主题字体)
5. 标签图谱——更好地连接商户供给与用户意图
我们以生活服务领域的海量评论数据作为主要知识来源,通过标签挖掘、标签间关系挖掘
以及标签-商户关联等关键技术,自底向上梳理用户的需求、场景和主要关注点,完成图谱
构建。
6. 标签图谱构建—Overview
带孩子
9:;<
同义词
上下位
)*+,
亲子
带娃
)*-.
带娃玩
亲子酒店
上下位
=>+, /01 234
?@6) !56) Aspect78-.
儿童乐园
ABCD
EFCD
标签图谱
公园溜娃
商户供给
KidSteam 儿童乐
园
?@CD
用户意图
颐和园
7. 标签图谱构建—标签挖掘及判别
O O O O
B
I
I
O O
B
I
I
O B 2
• Single span 标签挖掘
O O
CRF
• 老牌子
是 南 京 的 老 牌 子 了 , 房 间 还 挺 舒 的 。
• 跳字标签挖掘
• 房间舒适
MT-BERT
是 南 京 的 老 牌 子 , 房 间 还 挺 舒 适 的 。
1
1
0
牌
子
房
• 基于语义判别
MT-BERT
MT-BERT
老
• Unware
间
还
Context-unware标签判别
.
$
房
间
$
还 挺
&
• Aware
舒 适 & 的
Context-ware标签判别-vote
• 结合上下文判别
• 远监督+结果投票
8. 标签图谱构建—标签挖掘及判别
9. 标签图谱构建
带孩子
9:;<
同义词
上下位
)*+,
亲子
带娃
)*-.
带娃玩
亲子酒店
上下位
=>+, /01 234
?@6) !56) Aspect78-.
儿童乐园
ABCD
EFCD
标签图谱
公园溜娃
商户供给
KidSteam 儿童乐
园
?@CD
用户意图
颐和园
10. 标签图谱构建—标签同义词挖掘
给出包含N个词的池子,M个业务标签词,查找M中每个词在N中的同义词。
标签池 , L=N
夜宵好去处
带小孩
业务标签词 , L=M
情
侣
约
会
带
孩
子
带
娃
约
会
拍
拖
带
小
朋
友
寿
宴
老
人
生
日
同义词
夜
宵
圣
地
• 现有同义词挖掘方法,缺乏通用性
• 搜索日志挖掘
• 百科数据抽取
• 基于规则的相似度计算,如编辑距离、词向量相似度等
• 目标:通用性强、可泛化到大规模数据集的标签同义词挖掘方案
11. 标签图谱构建—标签同义词挖掘
线上
计算
离线
计算
tagA
标签池
标
签
表
示
向量召回
同义词判别
模型
tagA,tagB
向量索引
同义词对候选生成
效
率 计算复杂度O(Mlog(N)),速度快 何种标签嵌入表示方法?
准
确 对比倒排索引候选生成,可召回字面
无overlap的同义词,准确率高、参
数控制简单 同义词判别模型设计?
12. 标签图谱构建—标签表示学习
• 标签词嵌入表示
tagA
标签词嵌入表示方法 优点 缺点
word2vec 实现简单; 词向量取均值,忽略了词的顺
序
BERT 预训练过程中能够捕捉更为
丰富的语义表示; 直接取[CLS]向量,效果与
word2vec相当;
Sentence-BERT 准确率高; ——
train
tagB
tagA
tagB
inference
数据集 word2vec BERT-
Base Finetuned BERT
(u,v) Sentence BERT
(u,v,|u-v|)
STS16 65.7% 62% 66.0% 80.8%
同义词 76.1% 76.4% 79.4% 90.1%
13. 标签图谱构建—标签表示学习
• 标签词嵌入表示
Query
词
适合
少女
方法 Top1 Top2 Top3 Top4 Top5 Top6 Top7 Top8 Top9
Word2vec 适合少
女心 适合文
艺 适合淑
女 适合日
系 适合文
艺小青
年 适合可
爱 适合小女
生 适合文
青 适合爱
猫
Bert-Base 适合女
同志 粉嫩少
女 适合妹
妹 适合女
人 适合新
人 适合摄
影 适合新娘 爱好者 适合三
岁
Sentence-
Bert 适合小
女生 适合女
孩 适合小
女 能满足
少女心 适合女
生 适合女
汉子 适合女孩
纸 适合女
娃 适合小
女生去
无标注数据?
Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self-Supervised Sentence
Representation Transfer.” ACL 2021
Gao, Tianyu, Xingcheng Yao, and Danqi Chen. “SimCSE: Simple Contrastive Learning of Sentence
Embeddings.” EMNLP 2021.
Other related methods
14. 标签图谱构建—标签表示学习
Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self-
Supervised Sentence Representation Transfer.” ACL 2021
15. 标签图谱构建—标签表示学习
• 无监督学习
• 对样本做扰动产生样本pair
• 最大化batch内同一样本的相似度
• 监督学习
• With 监督学习联合学习方法
Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self-
Supervised Sentence Representation Transfer.” ACL 2021
16. 标签图谱构建—标签表示学习
无监督表示学习效果对比
Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self-
Supervised Sentence Representation Transfer.” ACL 2021
17. 标签图谱构建—标签表示学习
+监督学习效果对比
Yan, Yuanmeng, et al. “ConSERT: A Contrastive Framework for Self-
Supervised Sentence Representation Transfer.” ACL 2021
18. 标签图谱构建—标签同义词挖掘
线上
计算
离线
计算
tagA
向量召回
标
签
表
示
标签池
同义词判别
模型
tagA,tagB
向量索引
同义词对候选生成
Tag
A
TagB
方法 AUC
统计学习 86%
BERT 92% (+6PP)
19. 标签图谱构建—标签上下位挖掘
• 词汇包含关系是最重要的上下位关系
• 基于语义的挖掘方法
•
•
•
类似同义词挖掘方案
基于统计的挖掘方法
• 所关联商户的交叉比例
• 所共现UGC的交叉比例
• Query-click交叉比例
结论
•
亲子
乐园
带孩子
上下位的标准较难统一
•
•
亲子
酒店
Eg. 海鲜炒饭à海鲜? 朋友聚餐-是人群场景还是事件?
结合领域需求,对算法挖掘结果进行修正,是相对可行的方案
20. 标签图谱构建——图谱打标
带孩子
9:;<
同义词
上下位
)*+,
亲子
带娃
)*-.
带娃玩
亲子酒店
上下位
=>+, /01 234
?@6) !56) Aspect78-.
儿童乐园
ABCD
EFCD
标签图谱
公园溜娃
商户供给
KidSteam 儿童乐
园
?@CD
用户意图
颐和园
21. 标签图谱构建—商户打标
标签集合
tag
俄罗斯餐厅 (俄罗斯餐厅,普希金文学餐厅)
(俄罗斯餐厅,北京展览馆)
(俄罗斯餐厅,华熙LIVE) ✔
✗
✗ 在工体对面的一家俄罗斯餐厅…
原来叫苏联展览馆,怪不得里面有
俄…
里面有家俄罗斯餐厅,改天来尝尝
苹果体验店 (苹果体验店,来甩米线) ✗ 在苹果体验店的旁边
适合老年人 (适合老年人,泰山)
(适合老年人,四世同堂) ✗
✔ 总体不错,不过不太适合老年人
菜品比较清淡,适合老年人
自助餐 (自助餐,花隐日本料理) ✗ 比那些日式自助餐好多啦
标签及其同义词在商户UGC/团单
中出现的频率,卡一个阈值。
现状
商户打标
判别模块
候选 tag-POI 对生成
•
•
基于统计规则
缺少通用关联方案
频率高就一定是有关联吗
旁边/否定/对比
22. 标签图谱构建—商户打标
饮品甜品店
咖啡
蛋糕店
商户
Taxonomy
奶茶店
商户
一点点
UGC
要啥
自行
车
UGC
喝个下
午茶有
点舒服
UGC
…
用户评价
Tag
TagA
Shop Information
Eg. 自行车
下午茶
Shop Information: 商户名、商户三级类目、商户top标签
23. 标签图谱构建—商户打标
四分类:正面/负面/不相关/不确定
饮品甜品店
咖啡
蛋糕店
商户
Taxonomy
奶茶店
商户
一点点
UGC
要啥
自行
车
UGC
喝个下
午茶有
点舒服
UGC
…
用户评价
Tag
24. 标签图谱构建—商户打标
四分类:正面/负面/不相关/不确定
分类
匹配
将tag作为参数输入,支持动态新增标签
基于多任务学习的方法
基于语义交互的判别模型
25. 标签图谱构建—商户打标
速度
准确率
TagA
Evidence
基于 BERT 的方法
基于语义交互的判别模型(轻量级)
轻量级 BERT-6 层裁剪 BERT-12
ACC 84.5% 86% 86.8%
SPEED ~5000it/s, 15x 640it/s,2x 320it/s,x
26. 标签图谱构建—商户打标
四分类:正面/负面/不相关/不确定
饮品甜品店
咖啡
蛋糕店
商户
Taxonomy
奶茶店
商户
一点点
UGC
要啥
自行
车
UGC
喝个下
午茶有
点舒服
UGC
…
用户评价
Tag
27. 标签图谱构建—商户打标
饮品甜品店
咖啡
蛋糕店
•
商户
Taxonomy
•
•
奶茶店
商户
一点点
UGC
要啥
自行
车
UGC
喝个下
午茶有
点舒服
UGC
…
Tag-商户Taxonomy
Tag
分为Not, Perhaps 和Must三类
方法
• 基于商户层关联结果投票
• 高准确率要求时,人工review
用户评价
•
结果
•
基本满足95%准确率上线需求
28. 标签图谱构建——图谱应用
带孩子
9:;<
同义词
上下位
)*+,
亲子
带娃
)*-.
带娃玩
亲子酒店
上下位
=>+, /01 234
?@6) !56) Aspect78-.
儿童乐园
ABCD
EFCD
标签图谱
公园溜娃
商户供给
KidSteam 儿童乐
园
?@CD
用户意图
颐和园
29. 标签图谱构建——数据应用之Open知识问答
标签
标签
Evidence
Evidence
30. 标签图谱构建——数据应用之搜索召回/排序
Query
DQU-实体链接
标签理解(id映射)
大搜
搜索召回+排序策略
标签及打标结果接入
索引层
打标结果
全面可解释性
标签展示
31. 标签图谱构建——数据应用之搜索召回/排序
32. 标签图谱构建——数据应用之搜索召回/排序
安静的酒店
安静的酒店
同义映射
隔音好
美景近
美景近
同义映射
近景点
近景点
隔音好
近景点
33. 标签图谱构建与应用—表示应用
知识图谱如何应用到搜索推荐中——GNN
•
•
构图
• Query-POI点击行为
• Tag-POI关联信息
图学习 (Graph Sage)
•
•
•
学习目标
• II(Tag, POI) in (0, 1)
• II(Query, POI) in (0, 1)
依据关联强度进行采样
•
搜索Application
• Query-POI向量相似度接入
• Query, POI向量接入
•
Observation1
• 仅利用Query-POI信息构图,线上无收益
• 引入Tag-POI关联信息后提升显著
Observation2
• 仅接入向量相似度无收益
• 将Query, POI向量接入后提升显著
34. 标签图谱构建与应用—表示应用
知识图谱如何融入到序列推荐任务中
S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization—
CIKM2020
35. 标签图谱构建与应用—表示应用
•
线上Application
I2I向量召回
•
知识图谱如何融入到序列推荐任务中
•
在美食列表推荐页有显
著提升
36. 目录 CONTENT
01
02
美团大脑简介
此部分内容作为文字排版占位显
示
(建议使用主题字体)
标签图谱构建与应用
03
菜品知识图谱构建技术
此部分内容作为文字排版占位显示
(建议使用主题字体)
37. 菜品知识图谱构建
目标
1. 构建对菜品的系统理解能力
2. 构建完备的菜品图谱
技术路线
G
"
?
@
a
e
f
g
]O^_`aRbcdY\I
9:+,YZ[\I
KLMNOPQRSTUVWVTXV
GHIJ
封闭域知识图谱构建实践经验
38. 菜品知识图谱构建
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
hiGjkl1
9:+,Y
Z[\I
!"#$%
012
)*+
KLMNOP
QRSTUVWVTXV
GHIJ
#$%
,-./
菜名中蕴含着最精准、获取成本最低的菜品信息。
对菜名的理解,也是后续显示知识推理泛化能力的前提。
39. 菜品知识图谱构建
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
hiGjkl1
!"#$%
012
)*+
9:+,Y
Z[\I
#$%
,-./
KLMNOP
QRSTUVWVTXV
GHIJ
!"#$%&
With '()*
!"#$%&
Without '()*
40. 菜品知识图谱构建
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
小笼包
食材 ?
佛跳墙
9:+,Y
Z[\I
KLMNOP
QRSTUVWVTXV
GHIJ
上位词
类目 ?
猪蹄 功效 ?
锅巴菜 场景 ?
烤鱼豆腐
上位词?
包子
海参
海鲜
养颜美容
早餐
豆腐
基于深度学习模型进行初步的字面推理,可实现对不同字面表述的泛化处理,
但对需要专业知识的case表现欠佳,偶尔在字面极其匹配时出现case。
41. 菜品知识图谱构建
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
9:+,Y
Z[\I
菜谱结构化数
据
菜谱文本信息
挖掘
抽象
推理
源知识
泛化
推理
到餐SKU
外卖SKU
KLMNOP
QRSTUVWVTXV UGC挖掘
GHIJ 多源知识挖掘
X亿店菜
从知识内容丰富的文本中挖掘某些菜品的基础知识,构建源知识库;
知识推理,泛化到信息缺乏的海量店菜。
42. 菜品知识图谱构建
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
12
34
vwrxyjstz
mnopqr
stuvwrG@ {|vwr }~jst•
mno•‚ƒG@
9:+,Y
Z[\I
„…xyjstz
†‡ }~jst•
wˆ }~jst•
,-.(
KLMNOP
QRSTUVWVTXV
23
45
895:
GHIJ
DL
67
;<
45
;<=>!?@
0
1
r €T pqrà{|vwr
•‚ƒ‰$Š‰„…j†‡jwˆ
,-&/(
1
!"#$% &'(!)*+
,-&'(
DH
.(
ABC
!"
&'(
DE
FG
多源数据挖掘,基于菜名理解结果构建solid knowledge triple。
同时也依赖菜名理解结果完成泛化规则。
该策略主要适合处理食材、功效、人群等标签维度。
方法准确率OK,有一定的泛化效果,,但是覆盖偏低&费RD。
43. 菜品知识图谱构建
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
小笼包
上位词
食材 ?
9:+,Y
Z[\I
KLMNOP
QRSTUVWVTXV
GHIJ
佛跳墙
类目 ?
猪蹄 功效 ?
锅巴菜 场景 ?
烤鱼豆腐
上位词?
包子
海参
海鲜
养颜美容
早餐
豆腐
Another way beyond explicit reasoning. Further-pretraining.
44. 菜品知识图谱构建
• Foo-BERT: harvest the training corpus
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
无肉不欢
9:+,Y
Z[\I
健康时蔬
KLMNOP
QRSTUVWVTXV
GHIJ
1000万商户编辑的自洽的分类树
宫保鸡丁
川府毛血旺
香锅卷心菜
上汤西蓝花
Dish TabName Label
宫保鸡丁 无肉不欢 1
宫保鸡丁 健康时蔬 0
上汤西蓝花 健康时蔬 1
上汤西蓝花 无肉不欢 0
5 亿 positive pairs
30G corpus
45. 菜品知识图谱构建
• Foo-BERT: training and usage—vanilla BERT matching model
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
9:+,Y
Z[\I
KLMNOP
QRSTUVWVTXV
Shop Dish TabName Label
绿茶餐厅 宫保鸡丁 无肉不欢 1
绿茶餐厅 宫保鸡丁 健康时蔬 0
绿茶餐厅 上汤西蓝花 健康时蔬 1
绿茶餐厅 上汤西蓝花 无肉不欢 0
• Sometimes surprisingly well. Better
than myself.
生滚鱼片粥---海鲜粥 --- 0.85
生滚鱼片 ---海鲜粥 --- 0.83
锅巴菜
---早餐 --- 0.75
Is tab replaced ?
• Sometimes simple error
Is the shop replaced?
螃蟹
GHIJ
[CLS] 绿茶餐厅 [SEP1] 宫保鸡丁[SEP] 健康时蔬
商户名
菜品名
---海鲜粥 --- 0.75
初始化下游模型:
10万标注数据下,菜品上下位/同
义词模型准确率提升1.8PP
菜品分类
其他细节:50%的概率drop shop name,使得模型仅输入菜名时表现鲁棒。
46. 菜品知识图谱构建
• 多模态&多视图半监督学习——半监督学习for属性挖掘
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
Why 双塔模型
• 下游应用方便:单塔模型可独立使用&可
Inference出菜品图片的表示并缓存下来;
• 图片内容单纯,暂无交互式建模的必要。
InfoNCE loss
9:+,Y
Z[\I
ReseNet
KLMNOP
QRSTUVWVTXV
GHIJ
BERT
训练目标
任务名
ShopName
DishName
DishTab
图像侧
图片 - 店菜匹配
图片 - 菜名对齐
图片 -Tab 对齐
文本侧
Shop+Tab+Dish
店菜
图片
Tab+Dish / Dish
Tab
47. 菜品知识图谱构建
• 多模态&多视图半监督学习——Application
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
InfoNCE loss
菜品品类预测/菜品信息补全
9:+,Y
Z[\I
ReseNet
KLMNOP
QRSTUVWVTXV
GHIJ
BERT
ShopName
DishName
DishTab
48. 菜品知识图谱构建
• 多模态&多视图半监督学习——Application
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
InfoNCE loss
菜品品类预测/菜品信息补全
9:+,Y
Z[\I
ReseNet
KLMNOP
QRSTUVWVTXV
GHIJ
BERT
ShopName
DishName
DishTab
49. 菜品知识图谱构建
• 多模态&多视图半监督学习——Application
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
InfoNCE loss
菜品属性抽取——以烹饪方法抽取为例
1.Name parsing 产生烹饪方法训练样本;
红烧肉---红烧
9:+,Y
Z[\I
ReseNet
KLMNOP
QRSTUVWVTXV
GHIJ
BERT
ShopName
DishName
DishTab
2.Train CNN模型预测菜品烹饪方法;
3.CNN模型预测菜品烹饪方法;
4.Finetune 文本模型/多模态模型,基于商户
/tab/菜品名及评论信息预测菜品烹饪方法
50. 菜品知识图谱构建
• 多模态&多视图半监督学习——Application
]O^_`aR
bcdY\I
G
"
?
@
a
e
f
g
InfoNCE loss
菜品属性抽取——以烹饪方法抽取为例
1.Name parsing 产生烹饪方法训练样本;
红烧肉---红烧
9:+,Y
Z[\I
ReseNet
KLMNOP
QRSTUVWVTXV
GHIJ
BERT
ShopName
DishName
DishTab
2.Train CNN模型预测菜品烹饪方法;
3.CNN模型预测菜品烹饪方法;
4.Finetune 文本模型/多模态模型,基于商户
/tab/菜品名及评论信息预测菜品烹饪方法
51. 菜品知识图谱构建
#$%&'(/)*+, Overcome 456 + 789
:;< & => ?56#$@ABCDE/
(4FGHIJKLMNC Knowledge&
Lexical Gap OPFQR!"F
STFALL_todo
UVWX &
YZ=> [\]^UV/_V, eg.`a
b-cd-efFghFijC Knowledge cdFcdklFmnF
OPFopFqr
s(tu5v
w9=> GHx?yz{|}=>C Lexical Gap ~}•F€•‚FqrF
qƒ„…†r
q‡>) q‡ˆ‰Š‹Œ•ŽF%&
••Œ‘yqƒ#$’eg.“
”•–—C
˜™šYZ=>y›Hœ2• x?&•Ž ž†qFcdF
Ÿ FQR!"
¡¢•
!"
!+
,-
./
01
-./((01/23)
52. 非常感谢您的观看
招聘实习生岗位:
NLP算法工程师、算法实习生
简历投递邮箱:
zhanghongzhi03@meituan.com