预训练模型在信息流推荐中的应用与探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. 预训练模型在信息流推荐中的
应用与探索
朱杰明
华为 ∙ 诺亚方舟实验室
2021年12月19日
2. 华为诺亚方舟实验室专注AI研究
产品部门
网络智能
计算视觉
诺亚方舟
实验室
企业智能
语音语义
搜索推荐
终端智能
成功的业务
新兴业务
决策推理
AI 系统工程
先进的技术
AI 基础理论
AI研究合作
Professional
Advisory Committee
10+ 国家, 25~大学, 50~ 项目, 1,000+ 研究人员
健康生态
3. 诺亚推荐团队研究方向介绍
•
•
•
•
•
深度学习模型 知识图谱/GNN 多模态融合推荐 多目标/迁移学习 分布式训练及优化
AutoML 基于预训练的IR技术 反事实学习/纠偏 列表式推荐/重排序 广告系统竞价算法
2019年至今,团队在KDD/SIGIR/NeuaIPS/AAAI/IJCAI/RecSys等顶会发表论文50+篇
DeepFM (IJCAI2017),引用次数1000+,2016-2020年IJCAI论文被引用次数第1;
AutoFIS(KDD2020),best paper candidate(top 10)
EDCN(DLP-KDD2021),best paper award
持续支撑应用市场、游戏中心、信息流、广告、音乐等个性化推荐场景算法及优化
4. 信息流推荐场景
负一屏图文
浏览器图文
浏览器短视频
构建下一代推荐技术:面向多模态化内容的推荐
华为视频
5. 推荐技术发展历程
2001~: 协同过滤 (Collaborative Filtering)
•
•
•
Nearest neighbor
Matrix factorization (MF)
Topic models
2010~: 广义线性模型 (Generalized Linear Model)
•
•
•
Logistic regression ( FTRL+LR )
低秩模型 : Factorization Machines (FM) / Field-aware FM (FFM)
Learning to rank: BPR, RankSVM, LambdaRank
2015~: 深度学习推荐模型
•
• 深度学习时代:算法算力取得巨
大提升
YoutubeDNN, Wide&Deep, DeepFM, DIN 等
2018~: 预训练大模型?
•
•
• 浅层模型时代:模型训练效率(如
FTRL)带来质的飞跃
NLP 预训练: Bert, Roberta , ERNIE , GPT, 盘古等
多模态预训练: CLIP, M5, 文澜等
• 深度推荐逐渐进入深水区,如何
找到下一个突破口?
6. 预训练模型在信息流推荐中的应用探索
新闻场景下的BERT预训练和排序建模
用户视角下的新闻界面表征建模
类别Category
(生活、科技)
文本语义
标签Tag
(养生、健身)
关键词Keyword
(枸杞、胸肌)
界面信息
实体词Entity
(人名、地名)
信息内容
7. 基于文本内容的新闻推荐模型:业界研究工作
Topic modeling:
• Collaborative Topic Regression
• TANR (topic classification)
Word2vec/Glove based:
• NPA
• LSTUR
• NRMS
• FIM
NPA: 利用TextCNN+attention建模 NAML: 利用TextCNN+Multi-View
NRMS: 利用transformer结构建模 FIM: 基于细粒度word-word交互
个性化文本语义表征信息 KDD2019
结构建模文本语义信息 IJCAI2019
Bert pretraing based:
• UNBERT
• NewsBert
• Tiny-NewsRec
• RMBert
• NewsBERT
• ……
文本语义信息 ACL2019
特征建模语义匹配信息 ACL2020
8. UNBERT: User-News Matching BERT [诺亚, IJCAI2021]
背景
• 现有模型引入CNN/LSTM
/Transformer等结构建模文本信息,
但无法利用到通用语言知识
• Pretrain+Finetune已成为NLP领域的
最普遍范式,比word2vec词向量有更
好地泛化性
UNBERT
• 成功将Bert预训练模型用于新闻推荐
建模
• 实现word-level和news-level双层
用户-新闻兴趣匹配建模
• 利用曝光点击数据以CTR预估任务进
行finetune
<CLS> N1 <SEP> N2 <SEP> … N4
输入形式:将历史浏览新闻和曝
光新闻以<SEP>拼接成句子输入
Zhang et al., User-News Matching BERT for News Recommendation, IJCAI 2021.
历史浏览新闻序列
曝光新闻
9. 新闻推荐数据集MIND实验结果
结论1:基于Bert预训练+Finetune
的方案大幅领先之前模型
结论2:相较之前模型,UNBERT
在冷启动新闻上具有更好地泛化性
10. 微软MIND新闻推荐榜单
• Top方案全部基于预训练模型
• UNBERT论文方案和优化版
MINER当前排名Top6和Top2
(曾排名第一)
• 微软UniUM方案尚未公开
11. UNBERT轻量化
基于Bert的方案计算量非常庞大,很难适应线上业务的低时延要求。为了降低模型响应时间,进行了多
种模型轻量化方案:
• 模型裁剪:减少模型层数和参数规模。
• 模型蒸馏:通过知识蒸馏方法从原始BERT模型蒸馏出符合上线要求的小模型
768
Bert-mini(4层4head256维)能够在取得不错精度的情况下,大幅减少模型参数量和训练推理时间。
12. 落地优化方案
• 兼容现有模型
• 无法替代当前CTR模型,需要兼容
• 优化:1)由多条新闻交互式匹配改为单条新闻独立表征,便于向量
缓存,避免重复计算; 2)表征向量作为DCN模型特征或初始化
• 维度压缩
• 原始embedding维度768太高,需要降维处理,尝试PCA效果一般
• 优化:在finetune阶段FC层进行降维(如50)
• 训练及推理效率
• 直接使用原始Bert模型在业务数据没有效果,需要使用点击数据微调
• 优化:1)模型轻量化,使用TinyBert-4L作为预训练模型;2)训练
数据筛选,过滤历史序列缺失或太短的长尾用户数据,达到模型天更
在信息流推荐业务场景,
当前版本取得离线AUC提
升7个千分点,线上CTR
平均提升2.3%
在微软MIND新闻推荐数据
集上验证,利用优化后Bert
新闻表征能有效提升不同
推荐模型(DCN/PNN)效果
,AUC增长约1%
bert
baseline
13. IMRec: 用户视角下的新闻界面表征建模 [诺亚, MM2021]
• 问题及挑战:现有新闻推荐模型没有充分捕捉用户客户端展示界面信息,无法从用户视角下理解内容
• 新闻的多模态内容:标题、图片/视
频、类别、发布源等
大图
• 用户点击决策过程:用户阅读文本同
时看到视觉界面信息,整体
用户的点击决策过程
三小图
单小图
视觉印象: 用户视觉下的新闻界面信息
整体
新闻客户端展示界面
图片
类别
标题
局部印象
Xun et al., Why Do We Click: Visual Impression-aware News Recommendation, MM 2021.
全局印象
• 视觉印象:指用户视觉下界面展示的
多模态信息,一般包括界面缩略图、
排版格式、字体等信息。
14. 整体方案
在新闻推荐算法中引入从用户感知界面抽取的视觉印象信息预测用户兴趣点
IMRec框架简述:
•
对曝光展示的新闻记录界面配置,实现界面图
的回放和生成,作为推荐模型输入。
•
借助局部印象模块和全局印象模块,在模型训
练过程中使新闻的文本语义和视觉表征进行融
合表达。
IMRec界面表征模型主要部分
15. IMRec表征模块
• 设计了局部印象模块和全局印象模块
进行融合视觉和文本特征,增强推荐
准确性
• 局部印象模块:将界面图片切分成
patch,采用ResNet/CLIP等提取器
对patch进行向量表征,并利用
attention机制建模文本token和
patch之间的依赖关系,从而提取文
本相关的图片表征
• 全局印象模块:使用ResNet/CLIP等
预先训练好的提取器将视觉印象作为
一个整体进行表征
• 本模块通用性强,能作为视觉界面表
征器适配到现有推荐模型中。
局部印象模块
局部+全局印象融合
16. 实验结果
在MIND新闻推荐数据上,IMRec有效提升现有模型NRMS和FIM的推荐效果,AUC提升1.4%
• NRMS-IM: 在NRMS模型上叠加IMRec模块
• FIM-IM: 在FIM模型上叠加IMRec模块
• News_image:包含界面视觉信息
• News_blank: 不包含界面视觉信息
• 对比News_image和News_black,AUC提升效果显著
17. 落地挑战
Baseline Baseline+Pic+History_Pic Baseline+Pic+History_Pic+FCs
0.7285 0.7295 0.7314
• 数据问题
1) 目前新闻图片数据缺失比较严重,仅有63%的新闻能关联到图片。(超过1个月的历史行为序列
新闻无法获取图片信息)
2) 实现定制化的界面视觉图片回放需要界面模拟,需要工程团队配合
• 线上推理:
分开建模代价高,需要与文本bert向量联合优化,降低线上开销
18. 展望
1. 如何高效地对预训练大模型进行微调(数据pairs合并、微软SpeedyFeed) ?
2. 如何只对pretrained embeddings进行微调达到好的效果?
3. 文本Bert表征和图片视觉表征多种信息如何进一步融合到推荐?
4. 如何兼容现有模型结构,高效地利用表征向量信息(初始化、向量特征、模型结构)?
5. 如何建模新闻界面context信息(包含上下文新闻视觉印象)?
多模态推荐
欢迎加群讨论
19. 谢谢!