预训练模型在信息流推荐中的应用与探索

如果无法正常显示，请先停止浏览器的去广告插件。

1. 预训练模型在信息流推荐中的应用与探索朱杰明华为 ∙ 诺亚方舟实验室 2021年12月19日

2. 华为诺亚方舟实验室专注AI研究产品部门网络智能计算视觉诺亚方舟实验室企业智能语音语义搜索推荐终端智能成功的业务新兴业务决策推理 AI 系统工程先进的技术 AI 基础理论 AI研究合作 Professional Advisory Committee 10+ 国家, 25~大学, 50~ 项目, 1,000+ 研究人员健康生态

3. 诺亚推荐团队研究方向介绍 • • • • • 深度学习模型知识图谱/GNN 多模态融合推荐多目标/迁移学习分布式训练及优化 AutoML 基于预训练的IR技术反事实学习/纠偏列表式推荐/重排序广告系统竞价算法 2019年至今，团队在KDD/SIGIR/NeuaIPS/AAAI/IJCAI/RecSys等顶会发表论文50+篇 DeepFM (IJCAI2017)，引用次数1000+，2016-2020年IJCAI论文被引用次数第1； AutoFIS（KDD2020），best paper candidate（top 10） EDCN（DLP-KDD2021），best paper award 持续支撑应用市场、游戏中心、信息流、广告、音乐等个性化推荐场景算法及优化

4. 信息流推荐场景负一屏图文浏览器图文浏览器短视频构建下一代推荐技术：面向多模态化内容的推荐华为视频

5. 推荐技术发展历程  2001~: 协同过滤 (Collaborative Filtering) • • • Nearest neighbor Matrix factorization (MF) Topic models  2010~: 广义线性模型 (Generalized Linear Model) • • • Logistic regression （ FTRL+LR ）低秩模型 : Factorization Machines (FM) / Field-aware FM (FFM) Learning to rank: BPR, RankSVM, LambdaRank  2015~: 深度学习推荐模型 • • 深度学习时代：算法算力取得巨大提升 YoutubeDNN, Wide&Deep, DeepFM, DIN 等  2018~：预训练大模型? • • • 浅层模型时代：模型训练效率(如 FTRL)带来质的飞跃 NLP 预训练： Bert, Roberta ， ERNIE ， GPT, 盘古等多模态预训练： CLIP, M5, 文澜等 • 深度推荐逐渐进入深水区，如何找到下一个突破口？

6. 预训练模型在信息流推荐中的应用探索新闻场景下的BERT预训练和排序建模用户视角下的新闻界面表征建模类别Category （生活、科技）文本语义标签Tag （养生、健身）关键词Keyword （枸杞、胸肌）界面信息实体词Entity （人名、地名）信息内容

7. 基于文本内容的新闻推荐模型：业界研究工作 Topic modeling: • Collaborative Topic Regression • TANR (topic classification) Word2vec/Glove based: • NPA • LSTUR • NRMS • FIM NPA：利用TextCNN+attention建模 NAML：利用TextCNN+Multi-View NRMS：利用transformer结构建模 FIM：基于细粒度word-word交互个性化文本语义表征信息 KDD2019 结构建模文本语义信息 IJCAI2019 Bert pretraing based: • UNBERT • NewsBert • Tiny-NewsRec • RMBert • NewsBERT • …… 文本语义信息 ACL2019 特征建模语义匹配信息 ACL2020

8. UNBERT: User-News Matching BERT [诺亚, IJCAI2021] 背景 • 现有模型引入CNN/LSTM /Transformer等结构建模文本信息，但无法利用到通用语言知识 • Pretrain+Finetune已成为NLP领域的最普遍范式，比word2vec词向量有更好地泛化性 UNBERT • 成功将Bert预训练模型用于新闻推荐建模 • 实现word-level和news-level双层用户-新闻兴趣匹配建模 • 利用曝光点击数据以CTR预估任务进行finetune <CLS> N1 <SEP> N2 <SEP> … N4 输入形式：将历史浏览新闻和曝光新闻以<SEP>拼接成句子输入 Zhang et al., User-News Matching BERT for News Recommendation, IJCAI 2021. 历史浏览新闻序列曝光新闻

9. 新闻推荐数据集MIND实验结果结论1：基于Bert预训练+Finetune 的方案大幅领先之前模型结论2：相较之前模型，UNBERT 在冷启动新闻上具有更好地泛化性

10. 微软MIND新闻推荐榜单 • Top方案全部基于预训练模型 • UNBERT论文方案和优化版 MINER当前排名Top6和Top2 （曾排名第一） • 微软UniUM方案尚未公开

11. UNBERT轻量化基于Bert的方案计算量非常庞大，很难适应线上业务的低时延要求。为了降低模型响应时间，进行了多种模型轻量化方案： • 模型裁剪：减少模型层数和参数规模。 • 模型蒸馏：通过知识蒸馏方法从原始BERT模型蒸馏出符合上线要求的小模型 768 Bert-mini(4层4head256维)能够在取得不错精度的情况下，大幅减少模型参数量和训练推理时间。

12. 落地优化方案 • 兼容现有模型 • 无法替代当前CTR模型，需要兼容 • 优化：1）由多条新闻交互式匹配改为单条新闻独立表征，便于向量缓存，避免重复计算； 2）表征向量作为DCN模型特征或初始化 • 维度压缩 • 原始embedding维度768太高，需要降维处理，尝试PCA效果一般 • 优化：在finetune阶段FC层进行降维(如50) • 训练及推理效率 • 直接使用原始Bert模型在业务数据没有效果，需要使用点击数据微调 • 优化：1）模型轻量化，使用TinyBert-4L作为预训练模型；2）训练数据筛选，过滤历史序列缺失或太短的长尾用户数据，达到模型天更在信息流推荐业务场景，当前版本取得离线AUC提升7个千分点，线上CTR 平均提升2.3% 在微软MIND新闻推荐数据集上验证，利用优化后Bert 新闻表征能有效提升不同推荐模型(DCN/PNN)效果，AUC增长约1% bert baseline

13. IMRec: 用户视角下的新闻界面表征建模 [诺亚, MM2021] • 问题及挑战：现有新闻推荐模型没有充分捕捉用户客户端展示界面信息，无法从用户视角下理解内容 • 新闻的多模态内容：标题、图片/视频、类别、发布源等大图 • 用户点击决策过程：用户阅读文本同时看到视觉界面信息，整体用户的点击决策过程三小图单小图视觉印象：用户视觉下的新闻界面信息整体新闻客户端展示界面图片类别标题局部印象 Xun et al., Why Do We Click: Visual Impression-aware News Recommendation, MM 2021. 全局印象 • 视觉印象：指用户视觉下界面展示的多模态信息，一般包括界面缩略图、排版格式、字体等信息。

14. 整体方案在新闻推荐算法中引入从用户感知界面抽取的视觉印象信息预测用户兴趣点 IMRec框架简述： • 对曝光展示的新闻记录界面配置，实现界面图的回放和生成，作为推荐模型输入。 • 借助局部印象模块和全局印象模块，在模型训练过程中使新闻的文本语义和视觉表征进行融合表达。 IMRec界面表征模型主要部分

15. IMRec表征模块 • 设计了局部印象模块和全局印象模块进行融合视觉和文本特征，增强推荐准确性 • 局部印象模块：将界面图片切分成 patch，采用ResNet/CLIP等提取器对patch进行向量表征，并利用 attention机制建模文本token和 patch之间的依赖关系，从而提取文本相关的图片表征 • 全局印象模块：使用ResNet/CLIP等预先训练好的提取器将视觉印象作为一个整体进行表征 • 本模块通用性强，能作为视觉界面表征器适配到现有推荐模型中。局部印象模块局部+全局印象融合

16. 实验结果在MIND新闻推荐数据上，IMRec有效提升现有模型NRMS和FIM的推荐效果，AUC提升1.4% • NRMS-IM: 在NRMS模型上叠加IMRec模块 • FIM-IM: 在FIM模型上叠加IMRec模块 • News_image：包含界面视觉信息 • News_blank: 不包含界面视觉信息 • 对比News_image和News_black，AUC提升效果显著

17. 落地挑战 Baseline Baseline+Pic+History_Pic Baseline+Pic+History_Pic+FCs 0.7285 0.7295 0.7314 • 数据问题 1) 目前新闻图片数据缺失比较严重，仅有63%的新闻能关联到图片。(超过1个月的历史行为序列新闻无法获取图片信息) 2) 实现定制化的界面视觉图片回放需要界面模拟，需要工程团队配合 • 线上推理：分开建模代价高，需要与文本bert向量联合优化，降低线上开销

18. 展望 1. 如何高效地对预训练大模型进行微调（数据pairs合并、微软SpeedyFeed） ? 2. 如何只对pretrained embeddings进行微调达到好的效果？ 3. 文本Bert表征和图片视觉表征多种信息如何进一步融合到推荐？ 4. 如何兼容现有模型结构，高效地利用表征向量信息(初始化、向量特征、模型结构)? 5. 如何建模新闻界面context信息(包含上下文新闻视觉印象)？多模态推荐欢迎加群讨论

19. 谢谢！