有赞智能文案算法及应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. 数智 · 同行
第三届大数据技术沙龙
2. 有赞智能文案算法及应用
康洪雨
有赞 | 算法工程师
3. 真诚的友谊来自于不断的
自我介绍
东北大学 有赞
硕士 算法工程师
智能文案算法
丰富营销链路
2019.2
2020.9
2019.1
贝贝集团 文本向量化 个性化推荐
算法工程师 商品相似任务 召回算法优化
康洪雨
算法工程师 / 自然语言处理 / 个性化推荐
2020 年加入有赞,主要负责有赞智能文案应用和有赞精选个性化推荐业务,目前主要负责推荐链路的召回算法优化。
4. 目
01
03
智能文案简介
什么是智能文案及为什么要做智能文案
有赞智能文案业务应用
智能文案典型应用场景和业务效果
录
02
04
有赞智能文案服务设计与实现
智能文案模型和系统经过哪些迭代与优化
总结与展望
智能文案服务的未来规划
5. 01
智能文案简介
什么是智能文案及为什么要做智能文案
6. 什么是智能文案
智能文案是通过自然语言处理算法,模拟人工写作,生成带有创意性、趣味性的短文本,用于商品展示、营销活动
分享传播等环节,达到丰富产品形态、提高流量转化的目的。
功能描述型风格 补水保湿遮瑕粉底液
特价促销风格 大牌粉底液超低价,手慢无!
搞笑风格 粉底液用的好,胜过去韩国。
走心风格 薄薄一层 CC 霜,瞬间化身小公主。
实际功效表达 提亮肤色遮瑕粉底液,遮挡淡纹轻松搞定。
古诗词风格 寒风拂槛雪正浓,暖意毛衣造花容
Ai 智能文案特点
• 不同风格类型
• 字数长短可控
• 句法高度拟人化
7. 为什么要做智能文案
• 内容化本身有着非常重要的业务价值,做好内容化建设有利服务有赞商家
• 智能文案相对的概念是达人文案,达人文案天然存在覆盖商品少,成本高的问题
• 近年来深度学习快速发展,自然语言处理方向不断突破,智能文案有很高的技术可行性
积累大量商品相关的文本数据
1
4
2 具备完整商品理解能力
3 NLP 领域的深度学习相关知识储备
用技术驱动业务创新的初衷
8. 智能文案与达人文案对比
机器可以做到个性化的内容生成
人
机器对商品有更深的理解
生成的内容可以有远超达人的信息量
货
场
不同场景下
机器可以灵活的定制生成内容的样式风格
智能文案缺点
• 机器的本质没有脱离从海量数据中统计学习的思路,无法小样本学习
• 学习的空间其实是相对世界的一个非常小的子集
• 基本无法做到像达人一样旁征博引,生成更有创造力的文案
9. 智能文案在业内的应用场景
手淘推尖货 - 推荐理由
大众点评 - 摘要标题
大众点评 - 商户文案
10. 02
有赞智能文案服务设计与实现
智能文案模型和系统经过哪些迭代与优化
11. 有赞智能文案服务搭建技术流程
素材积累
商品标题
素材清洗
商品文案
商品短标题
商品类目
智能素材库
文案通顺合理性判断
产品词
涉黄涉暴文案鉴别
产品词
在线服务
创意重复文案过滤
向量化
产品词
文案
文案
文案
文案
相似算法
素材生成
GPT2
ConditionalBERT
PPLM
素材匹配
文案 文案 Vector 标题文案共现排序 通过类目、产品词挂靠
小盒子 milvus 文案 Vector 对比学习 SimCSE 标题、文案共线排序
文案 vector 黑名单 文案 Vector 深度向量匹配模型 商品属性后置修正
商品标题
12. 基础素材数据积累
商品
数据收集
巧妇难为无米之炊
1 商品标题
2 商品文案
3 商品类目
4 商品短标题
5 商品产品词
覆盖美妆饰品、女装女鞋、日用百货等近 30 个二级类目
13. 原始素材数据清洗
去噪数据
商品标题
商品短标题
商品类目
商品产品词
商品文案
文案通顺合理性判断 负向语义文案删除 创意重复文案过滤
人工验证 关键字判别 正则规则过滤
跑步打球全身汗,穿速干衣预防近视 天然染发剂,染上绿色好秀发 小小便携分装瓶带着美丽去旅行
小小项圈,圈出狗狗快乐感 谁说 it 男等于大写 low 小小便携分装瓶带着我们的旅行
一次性口罩,让你的孩子不能呼吸 小小的益智积木,大大的心机 小小便携分装瓶带着你的旅行
原始数据
商品标题
商品短标题
商品类目
商品产品词
商品文案
14. 基于 GPT2 生成式文案服务
抗皱滋润眼霜,消灭细纹再续青春
构造商品标题、文案 pair ,训练 GPT-2 生成模型,生成文案通顺、相关率可达 85% 以上
缺点:推理耗时高、 QPS 低、生成文案不可控
15. GPT-2 模型能力拆解
GPT-2
文本对照能力
句法句式能力
学习到商品标题和文案的对应关系 学习到商品文案本身的句法句式关系
连衣裙商品 ---> 连衣裙文案 羽绒服文案 ---> 冬季保暖利器
爽肤水商品 ---> 爽肤水文案 洗衣液文案 ---> 洁净衣服无残留
防晒霜商品 ---> 羽绒服文案 面膜文案 ---> 轻松过滤空气灰尘
分离出标题和文案对照能力,使用匹配算法,用商品标题和标准文案商品池做相似召回
16. 基于规则相似匹配文案服务
离线挖掘
在线服务
商品 - 文案写入 Hbase
标题写入 ES 索引
商品 - 文案 - 召回结果
标题 - 文案 - 共现子串排序
有赞类目 - 产品词 - 文案
有赞商品标题 - 类目 - 产品词
商品
查询 hbase
否
是
文案
标题 - 文案规则相似排序可保证 85% 以上的相关率,离线挂靠、在线查询, QPS 高
缺点:标题 - 文案结果存储资源大、 ES 查询相关性弱、规则相似泛化能力弱
查询 es 索引
查询 hbase
17. 基于深度语义相似匹配文案服务
标题向量
P(w 1 |t) P(w 2 |t) P(w 3 |t) P(w n |t)
cosine cosine cosine cosine
文案向量 P 文案向量 N 文案向量 N …
文案文本 …
预训练 Electra 模型
标题文本
文案文本
文案文本
标题 - 文案深度语义相似匹配可保证 90% 以上的相关率,文案导入向量引擎,推理耗时低,相关性强,无需离线存储, QPS 高
18. 多塔深度模型的负采样探索
Batch title Title 1 Title 2 Title 3 Title 4 Title 5 Title 6 … … … Title N
Batch text Text 1 Text 2 Text 3 Text 4 Text 5 Text 6 … … … Text N
Batch*Batch
0.7 0.2 0.3 0.1 0.2 0.4 … … … 0.1 Label=0
… … … … … … … … … … Label=…
0.1 0.2 0.3 0.1 0.2 0.4 … … … 0.9 Label=N-1
Batch 内负采样可以节省训练样本构造的大量前期准备工作
Batch 越大,模型的泛化性能越好,但对资源要求更大
这种负采样方法要求样本之间要尽量打散
我们综合测试选取 batch size=1024
19. 可控文本生成算法的探索
创意素材
创意素材
GPT-2
标题文本
Conditional
BERT
关键字
基于可控文本生成算法用于素材补充探索时,创意性较弱,模型的记忆能力强
创意素材
PPLM
关键字
20. 03
有赞智能文案业务应用
智能文案典型应用场景和业务效果
21. 有赞商品分享链路展示文案
气质长袖衬衫穿出属于你的时尚范
雪地靴,冬日也能穿出时尚范儿
引导性文案在有赞商品分享链路展示
有赞销售员业务分享回流指标相对提升约 10%
有赞商详微信原生分享回流指标相对约提升 12%
22. 搜索框热榜展示文案
游走在手腕上的优雅
保暖加绒打底衫
根据长文案,使用算法生成相应短文案
在有赞精选和爱逛买手店搜索框上线热榜
用户搜索点击率相比旧版提升 1 倍
23. 04
总结与展望
智能文案服务的未来规划
24. 总结
基础素材数据的
积累与清洗
基于 GPT-2 生
成式模型文案服
务 1.0
基于规则相似匹
配式文案服务
2.0
基于深度语义相
似匹配文案服务
3.0
文案服务在有赞
落地场景及价值
25. 展望
增强深度语义模型 引入图谱关系到生 多模态模型增加商 基于深度学习噪声
表达能力 成式模型 品信息 判别算法
• 电商领域知识预训练 • 引入商品图谱结构化信息 • 预训练模型增加图片信息 • 自动识别噪声数据及类型
• 构建相关特征加入模型 • 利用上下位关系约束模型 • 图片和标题生成式训练 • 具有较好的可扩展性
26.