网易云音乐用户行为归因体系建设
如果无法正常显示,请先停止浏览器的去广告插件。
1. 网易云音乐用户行为归因
数据体系建设
演讲人-宋志毅-网易云音乐-资深数据开发工程师
DataFunSummit # 2023
2. 目录 CONTENT
面临的问题 解决的方案 未来的规划
• 归因的业务背景 • 埋点体系升级 • 埋点
• 上一阶段的做法 • 归因模型升级 • 模型
• 上一阶段的问题 • 埋点管理平台 • 平台
3. 01
面临的问题
DataFunSummit # 2023
4. 归因的业务背景-数据资产大图
服务场景 决策分析
圈歌圈人
内容推广
价值评估
营销活动
关系挖掘
市场洞察
……
主题域dws 用户、内容、创作者、会员、产品功能
关系型
多元关系:人-内容-分发场景
二元关系:人-内容,人-人
标签型
人的标签:自然属性,社会属性,兴趣,行为等
内容标签:类型,品类,场景等
核心资产
dim
场景流量dwd
首页、搜索、音乐人、个人页、活动
事件流量dwd
播放、收藏、评论、分享、关注
公共流量dwd
数据接入
客户端日志
曝光、点击、滑动、播放
服务端日志
交互请求
新资产dwd
oneID、oneIP、
4BC、时空数据
算法
标签
用户行为归因
数据资产基石
业务事件dwd
下单、做任务
业务库
5. 归因的业务背景-为什么需要归因
产品功能
A
算法策略
B
运营策略
C
做出调整和优化
分析流量引导和转化效果
C1
P1
页面
P2
C2
P3
C3
描述是什么因素促使用户完成转化
(播放、互动、下单……)
点击
转化
P4
C4
R
用户行为归因
6. 归因的业务背景-音乐的典型场景
内容如何被分发,
并非用户当前的行
为路径
7. 归因的业务背景-归因策略的选择
末次触点归因
• 待归因事件中,最近发生的事件被认为是导致业
务结果的唯一因素
首次触点归因
•
•
标准一致,逻辑简单直接
业务认可,能反映业务事实
• 待归因事件中,最早发生的事件被认为是导致业务结果的唯一因素
线性归因 • 待归因事件中,每一个事件对业务结果产生的影响力平均分摊
位置归因 • 待归因事件中,最早和最近的事件影响力占一部分比例,中间事件
平摊影响力
时间衰减归因
• 待归因事件中,越近发生的待归因事件对业务结果的影响力越大
8. 上一阶段的做法
常规ETL模式
内容分发归因
待归因事件
时间序列
排序关联
归因事件段
(通常1天)
相关事件归因 • 以播放作为待归因事件,
做时间序列排序关联
播放间接归因 • 以直接来源之前的点击
作为待归因事件,做时
间序列排序关联
播放直接归因 • 埋点日志携带内容分发
直接来源code
9. 上一阶段的问题
稳定性
• 数据量大,耗时、耗资源
• 实时或准实时场景不可用
扩展性
• 无法支持更多层级链路
• 归因代码需要频繁更新
1
3
准确性
2
•
日志信息没有统一规范,
定义模糊
• 归因时间段的局限性
• 时间序列不一定反映内容
分发来源的真实情况
10. 02
解决的方案
DataFunSummit # 2023
11. 问题分析
埋点体系升级
01
稳定性
归因数据
归因过程避免大量数据排序
02
准确性
标准化记录用户
行为链路
关联
归因结果包含足够的信息且
符合业务分析诉求
03
扩展性
埋点管理平台
管理埋点需求与埋点使用
归因模型升级
基于埋点的行为
链路产出业务归
因数据
12. 埋点体系升级
标准化归因形态
大
前
端
埋
点
框
架
sdk
实
现
技术共建
数
据
仓
库
埋
点
内
容
设
计
伴随态归因(内容分发)
• 播放:持久化记录refer
• 其它:将持久化的播放
refer随事件提交
非伴随态归因
• 提交操作事件当前的
refer
标准化归因参数
三大要素
• 对象类型标识(otype)
• SPM
• SCM
三种类型
• psrefer
• multirefer
• addrefer
SPM
SCM
标准化对象管理
位置信息两大要素
• 对象ID(oid)
• 排序位置(pos)
内容信息三大要素
• 内容类型(ctype)
• 内容ID(cid)
• 内容分发策略(ctrp)
13. 归因模型升级-目标
埋点日志已经记录了归因链路信息,归因模型还需要解决归因链路的哪些问题?
组件复用,SPM一致但业务含义不同
末次触点不一定反映真实的业务诉求
14. 归因模型升级-目标
如何组织数据支持多维归因分析?
来源的页面位置
•
•
内容以集合形式分发
歌单、专辑、播单主题
域建设
•
•
推荐类型(如搜索场景
既有主动行为又包含推
荐流量)
付费类型
……
符合业务诉求的末次触点
触点所属的模块、页面
• 不同元素归属同一个业务
场景
同一业务场景,不同客户
端或不同版本的SPM定义
不同,或者本身就会出现
在不同的位置
来源的媒介内容
来源的业务场景
•
•
•
来源的流量分类
•
15. 归因模型升级-埋点标准延申
定义媒介内容
定义业务唯一 SPM
服务动态分发模块内容时携
带组件标识,取特殊的scm
作为spm_cid(可能会有多
层级)与spm作为业务位置
的联合唯一建
待归因事件的触点对象中最近
一个与目标事件关联的内容类
型不同的内容
歌单page
(歌单ID)
歌曲cell
(歌曲ID)
播放btn
(无ID)
定义有效末次触点
配置规则
忽略非业务归因目标的触点后
的末次触点
• 歌单、专辑、播单等媒介
内容详情页
• 收银台等公共页面
• 虚拟歌曲列表等过渡页面
16. 归因模型升级-多维模型设计
归因目标事件DWD(播放、收藏、订单……)
字段 说明
多个常规字段 播放、收藏、订单各自的业务字段
add_refer 反序列化保留原始日志种的refer字段,包含业务唯一SPM的联合唯
一键spm_cid,用于个性化的归因分析场景及数据查验
multi_refer{1-5}
biz_refer
carrier_type
carrier_id
有效末次触点,内容为以上refer字段的其中之一,描述来源的页面
位置
生成方式
通过UDF按统一规则或配置规
则解析埋点日志的原始refer
描述来源的媒介内容
refer_scene 描述来源的业务场景
多个流量分类字段 描述不同业务场景下的来源的流量分类
通过统一规则或配置规则根据
解析后的上述字段生成
17. 埋点管理平台
埋点登记、稽查、索引一体化
埋点信息维度表
18. 当前方案总结
稳定性
•
无需进行日志关联,高效
率低成本
•
1
目前已在 离线 、 准实时 、
实时 场景同时上线
扩展性
•
•
能支持层级更多、更复杂
的业务场景
播放归因代码层面因归因
逻辑适配调整的需求,新
方案上线 1年多仅1次
3
准确性
2
• 没有严格的校验标准
• 播放无意义的归因结果播放
量占比歌曲和播客分别从
10%和20%下降至<1%
19. 03
未来的规划
DataFunSummit # 2023
20. 未来的规划
埋点 模型 平台
• 提高不同客户端类型
的覆盖率
• 提高归因场景覆盖率 • 提高归因场景覆盖率
• 不同业务线数据分支
较多,实现上有差异,
归因体系需要落地统
一标准 埋点管 理平 台统一 管
理归因ETL过程中的配
置规则
• 业务唯一spm
• 有效末次触点
• 业务场景归属
• 流量分类归属
21. 感谢观看