抖音商业化营销系统架构稳定性演进
如果无法正常显示,请先停止浏览器的去广告插件。
1. 抖音商业化营销系统架构稳定性演进
抖音研发架构师 / 何富斌
2.
3. 大纲
•
•
•
•
抖音商业化营销业务介绍
抖音商业化营销系统架构设计
系统架构稳定性演进
抖音商业化营销系统稳性优化总结及未来展望
4. 抖音商业化营销业务介绍
5. 大家在玩抖音的时候,一定刷到过类似如下内容
产品:挑战赛
场景:话题页
产品:视频挂件
场景:推荐feed
产品:全民任务
场景:直播间
6. 什么是抖音商业化营销业务?
What
广告的一种形式,也是广告主
在抖音端内进行营销推广的一
系列玩法活动,广告主多为品
牌广告主
Why
用户通过参与活动获取激励(广告预算的
一部分),广告主达到品牌推动效果,平
台在收获广告收入的同时也能提升用户粘
性,从而达到三赢的局面。平台收入增速
远超广告大盘
7. 什么是抖音商业化营销业务?
常见客户行业
3C电器
产品矩阵
挑
战
赛
视
频
挂
件
头
像
挂
件
话
题
发
布
全
民
任
务
点
赞
彩
蛋
食品饮料
美妆个护
母婴日化
服装配饰
平台电商
8. 优秀案例一:某汽车品牌营销活动
玩法
618电商营销节
挑战赛+全民任务:参与活动领取盲盒
社交裂变,形成自传播
效果
预算小,传播高效:3500万+视频播放,1300+高质
量视频,7000+份盲盒抢购一空
获得奖项:CAMA中国广告营销大奖银奖
9. 优秀案例二:某奶粉品牌全民看播
玩法
预约召回:活动前两天发起预约,开始前push
看播任务:激励用户完成关注、评论、购物等任务
效果
直播间点赞:540w+,提升54倍
直播间成交:奶粉版TOP1,提升25倍
新增粉丝数:7.5w+,近90天涨粉峰值
10. 抖音商业化营销系统架构设计
11. 服务架构
搜索
话题页
投稿
推荐feed
个人页
直播间
流量层
挑战赛
业务层
存储层
头像挂件
话题发布
API 服务 投稿脚本 点赞脚本
挑战赛服务 全民任务服务 挂件服务
审 核 服 务
依赖层
视频挂件
广告中台
MySQL
视频排序服务
feed中台
收益计算服务
审核中台
Redis
全民任务
点赞彩蛋
稳定性保障模块
奖励发放服务
投稿服务
Abase
点赞服务
钱包服务
ES
12. 商业化营销系统稳定性为什么尤为重要
事实
客户多为品牌广告主
资源售卖强依赖销售
系统不稳定的当下影响
1:N赔偿客户
销售提成降低
系统不稳定的未来影响
预算转移
销售不再推销
复购率降低
13. 稳定性难点与挑战
业务复杂:产品矩阵丰富,端内场景多
并发量大:百万QPS
协作团队多:与抖音主站、广告投放、审核等团队协作
定制化需求多:重要节点营销诉求多,时间紧
14. 稳定性保障模块
稳定性保障思路
少出问题
严格代码review制度
单测机制
CI (持续集成) 系统
自动化测试
压测、演练机制
容量规划
尽早发现问题
Redis大key监控
MySQL慢查询监控
视频相关监控
vv相关监控
拉空监控
尽快处理问题
紧急处理脚本
限流
容灾降级
15. 系统架构稳定性演进
16. 演进历程
Rome wasn’t built in a day.
2018年7月~2019年6月
bug多,事故多
完善基建,打好基础 2019年7月~2020年12月
bug少,事故少
迎接高并发挑战 2021年1月以后
bug少,零事故
重要节点稳定性保障
野蛮生长期 逐步稳定期 渐入佳境期
17. 一、野蛮生长期:完善基建,打好基本功
业务野蛮生长,系统稳定性差
bug多、事故多
影响客情,影响销售积极性
系统解耦
宙斯盾系统
赋能运营
系统和抖音主站系统耦合
系统监控和报警极度缺少
S T
A R
bug和事故降低80%
销售积极性恢复
18. 一、野蛮生长期:完善基建,打好基本功
宙斯盾系统:问题暴露方式的转变
问题被动反馈 广告主 销售 运营 产品 研发
问题主动发现 研发 产品 运营 销售 广告主
19. 一、野蛮生长期:完善基建,打好基本功
宙斯盾系统:像宙斯盾一样保护我们的系统
每小时遍历所有在投营销活动
核心数据及功能指标
置顶/优质视频 vv波动 投稿数
搜索功能 名称唯一性 商业化元素状态
尝试自动修复
自动拉群推送
人工判断&修复
20. 一、野蛮生长期:完善基建,打好基本功
赋能运营
高频问题
视频为什么被过滤了
用户参与了活动为啥没奖励
vv不到量
客户的视频为什么没有置顶
措施
沉淀帮助文档
自助排查机器人
定期组织培训
收集case进行系统优化
效果
减少大量无效问题反馈
缩短问题排查的时间
增强销售和广告主信心
增加了复投
21. 二、逐步稳定期:迎接高并发挑战
受欢迎的产品:挑战赛、全民任务、头像挂件
高并发的场景:推荐feed、直播间、个人页
飙升的流量:千级别QPS 百万级别QPS
高并发系统三板斧
缓存
预热
容灾
22. 二、逐步稳定期:迎接高并发挑战(预热)
商业化营销系统的流量特点
QPS
QPS
理想的QPS变化曲线
time
商业化营销系统的QPS变化曲线
time
23. 二、逐步稳定期:迎接高并发挑战(预热)
没有预热,不叫高并发,叫并发高
研发系统预热
CDN预热(图片等静态资源)
缓存系统预热(业务数据)
业务辅助预热
提前分批发送push
直播间提前开播
24. 二、逐步稳定期:迎接高并发挑战(容灾)
墨菲定律:软件工程没有银弹。可能出错的地方,一定会出错
25. 二、逐步稳定期:迎接高并发挑战(容灾)
容灾方式
代码容灾 功能容灾
兜底逻辑
版本/开关配置 售卖刊例中的功能分级
保核心功能
损失一点用户体验
系统容灾 机房容灾
超时治理
强弱依赖分级
限流降级
存储容灾 同城多活
异地多活
BFC切流
26. 二、逐步稳定期:迎接高并发挑战(容灾)
容灾案例
案例一
容灾点:用户投稿是参加营销活动最常见
的方式,投稿失败将直接影响用户积极性
和营销效果
容灾方案:1)失败的投稿丢到延迟队列
中后续进行重试;2)用Redis的INCR方
法对id生成器进行容灾
案例二
容灾点:视频详情页是客户重点关注的产品功
能,Redis的大key和热key问题容易造成页面
拉空
容灾方案:将Redis zset长度做成动态可配
置,一旦出现bad case,将长度调小,保证有
视频能展示出来(特别是客户提供的视频)
27. 三、渐入佳境期:重要节点稳定性保障
What
元旦
春节
六一八
国庆
双十一
Why
客户预算多,客情影响大
营销玩法多,定制化需求多
投放场景多,流量巨大(百万QPS)
大额订单多
28. 三、渐入佳境期:重要节点稳定性保障
营销活动前 封板 容量规划 压测/演练 重保活动确定
营销活动中 vv增速监控 拉空监控 视频数监控 置顶/优质视频监控
视频表现是否正常?
投稿队列
客户指定视频
紧急处理脚本
29. 三、渐入佳境期:重要节点稳定性保障
措施
活动前:封板、容量规划、压测/演练、确定重保活动名单
活动中:监控大盘、人工值班大额订单、紧急脚本处理
活动后:复盘,沉淀经验复用
效果
2021年下半年后重要节点bug少,零事故
营销效果得到保障,复投率提升
30. 抖音商业化营销系统稳定性优化
总结及未来展望
31. 效果总结
业务增长带来技术挑战,技术稳定反哺业务发展
系统稳定 业务收益
百万QPS轻松应对 产品复投率提升
故障快速发现、定位、修复
bug少、零事故
营销收入增速远超广告大盘
32. 未来展望
未来展望:经验复制
业务拓展
抖音极速版
剪映
头条
火山
技术扩展
模块复用
配置化
流量标识
集群隔离
33.
34.