淘宝直播窄带高清技术
如果无法正常显示,请先停止浏览器的去广告插件。
1. 淘宝直播窄带高清技术
—— 阿里巴巴淘系技术部 王立波
2. 1 全民直播大时代
2 直播痛点分析
3 淘宝直播窄带高清技术
4 音视频技术趋势探讨
5 在线互动
3. 1 背景 - 全民直播大时代
房车
秀场
疫情影响
课堂
电商
直播
电商
在疫情影响下,直播从传统的秀场
渗透到行业各个领域,全民直播时代到来
旅游
政企
4. 1
淘宝直播与钉钉在线课堂
淘宝直播
钉钉在线课堂
4 亿 + 年度用户规模 1.2 亿 + 中小学生上课
100 万 + 年度主播入驻 350 万 + 教师主播
2000 亿 + 年度直播成交
4000 万 + 直播商品
5. 2
直播痛点分析
成本
带宽 (? 亿 )
存储 (? 亿 )
转码 (? 亿 )
体验 秒开 (?%) 卡顿 (?%) 延时 (?s) 音质 (?) 画质 (?)
效率 开播 (?h)
审核 (?s)
理解分发
6. 3
淘宝直播窄带高清
淘宝直播三大核心技术
1. 端上窄带高清: hevc 720p , 25fps , 800kbps , psnr >
43db/vmaf > 90
•
•
•
音视频增强,基于 AI 的图像增强、美颜和语音增强
感知处理,信源信道联合自适应编码
AliS265 编码器,业界领先的 HEVC 编码器
2. 零转码:端到端原始流生产和播放
•
•
SVC+A3C 拥塞控制实现不同网速的兼容
高性能 AliS265 解码器实现 IOS , Android , H5 三端 100% 解码
3. 低延时:端到端秒级延时
•
•
基于 RTC 的实时直播系统
AliS265 低延时编码技术
7. 3
淘宝直播系统架构
采集
增强
720p
800k
感知
处理
拥塞
控制
S265
artc
解码
渲染
artp
边缘接入
,合流 中心
接入
内容审核 质量监控
切片
录制
CDN
分发
内容理解
边缘分发
智能分发
显示
8. 3 淘宝直播 - 图像增强
前处理
• 美颜、美型
• 时空域降噪
• 纹理增强
后处理
• 适时超分
• HDR
9. 3 淘宝直播 - 音质优化
智能降噪技术
• 客观指标: STOI 和 PESQ 质量显著高于 WebRTC
原
始
• 延时: 30ms – 86 ms 可配置
• 性能:覆盖 IOS, Android, Windows 设备
• 包大小:动态拉取,不增加安装包大小
降噪能力
noisy
webrtc_ns 19dB
ali_denoise_v2 25dB
PESQ STOI
2.09975 0.82369
2.39652 2.68043 延时 CPU 性能消耗 模型大小
0.74005 10ms 2%( 支持 iphone
所有机型 ) -
0.86589 86ms 8% (支持 iphone
所有机型) 2M
RTC
降
噪
阿里
降噪
10. 3 淘宝直播 - 感知处理
信源信道联合自适应编码
• ROI : PixelAI 人脸 + 商品检测, ROI 区域重点编码
• 场景分类:不同场景适合不同的编码参数
• 智能码控 CARC :基于机器学习的码率控制
• 网络带宽:带宽受限编码
• 设备算力: Auto Preset 技术
11. 3
淘宝直播 -AliS265
淘宝直播
720p
800kbs
25fps
43db
钉钉在线课堂
720p
200kbs
25fps
43db
12. 3
淘宝直播 -AliS265 CU 划分决策
PixelEst Mode decision
CNN Mode decision 决策准确率 72% 提高到 96%
5.4K OPs
Homo:Ep < 2Et && Em < QP
Comp:Ep > 4Et && Em >2QP
Homo
Complex
Enhance the HEVC Fast Intra CU Mode Decision Based on Convolutional Neural Network by Corner Power Estimation
13. 3
淘宝直播 -AliS265 运动搜索优化
16x16PU FME 60 点全搜索: 172032 乘法 +147456 加法 +24576 移位 = 344064
Instructions
问题陈述
ME = IME+ FME ,耗时比例 2:8
全搜索:
60 point
普通快速搜索: 8 point
我们的方法: 1 point
解决方案
建立二元二次误差平面方程,用 9
个整像素点来的预测误差来求解方
程的 5 个系数,再对方程求偏导,
可得到最佳分像素点的位置。只需
计算 1 个 1/4 像素点。
Eocoder Mode
12%
200%
5745 Instructions
优化后:
整像素
15 个分像素
bd-psnr
- 0.016db
Yunpeng Li, Zhenyu Liu, et.al., “HEVC Fast FME Algorithm using IME RD-Costs based Error Surface Fitting Scheme”, VCIP 2016
14. 3
淘宝直播 -AliS265 码率控制
1. GOP I 帧的 QP 推导
传统 ? − ? 模型
问题:
一副图片中,有些图像块会被后
续帧参考,有些图像块不被参考
,应当根据一个块被参考的强度
来决定它的量化参数;
改进的 MB-Tree 模型:
思想:根据图像块的参考强度来
调整它的∆ ??
原理: 1 个 bit 被分配到任何一
个 CU ,产生的边际价值都相同
.
accuracy bd-psnr Bd-rate
>=97% + 0.65db -17%
2. P 帧的 QP 推导
3. BP 帧类型决策
An Exploration of Lookahead in Frame Bit Allocation and Slice Type Decision,
15. 3
淘宝直播 -AliS265 智能码控( CARC )
42db
问题陈述
1. ABR 模式追求码率控制的精准度,
简单场景:码率过剩
复杂场景:码率不足
2. 人眼对失真的敏感度存在衰减效
应,高于一定阈值敏感度下降,此时
存在码率过剩 ;
解决方案
基于 cnn 网络预测出场景复杂度,根
据复杂度因子调节编码码率,可消除
简单场景下的码率过剩,并提高复杂
场景的质量。
speedup bitrate
0% -15%-30%
钉钉在线课堂 设定 800kbps ,实际 200kbps
16. 3 淘宝直播 - 质量评价系统
线上监控
线下开发
监控数据 有源质量评价
PSNR, SSIM, VMAF 质量预警
主播音视频
流 无源视频质量评
价系统 VQA 质量大盘
psnr/vmaf 主观评价系统
17. 3
淘宝直播 -AliS265 总结
MSU 2019 1080p Test
MSU 国际编码器大赛
•
•
•
•
100+ 序列
1080p , 4k
4 种速度档次
主观 + 客观测试
左 X265
右 S265
18. 3 淘宝直播 - 零转码系统
有转码直播系统
转码费用占直播成本的
1/3
零转码系统需解决三大
问题
1. 端侧生产高质量低码
率视频( AliS265 窄
带高清)
2. 三端实时解码 h265
(ios,android,h5)
3. 网络环境的适应能力
淘宝直播零转码系统
19. 3 淘宝直播 - 零转码系统
H265 解码
1. 芯片硬解码适配
2. 高性能 H265 解码器
3. 基于 Wsm 的 H5 解码方
案
4. Webkit+Native
S265 解码速度 ( 小米 5)
Wsm 解码
20. 3 淘宝直播 - 零转码系统
SVC+A3C 网络自适应技术
1. 800kbps 90% 以上网络可
承载
2. 时域 SVC 实现帧率分级
3. A3C 网络实现 QoE 的最大化
H265
SVC 流
720p
800kbps
25fps
100% 下发
CDN
75% 下发
50% 下发
用户 A
25fps
用户 B
18fps
用户 C 12.5fps
21. 3 淘宝直播 - 低延时技术
HLS/FLV 直播协议 5-10s 延时
淘宝直播秒级延时系统
编码延时
网络延时
解决方案
•
•
分发延时
切片缓冲
防抖缓冲
播放缓冲
http
http
基于 RTC 的实时直播系统
S265 低延时编码技术
业务价值:
• 延时降低到 1 秒, GMV 增加
5% ;
• 支持新业务形态:拍卖直播、客服
直播等
淘宝直播 1 秒延时系统
artc
低延时编码
UDP 协议
分发延时
切片缓冲
artp
防抖缓冲
0 播放缓冲
22. 3 淘宝直播 - 低延时编码
编码延时的来源:
• B 帧
• Lookahead
• Frame thread
CU-tree 技术:
•
•
•
编码效率在一定区间内与延
时成正比
x265 当延时降低到 8 帧时
,编码效率下降 20%
S265 200ms 延时编码效
率仅降低 3%
延时与编码效率关系
0
0
2
4
6
-10
8 10 12 14 16 18 20 22 24 26 28 30 32
lookahead
-20
-30
-40
-50
B 帧
x265
-60
短距 lookahead
Cutree 传播代价
运动强度
s265
机器学习模型
长距 lookahead
Cutree 传播代价
23. 3
总结
成本
• 带宽:基于 AliS265 的端上窄
带高清技术,码率降低 65%
• 存储:原始流存储,容量降低
65%
• 转码:基于 AliS265 高性能解
码和 svc 技术,零转码直播;
体验
• 画质:大盘整体 psnr > 43db
• 音质:智能降噪技术,高保真
模式
• 延时:基于 ARTC 上行和 ARTP
下行技术,延时从 5-10 秒降
低到秒级;
• 秒开: ARTP 起播秒开率 >
90%
• 卡顿:卡顿率 < 3%
24. 4
音视频技术趋势探讨
视频编解码
智能语音处理
图像增强技术
内容理解算法
高效传输技术
信号处理
+ AI
25. 4
音视频技术趋势探讨:视频编解码
云边端一体编码系统 下一代编码标准 AI+ 编码
硬编码的挑战:压缩效率 考察核心:解码兼容性、专利 考察核心:解码速度,准确性
软编码的挑战:压缩速度
• 端:高性能软编码器 • H266/VVC :传统芯片优势 • 端到端 DL 压缩
• 端:移动端芯片硬编码优化 • • 混合编码框架下的 AI
• 边 + 云:硬编码 :FPGA, ASIC,
GPU AV1: 先发优势, web 兼容性
,专利 • 场景自适应编码( CAE )
• 无参考评价系统
• AVS3 :国内生态,实体清单
• 其它: 6Dof ,点云压缩
26. 4
音视频技术趋势探讨:智能语音处理
前端 3A 处理 后端网络自适应 音效与评价
考察核心: PESQ,STOI, 考察核心:丢包下的声音体验 考察核心:声音的主观体验
处理 / 收敛速度
• 智能降噪: RNN , CNN • 音频超分:提升音质 • • 智能回声消除:线性、非线性
处理,盲源分离 • 智能 PLC :错误恢复 智能美声
• • 自适应码率:网络适应性 自动混响
• • RSFEC 、 NACK :恢复与延时
的平衡 无参考评价
•
自动增益:人声、噪声分离
27. 4
音视频技术趋势探讨
图像增强
视频内容理解
高效传输技术
多模态
• 智能去噪 • 通用物体检测 • 5G :高带宽,低延时
• 暗光增强 • 文本语义理解 • 智能带宽预测
• 智能选帧 • 自然语言处理 NLP • 智能调度系统
• 拍摄辅助 • 标签体系 • 大规模检索
28. 5
在线交流
QA
29. Thank you