淘宝直播窄带高清技术

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 淘宝直播窄带高清技术 —— 阿里巴巴淘系技术部 王立波
2. 1 全民直播大时代 2 直播痛点分析 3 淘宝直播窄带高清技术 4 音视频技术趋势探讨 5 在线互动
3. 1 背景 - 全民直播大时代 房车 秀场 疫情影响 课堂 电商 直播 电商 在疫情影响下,直播从传统的秀场 渗透到行业各个领域,全民直播时代到来 旅游 政企
4. 1 淘宝直播与钉钉在线课堂 淘宝直播 钉钉在线课堂 4 亿 + 年度用户规模 1.2 亿 + 中小学生上课 100 万 + 年度主播入驻 350 万 + 教师主播 2000 亿 + 年度直播成交 4000 万 + 直播商品
5. 2 直播痛点分析 成本 带宽 (? 亿 ) 存储 (? 亿 ) 转码 (? 亿 ) 体验 秒开 (?%) 卡顿 (?%) 延时 (?s) 音质 (?) 画质 (?) 效率 开播 (?h) 审核 (?s) 理解分发
6. 3 淘宝直播窄带高清 淘宝直播三大核心技术 1. 端上窄带高清: hevc 720p , 25fps , 800kbps , psnr > 43db/vmaf > 90 • • • 音视频增强,基于 AI 的图像增强、美颜和语音增强 感知处理,信源信道联合自适应编码 AliS265 编码器,业界领先的 HEVC 编码器 2. 零转码:端到端原始流生产和播放 • • SVC+A3C 拥塞控制实现不同网速的兼容 高性能 AliS265 解码器实现 IOS , Android , H5 三端 100% 解码 3. 低延时:端到端秒级延时 • • 基于 RTC 的实时直播系统 AliS265 低延时编码技术
7. 3 淘宝直播系统架构 采集 增强 720p 800k 感知 处理 拥塞 控制 S265 artc 解码 渲染 artp 边缘接入 ,合流 中心 接入 内容审核 质量监控 切片 录制 CDN 分发 内容理解 边缘分发 智能分发 显示
8. 3 淘宝直播 - 图像增强 前处理 • 美颜、美型 • 时空域降噪 • 纹理增强 后处理 • 适时超分 • HDR
9. 3 淘宝直播 - 音质优化 智能降噪技术 • 客观指标: STOI 和 PESQ 质量显著高于 WebRTC 原 始 • 延时: 30ms – 86 ms 可配置 • 性能:覆盖 IOS, Android, Windows 设备 • 包大小:动态拉取,不增加安装包大小 降噪能力 noisy webrtc_ns 19dB ali_denoise_v2 25dB PESQ STOI 2.09975 0.82369 2.39652 2.68043 延时 CPU 性能消耗 模型大小 0.74005 10ms 2%( 支持 iphone 所有机型 ) - 0.86589 86ms 8% (支持 iphone 所有机型) 2M RTC 降 噪 阿里 降噪
10. 3 淘宝直播 - 感知处理 信源信道联合自适应编码 • ROI : PixelAI 人脸 + 商品检测, ROI 区域重点编码 • 场景分类:不同场景适合不同的编码参数 • 智能码控 CARC :基于机器学习的码率控制 • 网络带宽:带宽受限编码 • 设备算力: Auto Preset 技术
11. 3 淘宝直播 -AliS265 淘宝直播 720p 800kbs 25fps 43db 钉钉在线课堂 720p 200kbs 25fps 43db
12. 3 淘宝直播 -AliS265 CU 划分决策 PixelEst Mode decision CNN Mode decision 决策准确率 72% 提高到 96% 5.4K OPs Homo:Ep < 2Et && Em < QP Comp:Ep > 4Et && Em >2QP Homo Complex Enhance the HEVC Fast Intra CU Mode Decision Based on Convolutional Neural Network by Corner Power Estimation
13. 3 淘宝直播 -AliS265 运动搜索优化 16x16PU FME 60 点全搜索: 172032 乘法 +147456 加法 +24576 移位 = 344064 Instructions 问题陈述 ME = IME+ FME ,耗时比例 2:8 全搜索: 60 point 普通快速搜索: 8 point 我们的方法: 1 point 解决方案 建立二元二次误差平面方程,用 9 个整像素点来的预测误差来求解方 程的 5 个系数,再对方程求偏导, 可得到最佳分像素点的位置。只需 计算 1 个 1/4 像素点。 Eocoder Mode 12% 200% 5745 Instructions 优化后: 整像素 15 个分像素 bd-psnr - 0.016db Yunpeng Li, Zhenyu Liu, et.al., “HEVC Fast FME Algorithm using IME RD-Costs based Error Surface Fitting Scheme”, VCIP 2016
14. 3 淘宝直播 -AliS265 码率控制 1. GOP I 帧的 QP 推导 传统 ? − ? 模型 问题: 一副图片中,有些图像块会被后 续帧参考,有些图像块不被参考 ,应当根据一个块被参考的强度 来决定它的量化参数; 改进的 MB-Tree 模型: 思想:根据图像块的参考强度来 调整它的∆ ??   原理: 1 个 bit 被分配到任何一 个 CU ,产生的边际价值都相同 . accuracy bd-psnr Bd-rate >=97% + 0.65db -17% 2. P 帧的 QP 推导 3. BP 帧类型决策 An Exploration of Lookahead in Frame Bit Allocation and Slice Type Decision, 
15. 3 淘宝直播 -AliS265 智能码控( CARC ) 42db 问题陈述 1. ABR 模式追求码率控制的精准度, 简单场景:码率过剩 复杂场景:码率不足 2. 人眼对失真的敏感度存在衰减效 应,高于一定阈值敏感度下降,此时 存在码率过剩 ; 解决方案 基于 cnn 网络预测出场景复杂度,根 据复杂度因子调节编码码率,可消除 简单场景下的码率过剩,并提高复杂 场景的质量。 speedup bitrate 0% -15%-30% 钉钉在线课堂 设定 800kbps ,实际 200kbps
16. 3 淘宝直播 - 质量评价系统 线上监控 线下开发 监控数据 有源质量评价 PSNR, SSIM, VMAF 质量预警 主播音视频 流 无源视频质量评 价系统 VQA 质量大盘 psnr/vmaf 主观评价系统
17. 3 淘宝直播 -AliS265 总结 MSU 2019 1080p Test MSU 国际编码器大赛 • • • • 100+ 序列 1080p , 4k 4 种速度档次 主观 + 客观测试 左 X265 右 S265
18. 3 淘宝直播 - 零转码系统 有转码直播系统  转码费用占直播成本的 1/3  零转码系统需解决三大 问题 1. 端侧生产高质量低码 率视频( AliS265 窄 带高清) 2. 三端实时解码 h265 (ios,android,h5) 3. 网络环境的适应能力 淘宝直播零转码系统
19. 3 淘宝直播 - 零转码系统 H265 解码 1. 芯片硬解码适配 2. 高性能 H265 解码器 3. 基于 Wsm 的 H5 解码方 案 4. Webkit+Native S265 解码速度 ( 小米 5) Wsm 解码
20. 3 淘宝直播 - 零转码系统 SVC+A3C 网络自适应技术 1. 800kbps 90% 以上网络可 承载 2. 时域 SVC 实现帧率分级 3. A3C 网络实现 QoE 的最大化 H265 SVC 流 720p 800kbps 25fps 100% 下发 CDN 75% 下发 50% 下发 用户 A 25fps 用户 B 18fps 用户 C 12.5fps
21. 3 淘宝直播 - 低延时技术 HLS/FLV 直播协议 5-10s 延时 淘宝直播秒级延时系统 编码延时 网络延时 解决方案 • • 分发延时 切片缓冲 防抖缓冲 播放缓冲 http http 基于 RTC 的实时直播系统 S265 低延时编码技术 业务价值: • 延时降低到 1 秒, GMV 增加 5% ; • 支持新业务形态:拍卖直播、客服 直播等 淘宝直播 1 秒延时系统 artc 低延时编码 UDP 协议 分发延时 切片缓冲 artp 防抖缓冲 0 播放缓冲
22. 3 淘宝直播 - 低延时编码 编码延时的来源: • B 帧 • Lookahead • Frame thread CU-tree 技术: • • • 编码效率在一定区间内与延 时成正比 x265 当延时降低到 8 帧时 ,编码效率下降 20% S265 200ms 延时编码效 率仅降低 3% 延时与编码效率关系 0 0 2 4 6 -10 8 10 12 14 16 18 20 22 24 26 28 30 32 lookahead -20 -30 -40 -50 B 帧 x265 -60 短距 lookahead Cutree 传播代价 运动强度 s265 机器学习模型 长距 lookahead Cutree 传播代价
23. 3 总结 成本 • 带宽:基于 AliS265 的端上窄 带高清技术,码率降低 65% • 存储:原始流存储,容量降低 65% • 转码:基于 AliS265 高性能解 码和 svc 技术,零转码直播; 体验 • 画质:大盘整体 psnr > 43db • 音质:智能降噪技术,高保真 模式 • 延时:基于 ARTC 上行和 ARTP 下行技术,延时从 5-10 秒降 低到秒级; • 秒开: ARTP 起播秒开率 > 90% • 卡顿:卡顿率 < 3%
24. 4 音视频技术趋势探讨  视频编解码  智能语音处理  图像增强技术  内容理解算法  高效传输技术 信号处理 + AI
25. 4 音视频技术趋势探讨:视频编解码  云边端一体编码系统  下一代编码标准  AI+ 编码 硬编码的挑战:压缩效率 考察核心:解码兼容性、专利 考察核心:解码速度,准确性 软编码的挑战:压缩速度 • 端:高性能软编码器 • H266/VVC :传统芯片优势 • 端到端 DL 压缩 • 端:移动端芯片硬编码优化 • • 混合编码框架下的 AI • 边 + 云:硬编码 :FPGA, ASIC, GPU AV1: 先发优势, web 兼容性 ,专利 • 场景自适应编码( CAE ) • 无参考评价系统 • AVS3 :国内生态,实体清单 • 其它: 6Dof ,点云压缩
26. 4 音视频技术趋势探讨:智能语音处理  前端 3A 处理  后端网络自适应  音效与评价 考察核心: PESQ,STOI, 考察核心:丢包下的声音体验 考察核心:声音的主观体验 处理 / 收敛速度 • 智能降噪: RNN , CNN • 音频超分:提升音质 • • 智能回声消除:线性、非线性 处理,盲源分离 • 智能 PLC :错误恢复 智能美声 • • 自适应码率:网络适应性 自动混响 • • RSFEC 、 NACK :恢复与延时 的平衡 无参考评价 • 自动增益:人声、噪声分离
27. 4 音视频技术趋势探讨  图像增强  视频内容理解  高效传输技术 多模态 • 智能去噪 • 通用物体检测 • 5G :高带宽,低延时 • 暗光增强 • 文本语义理解 • 智能带宽预测 • 智能选帧 • 自然语言处理 NLP • 智能调度系统 • 拍摄辅助 • 标签体系 • 大规模检索
28. 5 在线交流 QA
29. Thank you

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-26 10:02
浙ICP备14020137号-1 $Map of visitor$