字节跳动智能音频信号处理的应用实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 字节跳动智能音频信
号处理的应用实践
徐宁 字节跳动语音信号处理算法工程师
2021/9/25
1
2. 1.音频信号处理发展趋势
2.智能音频信号处理在高质量音频采
集中的应用
3.声场重建应用实践
4.智能语音交互中的音频信号处理
5. 展望未来
2
2
3. 3
音频信号处理发展趋势
4. 音频信号处理介绍
4
业务应用:
高质量音频采集、声场还原、人机交互、音视频创作
关键技术组件:
声源定位&波束形成、回声消除、多模态音频信号处理、声音效果
算法基础:
自适应滤波器、阵列信号处理、心理声学、深度学习
www.volcengine.com
5. 音频信号处理发展
5
音频信号处理基础
VoIP
阵列信号处理
多模态
声音效果
www.volcengine.com
6. 6
智能音频信号处理在高质量音频
采集中的应用
7. 高质量音频采集应用场景
视频录制创作
7
直播
VoIP
录音硬件
回声消除
音频缩放
降噪
增益控制
声音均衡
www.volcengine.com
8. 多模态 Audio Zoom 技术
8
声源位置判断 多模态语音增强 音画增益同步
视频场景分析 模型波束形成 声音均衡
多模态音频场景分析 基于深度学习的
Audio Zoom 技术 Audio Zoom 后处理
www.volcengine.com
9. 多模态 Audio Zoom 技术应用效果展示
9
www.volcengine.com
10. 多模态 Audio Zoom 技术应用效果展示
10
www.volcengine.com
11. 高质量、低延时 VoIP 应用
11
麦克风状态检测 回声消除 音频质量提升 声音美化
增益一致性
数据一致性
麦克风选取 时延估计
自适应滤波器
模型残余回声抑制 混响抑制
噪声消除
增益控制 人声增强
动态 EQ
www.volcengine.com
12. 12
声场重建应用实践
13. 声场重建应用场景
视频/音频创作中,对各个声源进行
声场重建,打造画面感声音引擎
13
VR/AR 中,打造沉浸式的音视频体验
www.volcengine.com
14. 如何实现视频画面的声场重建
声场分析
14
声道数目
相对位置
声源路径
声音种类
声源提取
空间声生成
多声源音量均衡
声源分离/分割
波束形成
多模态语音增强
声场分析
声场重建
www.volcengine.com
15. 声场还原应用
原始视频+原始音频
15
原始视频+声场分析+声场还原音频
www.volcengine.com
16. 声场还原应用
原始视频+原始音频
16
原始视频+声场还原音频
www.volcengine.com
17. 如何打造多播小说的声场环境
小说篇章 NLP
小说篇章 NLP
17
AI 情感语音合成
AI 情感语音合成
后期制作
空间声
后期制作
人物声场分析
声源种类
声源位置
运动路径
www.volcengine.com
18. 18
智能语音交互中的音频信号处理
19. 智能硬件中的语音交互
应用场景
19
教育智能硬件
智能家居
智能穿戴
全链路语音交互
语音交互
底层能力
远场交互
通话降噪
回声消除 混响抑制 声源定位
波束形成 增益控制 声音效果
www.volcengine.com
20. 20
展望未来
21. 展望未来
21
当前现状
l 智能语音交互
l VoIP
智能音箱
智能会议
手机
l 音视频创作
未来规划
l 软硬件一体的智能语音处理模组
l 便携式、可穿戴 IOT 设备
智能模组
VR/AR
音视频智能创作
l 基于文本的声场分析
www.volcengine.com
22. 欢迎加入
22
扫码关注 扫码关注
“火山引擎开发者社区”公众号 “OPPO 数智技术”公众号
22
www.volcengine.com
23. www.volcengine.com