搜狗智能语音之路
如果无法正常显示,请先停止浏览器的去广告插件。
1. 17
0
搜狗智能语音之路
2
C 中心 | 陈伟
搜 狗 语 音 交 互C 术
A技
S
2. 从移动互联网时代迈向智能时代
移动
时代
输入法
自然
交互
智能
时代
知音OS
手机
2
C
C
A
S
智能硬件
搜索
17
0
信息
知识
计算
深智引擎
深度
信息
3. 语言是人工智能的核心
语言是思想和知识的载体
ASR
语音
TTS
0
2
C
C
A
S
17
语音听写:ASR
语音翻译:ASR+MT +TTS
语音交互:ASR+NLU+TTS
语言
MT/
NLU
OCR/
手写识别
图像生成
图像
4. 语音听写技术已走向实用
语音识别可以更好提升输入/记录的效率
演讲
听写
视频字幕
直播
2
C
C
A
S
17
0
记者
采访
小说
写作
识别准确率最高可达
97%
法院
庭审
医疗病历
记录
5. 语音听写技术已走向实用
语音识别可以更好提升输入/记录的效率
2
C
C
A
S
17
0
6. 语音听写技术落地法院庭审
截止到8月15日
0
2
C
C
A
S
17
17个
省份
357
场次
庭审
50家
法院
194
场次
庭审直播
7. 语音翻译技术逐渐可用
更 好 服 务 跨 语 言 的 交 流
应用场景
出国 国际
旅行 交流
演讲 视频
同传 字幕
2
C
C
A
S
17
0
8. 搜狗语音同传技术
/…
语音断句
1.Good morning
Everyone
2.My name is
Lei Li
3.Nice to meet
you
语音识别
17
0
2
C
C
A
S
机器翻译
1.大家早上好
2.我叫李磊
3.很高兴认识大家
/…
文本断句
9. 搜狗语音同传技术
2
C
C
A
S
17
0
10. 语音交互产品的不断演进
+ASR
语音输入法
语音搜索
2
C
C
A
S
+NLU
手机语音
助手(Siri)
17
0
车载
智能
家居
+场景
可穿戴
设备
11. 针对刚需场景提供更自然的交互体验
机器的耳朵
要听准
搜狗输入法的
大数据+深度学习
语音
识别
语义
理解
2
C
C
A
S
语音
合成
17
0
机器的嘴巴
要说清
机器的大脑
要听懂
搜狗搜索能力
以及垂直知识
12. 刚需场景下的语音交互产品
移动
可穿戴
车载
智能
家居
2
C
C
A
S
17
0
13. 搜狗语音深度学习规模演进
DNN
数万小时
500小时
超大规模的语音数据
2
C
C
A
S
LSTM
17
0
CNN
Seq2Seq
复杂的深度学习算法
>1PFlops
单卡
3TFlops
超强的运算平台
14. 搜狗语音深度学习平台
模型
DNN
CNN
LSTM
BLSTM
2
C
C
A
S
梯度计算
训练节点
训练节点
CTC
...
17
0
训练节点
...
参数分发与更新
ASGD
MA
BUMF
通讯、数据传输
...
15. 语音是时变+短时平稳的信号
帧长
帧移
2
C
C
A
S
帧长
频率
17
0
第k帧
频带能量
第k+1帧
语音的维度
时域信号->语谱图
语音的短时平稳
历史->未来
时间
16. 语音识别整体框架
Hand-Crafted -> Trainable
x
端点检测
&
特征提取
M
F
C
C
F
B
A
N
K
解码器
P
L
P
17
0
2
C
C
A
S
L
P
C
C
P
N
C
C
声学模型
语音数据
语言模型
训练
文本数据
搜狗语音
w
发音词典
17. 语音识别-贝叶斯公式
arg max p( w | x ) arg max p( w, q | x)
w
输出词序列
w
q
1)7( w, q)
p( x2w, q P
|0
arg max C
C P(x )
A
S
输入特征矢量
w
音素序列
q
arg max p( x | q) P( q | w) P( w)
w
q
声学模型
发音词典
语音模型
18. 基于深度神经网络的声学建模
a11
…………
1
a12
a22
2
a33
3
a23
yt
2
C
C
Ah
S
htL
W
…………
a34
17
0
l
l
t
ht1
搜
狗搜 狗 语 音
语
音
DNN
CNN
RNN
LSTM
….
19. LSTM-RNN是声学模型建模的主要结构
2
C
C
A
S
17
0
20. LSTM-RNN+双向特性
2
C
C
A
S
Future
History
17
0
21. LSTM-RNN+双向特性
History
2
C
C
A
S
17
0
Future
22. LSTM-RNN+频域扩展
2
C
C
A
S
T-LSTM
17
0
TF-LSTM
23. LSTM-RNN+多模型融合
CTC
LC-BLSTM
CNN
DNN
2
C
C
A
S
17
0
+
+
24. 其他网络结构
DeepCNN
2
C
C
A
S
QRNN
17
0
Transformer-seq2seq
25. 复杂场景下的语音识别问题仍未解决
近场的语音听写
2
C
C
A
S
17
0
高噪环境下的
语音交互
混响噪声
空调噪声
混响噪声
风噪
26. 17
0
2
山东大哥视频(老)
C
C
A
S
27. 如此搞笑的效果只是口音产生吗?
17
0
语音识别: 口音、噪声、远场
2
C
C
A
S
语义理解: 多轮对话、纠错容错
语音交互: 全双工持续交互
单点能力 -> 系统整体能力
28. 语音交互完整链路
声源定位及
波束形成
回波
消除
今天天气?
多通道
2
C
C
A
S
语音识别
今天晴转多云,
15摄氏度…
语音合成
语音
唤醒
17
0
语音增强
语义理解
离/在
线识别
29. 麦克风阵列技术
抑制
区域
混响
波束形成
2
C
C
A
S
17
0
波束拾音区
麦克风
阵列
解混响
声源定位
目标语音
抑制
区域
扬声器
回波
回声消除
声源1位置
干扰噪声
声源2位置
混响
解混响
30. 基于深度学习的单通道语音增强
DNN feature
mapping
STFT
Noisy time-domain
signal
2
C
C
A
S
17
0
Noisy spectral
features
Denoised spectral
features
31. 2
C
C
A
S
17
0
32. WHAT IS POSSIBLE IN PRINCIPLE IS NOT ALWAYS
WHAT IS SIMPLE IN PRACTICE
2
C
C
A
S
17
0