搜狗智能语音之路

1. 17 0 搜狗智能语音之路 2 C 中心 | 陈伟搜狗语音交互C 术 A技 S

2. 从移动互联网时代迈向智能时代移动时代输入法自然交互智能时代知音OS 手机 2 C C A S 智能硬件搜索 17 0 信息知识计算深智引擎深度信息

3. 语言是人工智能的核心语言是思想和知识的载体 ASR 语音 TTS 0 2 C C A S 17 语音听写：ASR 语音翻译：ASR+MT +TTS 语音交互：ASR+NLU+TTS 语言 MT/ NLU OCR/ 手写识别图像生成图像

4. 语音听写技术已走向实用语音识别可以更好提升输入/记录的效率演讲听写视频字幕直播 2 C C A S 17 0 记者采访小说写作识别准确率最高可达 97% 法院庭审医疗病历记录

5. 语音听写技术已走向实用语音识别可以更好提升输入/记录的效率 2 C C A S 17 0

6. 语音听写技术落地法院庭审截止到8月15日 0 2 C C A S 17 17个省份 357 场次庭审 50家法院 194 场次庭审直播

7. 语音翻译技术逐渐可用更好服务跨语言的交流应用场景出国国际旅行交流演讲视频同传字幕 2 C C A S 17 0

8. 搜狗语音同传技术 /… 语音断句 1.Good morning Everyone 2.My name is Lei Li 3.Nice to meet you 语音识别 17 0 2 C C A S 机器翻译 1.大家早上好 2.我叫李磊 3.很高兴认识大家 /… 文本断句

9. 搜狗语音同传技术 2 C C A S 17 0

10. 语音交互产品的不断演进 +ASR 语音输入法语音搜索 2 C C A S +NLU 手机语音助手(Siri) 17 0 车载智能家居 +场景可穿戴设备

11. 针对刚需场景提供更自然的交互体验机器的耳朵要听准搜狗输入法的大数据+深度学习语音识别语义理解 2 C C A S 语音合成 17 0 机器的嘴巴要说清机器的大脑要听懂搜狗搜索能力以及垂直知识

12. 刚需场景下的语音交互产品移动可穿戴车载智能家居 2 C C A S 17 0

13. 搜狗语音深度学习规模演进 DNN 数万小时 500小时超大规模的语音数据 2 C C A S LSTM 17 0 CNN Seq2Seq 复杂的深度学习算法 >1PFlops 单卡 3TFlops 超强的运算平台

14. 搜狗语音深度学习平台模型 DNN CNN LSTM BLSTM 2 C C A S 梯度计算训练节点训练节点 CTC ... 17 0 训练节点 ... 参数分发与更新 ASGD MA BUMF 通讯、数据传输 ...

15. 语音是时变+短时平稳的信号帧长帧移 2 C C A S 帧长频率 17 0 第k帧频带能量  第k+1帧语音的维度时域信号->语谱图  语音的短时平稳历史->未来时间

16. 语音识别整体框架 Hand-Crafted -> Trainable x 端点检测 & 特征提取 M F C C F B A N K 解码器 P L P 17 0 2 C C A S L P C C P N C C 声学模型语音数据语言模型训练文本数据搜狗语音 w 发音词典

18. 基于深度神经网络的声学建模 a11 ………… 1 a12 a22 2 a33 3 a23 yt 2 C C Ah S htL W ………… a34 17 0 l l t ht1 搜狗搜狗语音语音 DNN CNN RNN LSTM ….

19. LSTM-RNN是声学模型建模的主要结构 2 C C A S 17 0

20. LSTM-RNN+双向特性 2 C C A S Future History 17 0

21. LSTM-RNN+双向特性 History 2 C C A S 17 0 Future

22. LSTM-RNN+频域扩展 2 C C A S T-LSTM 17 0 TF-LSTM

23. LSTM-RNN+多模型融合 CTC LC-BLSTM CNN DNN 2 C C A S 17 0 + +

24. 其他网络结构 DeepCNN 2 C C A S QRNN 17 0 Transformer-seq2seq

25. 复杂场景下的语音识别问题仍未解决近场的语音听写 2 C C A S 17 0 高噪环境下的语音交互混响噪声空调噪声混响噪声风噪

26. 17 0 2 山东大哥视频（老） C C A S

27. 如此搞笑的效果只是口音产生吗？ 17 0  语音识别：口音、噪声、远场 2 C C A S  语义理解：多轮对话、纠错容错  语音交互：全双工持续交互单点能力 -> 系统整体能力

28. 语音交互完整链路声源定位及波束形成回波消除今天天气？多通道 2 C C A S 语音识别今天晴转多云， 15摄氏度… 语音合成语音唤醒 17 0 语音增强语义理解离/在线识别

29. 麦克风阵列技术抑制区域混响波束形成 2 C C A S 17 0 波束拾音区麦克风阵列解混响声源定位目标语音抑制区域扬声器回波回声消除声源1位置干扰噪声声源2位置混响解混响

30. 基于深度学习的单通道语音增强 DNN feature mapping STFT Noisy time-domain signal 2 C C A S 17 0 Noisy spectral features Denoised spectral features

31. 2 C C A S 17 0

32. WHAT IS POSSIBLE IN PRINCIPLE IS NOT ALWAYS WHAT IS SIMPLE IN PRACTICE 2 C C A S 17 0