搜狗智能语音之路

> 码农文稿

搜狗智能语音之路

1. 17 0 搜狗智能语音之路 2 C 中心 | 陈伟 搜 狗 语 音 交 互C 术 A技 S
2. 从移动互联网时代迈向智能时代 移动 时代 输入法 自然 交互 智能 时代 知音OS 手机 2 C C A S 智能硬件 搜索 17 0 信息 知识 计算 深智引擎 深度 信息
3. 语言是人工智能的核心 语言是思想和知识的载体 ASR 语音 TTS 0 2 C C A S 17 语音听写:ASR 语音翻译:ASR+MT +TTS 语音交互:ASR+NLU+TTS 语言 MT/ NLU OCR/ 手写识别 图像生成 图像
4. 语音听写技术已走向实用 语音识别可以更好提升输入/记录的效率 演讲 听写 视频字幕 直播 2 C C A S 17 0 记者 采访 小说 写作 识别准确率最高可达 97% 法院 庭审 医疗病历 记录
5. 语音听写技术已走向实用 语音识别可以更好提升输入/记录的效率 2 C C A S 17 0
6. 语音听写技术落地法院庭审 截止到8月15日 0 2 C C A S 17 17个 省份 357 场次 庭审 50家 法院 194 场次 庭审直播
7. 语音翻译技术逐渐可用 更 好 服 务 跨 语 言 的 交 流 应用场景 出国 国际 旅行 交流 演讲 视频 同传 字幕 2 C C A S 17 0
8. 搜狗语音同传技术 /… 语音断句 1.Good morning Everyone 2.My name is Lei Li 3.Nice to meet you 语音识别 17 0 2 C C A S 机器翻译 1.大家早上好 2.我叫李磊 3.很高兴认识大家 /… 文本断句
9. 搜狗语音同传技术 2 C C A S 17 0
10. 语音交互产品的不断演进 +ASR 语音输入法 语音搜索 2 C C A S +NLU 手机语音 助手(Siri) 17 0 车载 智能 家居 +场景 可穿戴 设备
11. 针对刚需场景提供更自然的交互体验 机器的耳朵 要听准 搜狗输入法的 大数据+深度学习 语音 识别 语义 理解 2 C C A S 语音 合成 17 0 机器的嘴巴 要说清 机器的大脑 要听懂 搜狗搜索能力 以及垂直知识
12. 刚需场景下的语音交互产品 移动 可穿戴 车载 智能 家居 2 C C A S 17 0
13. 搜狗语音深度学习规模演进 DNN 数万小时 500小时 超大规模的语音数据 2 C C A S LSTM 17 0 CNN Seq2Seq 复杂的深度学习算法 >1PFlops 单卡 3TFlops 超强的运算平台
14. 搜狗语音深度学习平台 模型 DNN CNN LSTM BLSTM 2 C C A S 梯度计算 训练节点 训练节点 CTC ... 17 0 训练节点 ... 参数分发与更新 ASGD MA BUMF 通讯、数据传输 ...
15. 语音是时变+短时平稳的信号 帧长 帧移 2 C C A S 帧长 频率 17 0 第k帧 频带能量  第k+1帧 语音的维度 时域信号->语谱图  语音的短时平稳 历史->未来 时间
16. 语音识别整体框架 Hand-Crafted -> Trainable x 端点检测 & 特征提取 M F C C F B A N K 解码器 P L P 17 0 2 C C A S L P C C P N C C 声学模型 语音数据 语言模型 训练 文本数据 搜狗语音 w 发音词典
17. 语音识别-贝叶斯公式 arg max p( w | x )  arg max  p( w, q | x) w 输出词序列 w q 1)7( w, q) p( x2w, q P |0  arg max  C C P(x ) A S 输入特征矢量 w 音素序列 q  arg max  p( x | q) P( q | w) P( w) w q 声学模型 发音词典 语音模型
18. 基于深度神经网络的声学建模 a11 ………… 1 a12 a22 2 a33 3 a23 yt 2 C C Ah S htL W ………… a34 17 0 l l t ht1 搜 狗搜 狗 语 音 语 音 DNN CNN RNN LSTM ….
19. LSTM-RNN是声学模型建模的主要结构 2 C C A S 17 0
20. LSTM-RNN+双向特性 2 C C A S Future History 17 0
21. LSTM-RNN+双向特性 History 2 C C A S 17 0 Future
22. LSTM-RNN+频域扩展 2 C C A S T-LSTM 17 0 TF-LSTM
23. LSTM-RNN+多模型融合 CTC LC-BLSTM CNN DNN 2 C C A S 17 0 + +
24. 其他网络结构 DeepCNN 2 C C A S QRNN 17 0 Transformer-seq2seq
25. 复杂场景下的语音识别问题仍未解决 近场的语音听写 2 C C A S 17 0 高噪环境下的 语音交互 混响噪声 空调噪声 混响噪声 风噪
26. 17 0 2 山东大哥视频(老) C C A S
27. 如此搞笑的效果只是口音产生吗? 17 0  语音识别: 口音、噪声、远场 2 C C A S  语义理解: 多轮对话、纠错容错  语音交互: 全双工持续交互 单点能力 -> 系统整体能力
28. 语音交互完整链路 声源定位及 波束形成 回波 消除 今天天气? 多通道 2 C C A S 语音识别 今天晴转多云, 15摄氏度… 语音合成 语音 唤醒 17 0 语音增强 语义理解 离/在 线识别
29. 麦克风阵列技术 抑制 区域 混响 波束形成 2 C C A S 17 0 波束拾音区 麦克风 阵列 解混响 声源定位 目标语音 抑制 区域 扬声器 回波 回声消除 声源1位置 干扰噪声 声源2位置 混响 解混响
30. 基于深度学习的单通道语音增强 DNN feature mapping STFT Noisy time-domain signal 2 C C A S 17 0 Noisy spectral features Denoised spectral features
31. 2 C C A S 17 0
32. WHAT IS POSSIBLE IN PRINCIPLE IS NOT ALWAYS WHAT IS SIMPLE IN PRACTICE 2 C C A S 17 0

联系我 - 工具首页
Copyright © 2011-2019 iteam. All Rights Reserved. Current version is 2.52.0.
浙ICP备14020137号 $访客地图$