流式和离线语音场景下 VAD 语音端点检测算法实践

摘要

近年来,AI智能语音应用在58同城广泛落地。无论是智能语音交互平台还是“灵犀”智能语音分析平台,都需要对电话语音进行处理分析,服务上层应用。如果把音频信号比作水流,语音端点检测(VAD, Voice Activity Detection)就是控制水流的阀门,其结果决定了系统的后续动作。

本文主要讲述了58自研的VAD系统在流式、离线两大场景中的实践过程,第一部分简单介绍这两大场景,第二部分是对VAD算法的一个概述,第三、第四部分分别描述了流式、离线场景中遇到的不同问题以及解决方案,第五部分是评测结果,第六、第七部分是总结和参考文献。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.125.0. UTC+08:00, 2024-05-04 04:25
浙ICP备14020137号-1 $访客地图$