如何用紧凑型语音表征打造高性能语音合成系统
摘要
小红书多媒体智能算法团队和香港中文大学首次联合提出了基于多阶段多码本紧凑型语音表征的高性能语音合成方案 MSMC-TTS。基于矢量量化变分自编码器(VQ-VAE)的特征分析器采用若干码本对声学特征进行阶段式编码,形成一组具有不同时间分辨率的隐序列集合。这些隐序列可以由多阶段预测器从文本中预测获得,并且通过神经声码器转换成目标音频。该方案,对比基于Mel-Spectrogram的Fastspeech 基线系统,音质和自然度有明显的改善。该工作现已总结成论文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”,并被语音领域会议 INTERSPEECH 2022 接收。
欢迎在评论区写下你对这篇文章的看法。