背景介绍
TTS(Text To Speech)技术可将文本转换为语音输出,货拉拉主要将其应用于智能客服和电话通知场景。智能客服利用 TTS 实现实时语音反馈,提升用户体验;电话通知则通过离线合成多样化语音内容。相比传统人工预录制方式,TTS 更能满足动态场景和多样化话术需求,实现灵活且个性化的语音合成。
存在问题
1.延迟较高,难以满足实时沟通场景需求。
2.自然度和情感表达不足,语音常显得机械。
3.多语种支持有限,难以实现语种间的无缝切换。
解决方案
针对上述问题,提出了以下解决方案:
延迟:开发流式TTS,使系统实现实时语音输出。
自然度:进行多音色混合训练提升自然度。
情感表达:引入情感建模,使语音更加贴近真实情感。
跨语种:采用迁移学习共享语音特征,确保多语种切换流畅且合成质量一致。
通过以上解决方案,进一步提升了货拉拉TTS技术的自然度、情感表达、流畅度和实时性,从而更好地满足智能客服和电话通知等应用场景的需求。
系统框架
以下是整个工程结构框架
图1 自研TTS系统架构图
TTS系统主要分为四个层次:
基础设施层:提供数据存储等能力,确保系统稳定运行。
平台层:支撑语音算法实现,提供高效语音生成能力。
应用层:适配不同场景需求,保障系统安全稳定。
业务层:应用于 AI 外呼邀约、智能客服等领域。
算法方案
主流方案
目前,主流语音合成方案多基于稳定的深度学习模型,包括百度的 PaddleSpeech、谷歌的 Tacotron 系列和微软的 FastSpeech系列等。这些技术通过创新且稳定的模型架构,实现了高质量且自然流畅的语音输出,广泛应用于内容创作、教育、智能客服等领域。
其中,PaddleSpeech 是百度飞桨生态中的开源语音处理工具包,支持多语言、多场景的语音合成,已成功落地多个行业,与多家企业达成合作。
其 TTS 实现流程以文本前端、声学模型和声码器为核心,生成过程清晰高效,具体流程如图2所示:
图2 主流TTS实现方案的流程
自研方案
货拉拉自研的TTS方案同时支持流式和非流式语音合成。核心基于VITS2,并优化解码器以支持流式合成。同时,借鉴Bert-VITS2的设计,引入Bert文本分析模型,利用语义特征提升语音的自然度和表现力。
图3 自研TTS实现方案的流程
文本编码
文本编码器是 TTS 系统中将文本转换为模型可识别信息的关键组件,我们的优化如下:
文本正则化:清洗并标准化文本,规范输入格式。
音素提取:准确捕捉中文语境下的音素。
韵律优化:动态调整语调,优化停顿与重音。
语义增强:提取语义特征,提高语音合成表现力。
图4 文本编码器的整体架构
流式合成
解码器首先将文本编码器提取的特征转化成音频特征,并分块处理。每个分块实时解码为语音,经过去重叠处理确保块间平滑衔接。通过这种分块生成和即时返回设计,模型在保持语音自然度的同时,实现了高效的实时语音输出。
图5 Decoder的分块处理流程
情感特征的引入
在语音合成中引入情感特征,提升语音的情感真实度和表现力。
采用基于 CLAP(Contrastive Language-Audio Pretraining)的情感特征分类模型,从文本中提取情感嵌入,进一步增强语音的情感表达能力。
这种方法能够在语音生成的同时保持语义准确性,并更好地呈现丰富的情感变化。
图6 情感标签的提取
支持音色定制
音色定制是TTS个性化的关键能力,能够满足多样化的应用需求。
小样本训练:通过小样本数据快速实现特定音色微调,满足多样化场景需求。
高效迁移学习:针对目标音色进行轻量化调整,快速适配不同音色风格。
图7 定制音色流程
跨语种迁移学习
为支持多语种合成,采用迁移学习技术,通过共享声学特征将现有语言模型的知识迁移至新语种。
模型适应性:降低训练成本,实现不同语种间的无缝切换。
语音生成效果:利用多语种预训练BERT模型,确保语种切换的流畅性和合成质量。
图8 实现多语言的流程
效果展示
自研TTS与第三方TTS的效果对比
文本
您好,我是您的专属客服Olivia,If you have any questions, you can come to me at any time!
第三方TTS
自研TTS
从以上示例可以看出,货拉拉自研的TTS技术相比第三方解决方案展现出更自然更贴合真人发音的语音合成效果。
总结展望
本文介绍了货拉拉自研TTS技术的应用与优化,包括情感表达、流式合成、多语种支持和音色定制等关键技术,致力于实现更加灵活、实时和自然的语音交互。未来,我们将继续推动TTS技术的创新,为货拉拉的生态系统提供更多智能化应用场景,提升用户体验。
部门|货拉拉/技术中心/智能运营部
作者|黄瓯严、刘玉华、董高杨、张志城
参考文献
[1] Wu, Yusong, et al. "Large-scale contrastive language-audio pretraining with feature fusion and keyword-to-caption augmentation." ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023.
[2]Kong, Jungil, et al. "VITS2: Improving quality and efficiency of single-stage text-to-speech with adversarial learning and architecture design." arXiv preprint arXiv:2307.16430 (2023).
[3]Ren, Yi, et al. "Fastspeech 2: Fast and high-quality end-to-end text to speech." arXiv preprint arXiv:2006.04558 (2020).
[4]Tan, Xu, et al. "A survey on neural speech synthesis." arXiv preprint arXiv:2106.15561 (2021).
[5]Zhang, Hui, et al. "Paddlespeech: An easy-to-use all-in-one speech toolkit." arXiv preprint arXiv:2205.12007 (2022).
[6]Devlin, Jacob. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
[7]Mohamed, Abdelrahman, et al. "Self-supervised speech representation learning: A review." IEEE Journal of Selected Topics in Signal Processing 16.6 (2022): 1179-1210.