智能音频技术在不同场景下的实践与探索

1. 智能音频技术在不同场景下的实践与探索萧言字节跳动算法工程师 Stephen 2021/10/30 字节跳动语音合成科学家 1

2. 1.语音音乐技术在字节跳动平台的应用探索 1.1 语音合成 1.2 智能音频 1.3 智能音乐 1.4 未来展望 2. AI-Lab 音频生成技术及其在字节不同场景的应用介绍 2.1 音频生成技术概览 2.2 音频生成业务场景 2.3 有声书生产技术落地 2.4 短视频创作应用实践 2.5 火山引擎中的音频生成能力 2 2

3. 3 语音音乐技术在字节跳动平台的应用探索

4. 4 语音合成

5. 语音合成 5 5 让任何人用任何语言和风格，自由地表达和创作典型场景和应用内容创作创作工具、素材生成视频配音短视频编辑、跨语言互通泛娱乐直播、游戏、音乐 www.volcengine.com

6. 语音合成 6 6 具备业界领先的语音合成系统，可以生成自然、有表现力、个性化的语音 www.volcengine.com

7. 应用：创作工具 7 7 抖音文本朗读 l 促进投稿：全新的表达和叙事工具 l 启发创意：多种配音玩法 l 提升 Accessibility www.volcengine.com

8. 应用：配音 8 8 www.volcengine.com

9. 应用：娱乐化表达声音转换 9 9 歌声转换 www.volcengine.com

10. 应用：娱乐化表达 10 10 说唱 (Rap Synthesis) 个性化的表达方式输入任意文本，输出高质量的说唱唱歌 (Singing Synthesis) meme song www.volcengine.com

11. 落地场景 11 11 抖音/西瓜 - 文本朗读抖音 - 自动内容生产（配音）数字人 www.volcengine.com

12. 12 智能音频

13. 智能音频 13 13 建设从音频处理到理解的全链路，服务内容生产、分发、消费的每一个环节典型场景和应用 • • • • • • 消费体验音质提升、声音美化内容创作创新特效、基于音频的内容编辑内容生态辅助搜索、推荐和展现 www.volcengine.com

14. 智能音频 14 14 具备差异化智能音频技术，优化主观听感和机器识别效果 l 研发 3D 空间音频等技术方案，赋能沉浸式消费需求（长视频、AR/VR、游戏等）。 l 提供完整音质增强方案 (例如降噪、去回声等），以提升各种场景下的拍摄和消费体验。 l 建设了大规模音频理解系统，提供新的交互入口并探索在内容创作方面的创新应用。 www.volcengine.com

15. 应用：视频音效和音质优化编辑页音效器 15 移动端实时降噪 15 视频音量归一化 www.volcengine.com

16. 应用：沉浸式音频消费体验空间音频渲染系统 16 16 音频超分 www.volcengine.com

17. 应用：内容互动和创作基础语音交互 17 17 视频编辑（去水化：35s -> 23s） www.volcengine.com

18. 落地场景 18 18 抖音/直播 - 音量均衡西瓜/剪映 - 智能降噪西瓜 - 视频智能去水化 www.volcengine.com

19. 19 智能音乐

20. 智能音乐 20 20 全方位理解音乐内容并将其结构化表征降低音乐演绎和创作门槛，让用户更好的表达自我 • 典型场景和应用 • • • • • • 内容生态搜索、推荐等物料生成（K 歌，版权曲库）创作工具音乐特效多模态创作 www.volcengine.com

21. 音乐理解 21 21 www.volcengine.com

22. 音乐理解应用内容发现（搜索） 22 22 多模态（一键卡点）智能编辑（音乐延长） www.volcengine.com

23. 音乐创作 23 23 具备自动作曲、渲染和交互音乐技术，让音乐演绎、编辑和创作服务于每个人。 • AI 音乐生成：支持 30+ 曲风，所生成的音乐版权自有；支持长音乐生成（10 分钟)。 • 交互式音乐：建设了 MusicDSP SDK，可用于实时交互式的音乐渲染和合成，提供音乐创作的基础能力。 www.volcengine.com

24. 音乐创作应用 – C 端视频配乐 24 24 直播 K 歌解决方案 www.volcengine.com

25. 落地场景 25 25 l 剪映 - 音乐踩点、一键卡点 l 抖音 - 一键 MV、K 歌模式 l 抖音 - 内容管理和搜索 l 抖音 – AI 音乐、互动音乐特效 l 西瓜 - 智能配乐、智能延长 www.volcengine.com

26. 26 未来展望

27. 未来展望 27 27 l 语音合成 l 丰富音色、提升多语言合成能力，深入业务定制解决方案。 l 攻克 UGC 视频配音场景下的新技术挑战（情感化配音、跨语言合成等）。 l 建设“声音超市”：一站式音色选择和自生产平台 l 智能音频 l 在创作和消费侧，让音质和音效技术成为用户体验增强不可或缺的一环。 l 建设系统性的智能音频编辑方案，在音频维度赋能创作者。 l 与其他模态深度结合，提供多媒体内容创作和互动的整体方案。 l 智能音乐 l 在“自由度”、“可消费性”和“创作门槛”之间找到平衡，打造能让更多人参与进来的音乐创作工具。 l 服务好 B 端和 C 端的版权音乐素材需求。 www.volcengine.com

28. 28 AI-Lab 音频生成技术及其在字节不同场景的应用介绍

29. 29 音频生成技术概览

30. 音频生成技术中台输入信号文本 30 声音空间口音：语种/方言输出内容版权保护语音音频水印语音歌曲乐谱图片区域合成鉴定风格：对话/讲述/演绎音色：清新/雄浑/甜美/性感 Ø 核心技术：语音合成、声音转换、歌唱合成 www.volcengine.com

31. 31 音频生成业务场景

32. 音频生成主要业务场景视频媒体场景 32 教育教学场景广度业务特点：业务特点： Ø 丰富的配音选择，包括特色音色、IP、方言、语种 Ø 不同学科和教学内容，知识点容错率低 Ø 提供声音滤镜和个性化配置，激发用户创作 Ø 不同学段，风格表现力深度个性化定制有声内容场景业务特点：图片区域 Ø 音色覆盖丰富， AI 生成演绎话本 Ø 多播音色情感定制，媲美真人演播其它通用场景客服对话场景深度业务特点：业务特点： Ø 需求普适性较强，可通过已有通用音色满足 Ø 要求极高，需兼顾口语化、情绪、笑声语气词等 Ø 少量精品音色满足汽车、电商、金融等不同场景 www.volcengine.com

33. 司内主要业务落地番茄小说听书 33 大力语音交互剪映文本朗读瓜瓜龙教辅点评图片区域 www.volcengine.com

34. 34 有声书生产技术落地

35. 解决真人有声制作痛点音色单一 35 成本高周期长质量把控难真人有声制作痛点图片区域 AI 有声解决方案高品质 AI 音色库自动化生产人工辅助修正 www.volcengine.com

36. AI 有声小说市场现状演绎阶段难度 36 种类描述入门演绎单播传统单一音色 TTS 播讲，无风格区分初级演绎单播单一音色演绎，有旁白对话区分和少量情感表达能力中级演绎单播/双播 1-2 种音色演绎，有明显风格区分，较为复杂的情感表达，和人工的后期配乐图片区域高级演绎多播丰富的音色进行演绎，有明显风格、角色区分，复杂的情感表达，和自动化的后期配乐 www.volcengine.com

37. 番茄有声书效果展示 37 图片区域多播效果配乐效果方言效果 www.volcengine.com

38. 番茄有声书业务提升 38 Ø 成熟大叔音、甜美少女音等5个优质单播音色完成了全量书籍的覆盖 Ø 多人播讲、自动化后期、方言等方向的尝试，均取得了良好的数据反馈，正在扩量中 Ø 听书功能的业务渗透率逐月提升 www.volcengine.com

39. AI 有声小说技术框架 39 真人主播 AI 语音合成 Ø 旁白：成熟大叔清纯少女 Ø 主角：刚正青叔坚韧少御 Ø 配角：反派大叔慈爱大妈 *篇章理解：A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels, J-J Pan, etc, ICASSP 2021 www.volcengine.com

40. 长文本理解五少奶奶 - 饶景君(女) 40 难得姐姐不嫌妹妹粗野，但若说能文能武，实则抬举，妾身万不可当。若论文，妹妹哪敢与大少奶奶相比，大少奶奶出身官宦世家，又乃书香门弟，自是才貌双全。至于武，妾身也不过略懂一些花拳绣腿而已，让姐姐见笑了。” “武学与年岁无关，姐姐若是真心想学，妹妹教姐姐便是。” “姐姐慢走！” 没想到妹妹的剑法竟耍得这样好，平日里，我少见妹妹出来行走，原来是躲在家里练神功啊！” 图片区域四少奶奶 - 林暮寒(女) “妹妹不必如此谦虚，我是真心觉得妹妹的剑耍得好，我出身寒微，打小没受过什么良好的教育，所以羡慕那些能文能武之人，只可惜如今年岁已大，就算现学来恐怕也迟了。” “妹妹可当真？” “唉哟，我爱死你了！” 翠柳(女) “四少奶奶，我们该回去了，等会种花师傅还要送花来呢。” 老夫人(女) 说吧！” 崔婉婷(女) 母亲，林暮寒与种花师有奸情。 www.volcengine.com

41. 语音合成：让 AI 语音表达情感悲伤害怕厌恶 41 惊讶生气开心平静 *情感迁移：CROSS-SPEAKER EMOTION TRANSFER BASED ON SPEAKER CONDITION LAYER NORMALIZATION AND SEMI-SUPERVISED TRAINING IN TEXT-TO-SPEECH, P-F Wu, etc, submitted to ICASSP 2022 www.volcengine.com

42. 42 短视频创作应用实践

43. 用户视频制作痛点拍摄选材排序 43 调色字幕剪辑配音发布转场 … 1. 高播放量短视频：通常为制作精良内容，全人工制作耗时到十几小时 2. 内容创作门槛：剪辑难度 AI 视频创作套件，让视频能【听】会【说】 www.volcengine.com

44. 视频创作套件——一键生成、轻松创作、显著提升投稿率传统视频创作方式 AI 视频创作套件视频字幕视频配音 Ø 10 分钟视频需要 3 小 Ø 声线、风格不适合视时以上 Ø 专业的字幕团队需要 2000 元/视频 44 频配音 Ø 专业配音价钱贵，周智能字幕 + 智能配音 Ø 智能字幕快速生成、自动对齐图片区域 Ø 多样语种/方言自动识别 Ø 多风格/语种/方言音色自由选择期长 www.volcengine.com

45. 智能配音：剪映文本朗读效果 45 特色音色小姐姐小萝莉阳光男生可爱萌娃说唱小哥 … 方言音色东北老铁西安掌柜台湾女生重庆小伙 … IP 音色语种音色动漫小新动漫海绵 … 日语-元气萌妹韩语-亲切欧尼巴葡-磁性男生墨西-气质御姐 … www.volcengine.com

46. 智能配音：语音合成技术框架 46 文本人机标注语言特征声学模型语音特征提取声学特征声码器音库离线训练线上推理图片区域文本文本分析语言特征声学模型声学特征声码器语音 www.volcengine.com

47. 智能配音：文本分析前端 47 Ø 负责可懂度，结合规则平台，可在业务垂类上做到足够准确文本前处理断句切分正则化分词/词性字音转换韵律模型语言特征图片区域 NN+规则 Bert-多任务模型 *前端联合建模：A Unified Sequence-to-Sequence Front-End Model for Mandarin Text-to-Speech Synthesis , J-J Pan, etc, ICASSP 2020 *神经网络正则化：A Hybrid Text Normalization System Using Multi-Head Self-Attention For Mandarin, J-H Zhang, etc, ICASSP 2020 *英文ToBI前端：Fine-grained Prosody Modeling in Neural Speech Synthesis using ToBI Representation, Y-X Zou, etc, INTERSPEECH 2021 www.volcengine.com

48. 智能配音：文本分析前端效果 48 图片区域 *sAP（Sentence Average Precision，句级平均准确率）衡量文本前端，sAP越高，可懂度越高 www.volcengine.com

49. 智能配音：声学模型 49 Ø 负责风格韵律，RTF（GPU）= 0.008，错误率 0.1% 以内 Parallel Tacotron (Isaac Elias, etc，Google) www.volcengine.com

50. 智能配音：声码器 50 Ø 负责音质清晰度，RTF（GPU）= 0.004，错误率 0.05% 以内 MelGAN (Kundan Kumar, etc, Mila) www.volcengine.com

51. 智能配音：个性表达（即将上线） 51 Ø 声音复刻：开放环境中录制中等质量声音，可应用于快速复刻 Up 主、大 V 声音等 *音色复刻：IMITATOR: TEXT-FREE FEW-SHOT VOICE CLONING WITH LANGUAGE, ACCENT AND STYLE TRANSFER , C-X Zhang, etc, submitted to ICASSP 2022 www.volcengine.com

52. 智能配音：声音滤镜（即将上线） 52 Ø 声音转换：开放环境中输入语音，输出指定音色、口音的音频 • 音色转换 • • 口音转换 • • 风格不变，变音色（柯南变声领结）音色不变，变口音歌唱转换 • 唱功不变，变声线 *歌唱转换I：PPG-Based Singing Voice Conversion with Adversarial Representation Learning, Z-H Li, etc, ICASSP 2021 *歌唱转换II：Towards High-fidelity Singing Voice Conversion with Acoustic Reference and Contrastive Predictive Coding, C Wang, etc, submitted to ICASSP 2022 www.volcengine.com

53. 53 火山引擎中的音频生成能力

54. 火山引擎中的音频生成能力 54 能力概览 Ø 云端：提供 30+ 精品音色，支持流利朗读中英混及纯英文文本，在 KA 客户的竞品评测中，效果好于友商 Ø 离线：提供 10+ 离线音色，支持离在线 SDK，KA 客户竞品评测中，效果略好于友商目前效果 Ø 在 ToB 应用中支持大量 KA 客户，效果和售后受到好评 Ø 大部分使用场景为流式合成，rtf 0.3 左右，首包延迟 200ms 左右，整体服务稳定性 > 99.95% www.volcengine.com

55. 55 总结

56. 总结 56 原子能力 Ø 语音合成（TTS）、音色复刻、声音转换（VC）能力效果音色矩阵 Ø 字节业务背书 Ø 泛娱：多语种、多方言、特色、IP等音色图片区域 Ø 竞品评测领先 Ø 前沿论文发表 Ø 小说：覆盖网文单播、多播音色 Ø 教育：覆盖不同学科、不同学段音色 Ø 客服：超精品电销音色端云一体 Ø 同时支持离线和云端能力调用 www.volcengine.com

57. 欢迎加入 57 抖音扫码关注扫码关注 “火山引擎开发者社区”抖音号 “火山引擎开发者社区”公众号 57 www.volcengine.com

58. www.volcengine.com