智能音频技术在不同场景下的实践与探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 智能音频技术在不同 场景下的实践与探索 萧言 字节跳动算法工程师 Stephen 2021/10/30 字节跳动语音合成科学家 1
2. 1.语音音乐技术在字节跳动平台的应 用探索 1.1 语音合成 1.2 智能音频 1.3 智能音乐 1.4 未来展望 2. AI-Lab 音频生成技术及其在字节 不同场景的应用介绍 2.1 音频生成技术概览 2.2 音频生成业务场景 2.3 有声书生产技术落地 2.4 短视频创作应用实践 2.5 火山引擎中的音频生成能力 2 2
3. 3 语音音乐技术在字节跳动平台的 应用探索
4. 4 语音合成
5. 语音合成 5 5 让任何人用任何语言和风格,自由地表达和创作 典型场景和应用 内容创作 创作工具、素材生成 视频配音 短视频编辑、跨语言互通 泛娱乐 直播、游戏、音乐 www.volcengine.com
6. 语音合成 6 6 具备业界领先的语音合成系统,可以生成自然、有表现力、个性化的 语音 www.volcengine.com
7. 应用:创作工具 7 7 抖音文本朗读 l 促进投稿:全新的表达和叙事工具 l 启发创意:多种配音玩法 l 提升 Accessibility www.volcengine.com
8. 应用:配音 8 8 www.volcengine.com
9. 应用:娱乐化表达 声音转换 9 9 歌声转换 www.volcengine.com
10. 应用:娱乐化表达 10 10 说唱 (Rap Synthesis) 个性化的表达方式 输入任意文本,输出高质量的说唱 唱歌 (Singing Synthesis) meme song www.volcengine.com
11. 落地场景 11 11 抖音/西瓜 - 文本朗读 抖音 - 自动内容生产(配音) 数字人 www.volcengine.com
12. 12 智能音频
13. 智能音频 13 13 建设从音频处理到理解的全链路,服务内容生产、分发、消费的每一个环节 典型场景和应用 • • • • • • 消费体验 音质提升、声音美化 内容创作 创新特效、基于音频的内容编辑 内容生态 辅助搜索、推荐和展现 www.volcengine.com
14. 智能音频 14 14 具备差异化智能音频技术,优化主观听感和机器识别效果 l 研发 3D 空间音频等技术方案,赋能沉浸式消费需求(长视频、AR/VR、游戏等)。 l 提供完整音质增强方案 (例如降噪、去回声等),以提升各种场景下的拍摄和消费体验。 l 建设了大规模音频理解系统,提供新的交互入口并探索在内容创作方面的创新应用。 www.volcengine.com
15. 应用:视频音效和音质优化 编辑页音效器 15 移动端实时降噪 15 视频音量归一化 www.volcengine.com
16. 应用:沉浸式音频消费体验 空间音频渲染系统 16 16 音频超分 www.volcengine.com
17. 应用:内容互动和创作 基础语音交互 17 17 视频编辑(去水化:35s -> 23s) www.volcengine.com
18. 落地场景 18 18 抖音/直播 - 音量均衡 西瓜/剪映 - 智能降噪 西瓜 - 视频智能去水化 www.volcengine.com
19. 19 智能音乐
20. 智能音乐 20 20 全方位理解音乐内容并将其结构化表征 降低音乐演绎和创作门槛,让用户更好的表达自我 • 典型场景和应用 • • • • • • 内容生态 搜索、推荐等 物料生成(K 歌,版权曲库) 创作工具 音乐特效 多模态创作 www.volcengine.com
21. 音乐理解 21 21 www.volcengine.com
22. 音乐理解应用 内容发现(搜索) 22 22 多模态(一键卡点) 智能编辑(音乐延长) www.volcengine.com
23. 音乐创作 23 23 具备自动作曲、渲染和交互音乐技术,让音乐演绎、编辑和创作服务于每个人。 • AI 音乐生成:支持 30+ 曲风,所生成的音乐版权自有;支持长音乐生成(10 分钟)。 • 交互式音乐:建设了 MusicDSP SDK,可用于实时交互式的音乐渲染和合成,提供 音乐创作的基础能力。 www.volcengine.com
24. 音乐创作应用 – C 端 视频配乐 24 24 直播 K 歌解决方案 www.volcengine.com
25. 落地场景 25 25 l 剪映 - 音乐踩点、一键卡点 l 抖音 - 一键 MV、K 歌模式 l 抖音 - 内容管理和搜索 l 抖音 – AI 音乐、互动音乐特效 l 西瓜 - 智能配乐、智能延长 www.volcengine.com
26. 26 未来展望
27. 未来展望 27 27 l 语音合成 l 丰富音色、提升多语言合成能力,深入业务定制解决方案。 l 攻克 UGC 视频配音场景下的新技术挑战(情感化配音、跨语言合成等)。 l 建设“声音超市”:一站式音色选择和自生产平台 l 智能音频 l 在创作和消费侧,让音质和音效技术成为用户体验增强不可或缺的一环。 l 建设系统性的智能音频编辑方案,在音频维度赋能创作者。 l 与其他模态深度结合,提供多媒体内容创作和互动的整体方案。 l 智能音乐 l 在“自由度”、“可消费性”和“创作门槛”之间找到平衡,打造能让更多人参与 进来的音乐创作工具。 l 服务好 B 端和 C 端的版权音乐素材需求。 www.volcengine.com
28. 28 AI-Lab 音频生成技术及其在字 节不同场景的应用介绍
29. 29 音频生成技术概览
30. 音频生成技术中台 输入信号 文本 30 声音空间 口音:语种/方言 输出内容 版权保护 语音 音频水印 语音 歌曲 乐谱 图片区域 合成鉴定 风格:对话/讲述/演绎 音色:清新/雄浑/甜美/性感 Ø 核心技术:语音合成、声音转换、歌唱合成 www.volcengine.com
31. 31 音频生成业务场景
32. 音频生成主要业务场景 视频媒体场景 32 教育教学场景 广度 业务特点: 业务特点: Ø 丰富的配音选择,包括特色音色、IP、方言、语种 Ø 不同学科和教学内容,知识点容错率低 Ø 提供声音滤镜和个性化配置,激发用户创作 Ø 不同学段,风格表现力深度个性化定制 有声内容场景 业务特点: 图片区域 Ø 音色覆盖丰富, AI 生成演绎话本 Ø 多播音色情感定制,媲美真人演播 其它通用场景 客服对话场景 深度 业务特点: 业务特点: Ø 需求普适性较强,可通过已有通用音色满足 Ø 要求极高,需兼顾口语化、情绪、笑声语气词等 Ø 少量精品音色满足汽车、电商、金融等不同场景 www.volcengine.com
33. 司内主要业务落地 番茄小说听书 33 大力语音交互 剪映文本朗读 瓜瓜龙教辅点评 图片区域 www.volcengine.com
34. 34 有声书生产技术落地
35. 解决真人有声制作痛点 音色单一 35 成本高周期长 质量把控难 真人有声 制作痛点 图片区域 AI 有声 解决方案 高品质 AI 音色库 自动化生产 人工辅助修正 www.volcengine.com
36. AI 有声小说市场现状 演绎阶段 难度 36 种类 描述 入门演绎 单播 传统单一音色 TTS 播讲,无风格区分 初级演绎 单播 单一音色演绎,有旁白对话区分和少量情感表达能力 中级演绎 单播/双播 1-2 种音色演绎,有明显风格区分,较为复杂的情感 表达,和人工的后期配乐 图片区域 高级演绎 多播 丰富的音色进行演绎,有明显风格、角色区分,复杂 的情感表达,和自动化的后期配乐 www.volcengine.com
37. 番茄有声书效果展示 37 图片区域 多播效果 配乐效果 方言效果 www.volcengine.com
38. 番茄有声书业务提升 38 Ø 成熟大叔音、甜美少女音等5个优质单播音色完成了全量书籍的覆盖 Ø 多人播讲、自动化后期、方言等方向的尝试,均取得了良好的数据反馈,正在扩量中 Ø 听书功能的业务渗透率逐月提升 www.volcengine.com
39. AI 有声小说技术框架 39 真人主播 AI 语音合成 Ø 旁白:成熟大叔 清纯少女 Ø 主角:刚正青叔 坚韧少御 Ø 配角:反派大叔 慈爱大妈 *篇章理解:A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels, J-J Pan, etc, ICASSP 2021 www.volcengine.com
40. 长文本理解 五少奶奶 - 饶景君(女) 40 难得姐姐不嫌妹妹粗野,但若说能文能武,实则抬举,妾身万不可当。若论文, 妹妹哪敢与大少奶奶相比,大少奶奶出身官宦世家,又乃书香门弟,自是才貌双全。 至于武,妾身也不过略懂一些花拳绣腿而已,让姐姐见笑了。” “武学与年岁无关,姐姐若是真心想学,妹妹教姐姐便是。” “姐姐慢走!” 没想到妹妹的剑法竟耍得这样好,平日里,我少见妹妹出来行走,原来是躲在家 里练神功啊!” 图片区域 四少奶奶 - 林暮寒(女) “妹妹不必如此谦虚,我是真心觉得妹妹的剑耍得好,我出身寒微,打小没受过什 么良好的教育,所以羡慕那些能文能武之人,只可惜如今年岁已大,就算现学来恐 怕也迟了。” “妹妹可当真?” “唉哟,我爱死你了!” 翠柳(女) “四少奶奶,我们该回去了,等会种花师傅还要送花来呢。” 老夫人(女) 说吧!” 崔婉婷(女) 母亲,林暮寒与种花师有奸情。 www.volcengine.com
41. 语音合成:让 AI 语音表达情感 悲伤 害怕 厌恶 41 惊讶 生气 开心 平静 *情感迁移:CROSS-SPEAKER EMOTION TRANSFER BASED ON SPEAKER CONDITION LAYER NORMALIZATION AND SEMI-SUPERVISED TRAINING IN TEXT-TO-SPEECH, P-F Wu, etc, submitted to ICASSP 2022 www.volcengine.com
42. 42 短视频创作应用实践
43. 用户视频制作痛点 拍摄 选材 排序 43 调色 字幕 剪辑 配音 发布 转场 … 1. 高播放量短视频:通常为制作精良内容,全人工制作耗时到十几小时 2. 内容创作门槛:剪辑难度 AI 视频创作套件,让视频能【听】会【说】 www.volcengine.com
44. 视频创作套件——一键生成、轻松创作、显著提升投稿率 传统视频创作 方式 AI 视频创作 套件 视频字幕 视频配音 Ø 10 分钟视频需要 3 小 Ø 声线、风格不适合视 时以上 Ø 专业的字幕团队需要 2000 元/视频 44 频配音 Ø 专业配音价钱贵,周 智能字幕 + 智能配音 Ø 智能字幕快速生成、自动对齐 图片区域 Ø 多样语种/方言自动识别 Ø 多风格/语种/方言音色自由选择 期长 www.volcengine.com
45. 智能配音:剪映文本朗读效果 45 特色音色 小姐姐 小萝莉 阳光男生 可爱萌娃 说唱小哥 … 方言音色 东北老铁 西安掌柜 台湾女生 重庆小伙 … IP 音色 语种音色 动漫小新 动漫海绵 … 日语-元气萌妹 韩语-亲切欧尼 巴葡-磁性男生 墨西-气质御姐 … www.volcengine.com
46. 智能配音:语音合成技术框架 46 文本 人机标注 语言特征 声学模型 语音 特征提取 声学特征 声码器 音库 离线训练 线上推理 图片区域 文本 文本分析 语言特征 声学模型 声学特征 声码器 语音 www.volcengine.com
47. 智能配音:文本分析前端 47 Ø 负责可懂度,结合规则平台,可在业务垂类上做到足够准确 文本 前处理 断句切分 正则化 分词/词性 字音转换 韵律模型 语言特征 图片区域 NN+规则 Bert-多任务 模型 *前端联合建模:A Unified Sequence-to-Sequence Front-End Model for Mandarin Text-to-Speech Synthesis , J-J Pan, etc, ICASSP 2020 *神经网络正则化:A Hybrid Text Normalization System Using Multi-Head Self-Attention For Mandarin, J-H Zhang, etc, ICASSP 2020 *英文ToBI前端:Fine-grained Prosody Modeling in Neural Speech Synthesis using ToBI Representation, Y-X Zou, etc, INTERSPEECH 2021 www.volcengine.com
48. 智能配音:文本分析前端效果 48 图片区域 *sAP(Sentence Average Precision,句级平均准确率)衡量文本前端,sAP越高,可懂度越高 www.volcengine.com
49. 智能配音:声学模型 49 Ø 负责风格韵律,RTF(GPU)= 0.008,错误率 0.1% 以内 Parallel Tacotron (Isaac Elias, etc,Google) www.volcengine.com
50. 智能配音:声码器 50 Ø 负责音质清晰度,RTF(GPU)= 0.004,错误率 0.05% 以内 MelGAN (Kundan Kumar, etc, Mila) www.volcengine.com
51. 智能配音:个性表达(即将上线) 51 Ø 声音复刻:开放环境中录制中等质量声音,可应用于快速复刻 Up 主、大 V 声音等 *音色复刻:IMITATOR: TEXT-FREE FEW-SHOT VOICE CLONING WITH LANGUAGE, ACCENT AND STYLE TRANSFER , C-X Zhang, etc, submitted to ICASSP 2022 www.volcengine.com
52. 智能配音:声音滤镜(即将上线) 52 Ø 声音转换:开放环境中输入语音,输出指定音色、口音的音频 • 音色转换 • • 口音转换 • • 风格不变,变音色(柯南变声领结) 音色不变,变口音 歌唱转换 • 唱功不变,变声线 *歌唱转换I:PPG-Based Singing Voice Conversion with Adversarial Representation Learning, Z-H Li, etc, ICASSP 2021 *歌唱转换II:Towards High-fidelity Singing Voice Conversion with Acoustic Reference and Contrastive Predictive Coding, C Wang, etc, submitted to ICASSP 2022 www.volcengine.com
53. 53 火山引擎中的音频生成能力
54. 火山引擎中的音频生成能力 54 能力概览 Ø 云端:提供 30+ 精品音色,支持流利朗读中英混及纯英文文本,在 KA 客户的竞品评 测中,效果好于友商 Ø 离线:提供 10+ 离线音色,支持离在线 SDK,KA 客户竞品评测中,效果略好于友商 目前效果 Ø 在 ToB 应用中支持大量 KA 客户,效果和售后受到好评 Ø 大部分使用场景为流式合成,rtf 0.3 左右,首包延迟 200ms 左右,整体服务稳定性 > 99.95% www.volcengine.com
55. 55 总结
56. 总结 56 原子能力 Ø 语音合成(TTS)、音色复刻、声音转换(VC) 能力效果 音色矩阵 Ø 字节业务背书 Ø 泛娱:多语种、多方言、特色、IP等音色 图片区域 Ø 竞品评测领先 Ø 前沿论文发表 Ø 小说:覆盖网文单播、多播音色 Ø 教育:覆盖不同学科、不同学段音色 Ø 客服:超精品电销音色 端云一体 Ø 同时支持离线和云端能力调用 www.volcengine.com
57. 欢迎加入 57 抖音扫码关注 扫码关注 “火山引擎开发者社区”抖音号 “火山引擎开发者社区”公众号 57 www.volcengine.com
58. www.volcengine.com

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 20:46
浙ICP备14020137号-1 $Map of visitor$