语音大模型:从级联到端到端

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 语音大模型: 从级联到端到端 杨学锐
2. 目录 01 LLM 如何重塑语音技术 02 如何构建端到端语音模型——表征 03 如何构建端到端语音模型——架构 04 如何构建端到端语音模型——训推 05 如何构建端到端语音模型——任务 06 模型评估:什么是好模型
3.
4. LLM 01 如何重塑语音技术
5. LLM 如何重塑语音技术 • 传统语音技术 • 流水线式架构: 误差逐级传递, 信息流失; • 理解: 只能处理简单指令,无法 进行多轮、多模态的深度推理; • 表达: TTS声音机械,韵律模板化, 没有真正的“人感”;
6. LLM 如何重塑语音技术 • ASR • Open-source • Whisper* • SenseVoice • FireredASR • Close-source/API • SeedASR • StepASR *Radford A, Kim J W, Xu T, et al. Robust speech recognition via large-scale weak supervision[C]
7. LLM 如何重塑语音技术 • ASR • Non-LLM • Paraformer* • Open-source • Whisper • SenseVoice • FireredASR • Close-source/API • SeedASR • StepASR *Gao Z, Zhang S, McLoughlin I, et al. Paraformer: Fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition[J].
8. LLM 如何重塑语音技术 • ASR • Non-LLM • Paraformer* • Open-source • Whisper • SenseVoice • FireredASR • Close-source/API • SeedASR • StepASR *Gao Z, Zhang S, McLoughlin I, et al. Paraformer: Fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition[J].
9. LLM 如何重塑语音技术 • ASR • Open-source • Whisper • SenseVoice • FireredASR • Close-source/API • SeedASR • StepASR* Text token output Context/Hotwords … *https://platform.stepfun.com/docs/api-reference/audio/transcriptions
10. LLM 如何重塑语音技术 • ASR • Open-source • Whisper • SenseVoice-L • FireredASR • Close-source/API • SeedASR • StepASR [1] Yang X, Li J, Zhou X. A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition[J]. arXiv preprint arXiv:1810.11352, 2018. [2] Gulati A, Qin J, Chiu C C, et al. Conformer: Convolution-augmented transformer for speech recognition[J]. arXiv preprint arXiv:2005.08100, 2020. [3] Bai Y, Chen J, Chen J, et al. Seed-asr: Understanding diverse speech and contexts with llm-based speech recognition[J]. arXiv preprint arXiv:2407.046
11. LLM 如何重塑语音技术 *Xie T, Rong Y, Zhang P, et al. Towards controllable speech synthesis in the era of large language models: A survey[J]. arXiv e-prints, 2024: arXiv: 2412.06602.
12. LLM 如何重塑语音技术 • TTS • NAR • FastSpeech • NatualSpeech • E2-TTS • AR(LLM) • VALLE* • CosyVoice • Minimax-Speech • StepTTS • DiTAR • VibeVoice *Zhang, Ziqiang, et al. "Speak foreign languages with your own voice: Cross-lingual neural codec language modeling." arXiv preprint arXiv:2303.03926 (2023).
13. LLM 如何重塑语音技术 • TTS • NAR • FastSpeech • NatualSpeech • E2-TTS • AR(LLM) • VALLE • CosyVoice • Minimax-Speech • StepTTS* • DiTAR • VibeVoice *https://platform.stepfun.com/docs/api-reference/audio/create_audio
14. LLM 如何重塑语音技术 • TTS • NAR • FastSpeech • NatualSpeech • E2-TTS • AR(LLM) • VALLE • CosyVoice • Minimax-Speech • StepTTS • DiTAR • VibeVoice* *Peng Z, Yu J, Wang W, et al. Vibevoice technical report[J]. arXiv preprint arXiv:2508.19205, 2025.
15. LLM 如何重塑语音技术 • 对话/语音交互 • 是否有一种端到端架构,能够实现理解与生成一体化? • YES *Cui W, Yu D, Jiao X, et al. Recent advances in speech language models: A survey[J]. arXiv preprint arXiv:2410.03751, 2024.
16. LLM 如何重塑语音技术 • GPT-4o *Hurst A, Lerer A, Goucher A P, et al. Gpt-4o system card[J]. arXiv preprint arXiv:2410.21276, 2024.
17. 02 如何构建端到端语音模型 表征
18. 如何在大模型中表征语音与音频信号 • Mel-Spectrogram • 模数信号转换->分帧加窗->时频转换->梅尔滤波器组->取对 数
19. 如何在大模型中表征语音与音频信号 • Continuous Features • Wav2Vec • HuBERT • WavLM • Whisper Encoder
20. 如何在大模型中表征语音与音频信号 • Continuous Features • Wav2Vec* • HuBERT • WavLM • Whisper Encoder *Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.
21. 如何在大模型中表征语音与音频信号 • Continuous Features • Wav2Vec • HuBERT* • WavLM • Whisper Encoder *Hsu W N, Bolte B, Tsai Y H H, et al. Hubert: Self-supervised speech representation learning by masked prediction of hidden units[J]. IEEE/ACM transactions on audio, speech, and language processing, 2021, 29: 3451-3460.
22. 如何在大模型中表征语音与音频信号 • Continuous Features • Wav2Vec • HuBERT • WavLM • Whisper Encoder*
23. 如何在大模型中表征语音与音频信号 • LLM text token
24. 如何在大模型中表征语音与音频信号 • Discrete Token • Semantic Token • Acoustic Token • Unified Token • Other(Pitch/Style)
25. 如何在大模型中表征语音与音频信号 • Semantic Token • Wav2Vec • HuBERT • WavLM • BEST-RQ* • S3Tokenizer *Chiu C C, Qin J, Zhang Y, et al. Self-supervised learning with random-projection quantizer for speech recognition[C]//International Conference on Machine Learning. PMLR, 2022: 3915-3924.
26. 如何在大模型中表征语音与音频信号 • Semantic Token • Wav2Vec • HuBERT • WavLM • BEST-RQ • S3Tokenizer* *Du Z, Chen Q, Zhang S, et al. Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens[J]. arXiv preprint arXiv:2407.05407,
27. 如何在大模型中表征语音与音频信号 • Acoustic Token • Soundstream • Encodec* • DAC • FACodec • WavTokenizer *Défossez A, Copet J, Synnaeve G, et al. High fidelity neural audio compression[J]. arXiv preprint arXiv:2210.13438, 2022.
28. 如何在大模型中表征语音与音频信号 • Unified Token • SpeechTokenizer • SemantiCodec* • X-Codec • XY-Tokenizer • UniCodec • Mimo-Tokenizer *Liu H, Xu X, Yuan Y, et al. Semanticodec: An ultra low bitrate semantic audio codec for general sound[J]. IEEE Journal of Selected Topics in Signal Processing, 2024.
29. 如何在大模型中表征语音与音频信号 • Unified Token • SpeechTokenizer • SemantiCodec • X-Codec* • XY-Tokenizer • UniCodec • Mimo-Tokenizer *Ye Z, Sun P, Lei J, et al. Codec does matter: Exploring the semantic shortcoming of codec for audio language model[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2025, 39(24): 25697-25705.
30. 如何在大模型中表征语音与音频信号 • 对比 • 输入侧 • 输出侧:离散表征生成 更稳定,但需要 diffusion补充细节;连 续表征预测目标过于平 滑。 *Wang D, Li J, Cui M, et al. Speech discrete tokens or continuous features? a comparative analysis for spoken language understanding in speechllms[J]. arXiv preprint arXiv:2508.17863, 2025.
31. 02 如何构建端到端语音模型 架构
32. 模型架构 • 理解侧 • Continuous Features • Discrete Token(Single Codebook) • Discrete Token(Multi Codebook)
33. 模型架构 • Token生成策略 • Naive • Multihead • Interleaved *Arora S, Chang K W, Chien C M, et al. On the landscape of spoken language models: A comprehensive survey[J]. arXiv preprint arXiv:2504.08528, 2025.
34. 模型架构 • Token2Wav/Audio Detokenizer/Vocoder/Speech Decoder *Du C, Guo Y, Chen X, et al. VQTTS: High-fidelity text-to-speech synthesis with self-supervised VQ acoustic feature[J]. arXiv preprint arXiv:2204.00768, 2022.
35. 模型架构 • Large Audio Language Model • • • • • • • GPT-4o-Audio Moshi* GLM-4-Voice Qwen2.5/3-Omni Kimi-Audio Mimo-Audio Step-Audio1/2 *Défossez A, MazaréL, Orsini M, et al. Moshi: a speech-text foundation model for real-time dialogue[J]. arXiv preprint arXiv:2410.00037, 2024.
36. 模型架构 • Large Audio Language Model • • • • • • • GPT-4o-Audio Moshi GLM-4-Voice Qwen2.5/3-Omni* Kimi-Audio Mimo-Audio Step-Audio1/2 *Xu J, Guo Z, Hu H, et al. Qwen3-omni technical report[J]. arXiv preprint arXiv:2509.17765, 2025.
37. 模型架构 • Large Audio Language Model • • • • • • • GPT-4o-Audio Moshi GLM-4-Voice Qwen2.5/3-Omni Kimi-Audio Mimo-Audio Step-Audio1/2* *Wu B, Yan C, Hu C, et al. Step-audio 2 technical report[J]. arXiv preprint arXiv:2507.16632, 2025.
38. 模型架构 • Step-Audio2 • 平衡理解与生成 • Audio Encoder连 续表征输入+离散 token输出 • 输入:12.5Hz • 输出:25Hz
39. 02 如何构建端到端语音模型 训推
40. 模型训练——以Step - Audio2 为例 • Continue Pretrain • 基于纯文本 LLM • Stage 1:纯 ASR 对齐语音特征和文本特征空间(100B) • Stage 2:扩码表,TTS + 语音问答任务建模语音 token(128B) • 平衡 128B 文本数据 • Stage 3:正式预训练阶段,大量较低质量数据(400B) • ASR,TTS,语音翻译,语音对话,文本语音混排续写 • 平衡 400B 文本数据 • Stage 4:Midtrain,少量较高质量、领域化数据(100B) • ASR,TTS,语音翻译,语音对话,文本语音混排续写,副语言信息理解 • 平衡 100B 文本数据
41. 模型训练——以Step - Audio2 为例 • Posttrain • SFT阶段引入 Human-Assistant 对话结构,精标数据轻量 SFT 方案(2B) • 语音识别:精标ASR数据以及开源高质量数据集; • 语音理解:AudioSet, AudioCaps 等; • 语音翻译: CoVoST 2 等 • 工具调用:网页搜索,音频检索; • 端到端语音对话:合成播客级对话数据;
42. 模型训练——以Step - Audio2 为例 • Posttrain-RL • 深度推理冷启动:合成语音理解、副语言信息理解深度推理数据 • 优化深度推理,PPO 控制长度与偏好,GRPO 强化结果 • PPO: 长度 binary reward,1 if 0 < length < 200 else 0 • 实测大概对应 3~5s 的思考时间 • GRPO: group size 8, temperature 1 • 亮点能力:情感深度推理 • 面向心理咨询、情感安抚等高情商场景
43. 模型推理——以Step - Audio2 为例 • 交错Token处理 • 1:4 • 多轮上下文 • Audio+Text Context
44. 02 如何构建端到端语音模型 任务
45. 下游任务——以Step - Audio2 为例 • 语音理解 • 语音识别 • 音频与副语言理解
46. 下游任务——以Step - Audio2 为例 • 语音理解 • 语音识别 • 音频与副语言理解 • VAD • 多说话人 • 情感理解 • 副语言理解 • 性别识别 • 年龄识别 • 音乐理解 Sys prompt 你是一位经验丰富的音频分析专家,擅长对各种语音音频进行深入细 致的分析。你的任务不仅仅是将音频内容准确转写为文字,还要对说 话人的声音特征(如性别、年龄、情绪状态)、背景声音、环境信息 以及可能涉及的事件进行全面描述。请以专业、客观的视角,详细、 准确地完成每一次分析和转写。 这是第一个说话人 说话的时间范围是0.0s到18.65s。 语音的内容是:刚刚刷抖音让我刷到一句特别难过的话。我觉得好难过 啊。他说,我可以明目张胆的想你,但是我不能明目张胆的去找你。我 可以明目张胆的喜欢你,但是不能明目张胆的拥有你。 这是一位年轻女性,年龄大约在15到25岁之间。她的声音略显稚嫩,带 有一些鼻音,语速偏慢,清晰度较高。她以倾诉和独白的方式表达自己 的情绪,语气中充满了悲伤和失落感。她的声音低沉而富有情感,语调 中透着压抑和无奈,似乎在向某人倾诉内心的痛苦。在背景中,有抒情 流行歌曲的音乐声,音量适中,营造出一种录音室或个人录音的环境。 她的表达让人感受到一种脆弱感和引人同情的印象。
47. 下游任务——以Step - Audio2 为例 • 语音合成 • 前端处理 • 可控生成 • 音频编辑 以多音字处理为例: • <|THINK_START|>用户的输入包含拼音,分别为zen3, me5,hui4,you3,zhe4,zhong3,shi4,zhe4, pian4, hai3,yu4, shi2, zai4, tai4, shen2, mi4, le5 • 根据拼音、声调和上下文的语义理解,将这句话的拼音转成汉字,结果为: 怎么会有这种事,这片海域实在太神秘了! • 在说这句话时,要注意使用用户标注的拼音和音调作为对应汉字的发音 <ITHINK_END|>
48. 下游任务——以Step - Audio2 为例 • 语音合成 • 前端处理 • 可控生成 • 音频编辑 我… [Sigh]…我现在脑子里一团乱,[Uhm]真的不知道下一步 该怎么走了……
49. 下游任务——以Step - Audio2 为例 • 语音合成 • 前端处理 • 可控生成 • 音频编辑 原始音频 编辑为撒娇风格
50. 下游任务——以Step - Audio2 为例 • 对话 • 情感对话 • 工具调用
51. 下游任务——以Step - Audio2 为例 • 对话 • 情感对话 • 工具调用 • 基于工具调用中的音频检索 • • • • Human: 切换成一个清朝格格的音色 Assistant: audio_search(query=清朝格格) Input: <清朝格格 audio prompt> Assistant: <参考 Input 生成的语音回复> • 音色库 • 10w 量级的 audio – 描述对 • 不含名人
52. 下游任务 • 全双工对话 • VAD-Based • Multichannel • Interleaved • Chunk-wise *Arora S, Chang K W, Chien C M, et al. On the landscape of spoken language models: A comprehensive survey[J]. arXiv preprint arXiv:2504.08528, 2025.
53. 下游任务 • 全双工推理 • STITCH • SHANKS • CT* • Step-MPS *Wu D, Zhang H, Chen C, et al. Chronological Thinking in Full-Duplex Spoken Dialogue Language Models[J]. arXiv preprint arXiv:2510.05150, 2025.
54. 下游任务 • 全双工推理 • STITCH • SHANKS • CT • Step-MPS* *Wu D, Zhang H, Chen J, et al. Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models[J]. arXiv preprint arXiv:2510.09592, 2025.
55. 03 模型评估:什么是好模型
56. 模型评估 • 这很重要! • 单点能力 • 语音识别 • 语音翻译 • 情感和副语言理解 • 音频理解 • 语音合成 • 语音克隆 • 音频编辑 • 对话能力 • 知识性 • 创作能力 • 工具调用 • 推理与规划 • 指令遵循 • 全双工 • 多轮一致性 • 情感与共情
57. 模型评估 • 这很重要! • 语音对话BMK • VoiceBench • AIR-Bench • ADU-Bench • SD-Eval • C3Benchmark • URO-Bench • VoxDialogue • MULTI-BENCH*
58.
59. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-03 23:48
浙ICP备14020137号-1 $访客地图$