语音大模型:从级联到端到端
如果无法正常显示,请先停止浏览器的去广告插件。
1. 语音大模型:
从级联到端到端
杨学锐
2. 目录
01 LLM 如何重塑语音技术
02 如何构建端到端语音模型——表征
03 如何构建端到端语音模型——架构
04 如何构建端到端语音模型——训推
05 如何构建端到端语音模型——任务
06 模型评估:什么是好模型
3.
4. LLM
01
如何重塑语音技术
5. LLM 如何重塑语音技术
• 传统语音技术
• 流水线式架构: 误差逐级传递,
信息流失;
• 理解: 只能处理简单指令,无法
进行多轮、多模态的深度推理;
• 表达: TTS声音机械,韵律模板化,
没有真正的“人感”;
6. LLM 如何重塑语音技术
• ASR
• Open-source
• Whisper*
• SenseVoice
• FireredASR
• Close-source/API
• SeedASR
• StepASR
*Radford A, Kim J W, Xu T, et al. Robust speech recognition via large-scale weak supervision[C]
7. LLM 如何重塑语音技术
• ASR
• Non-LLM
• Paraformer*
• Open-source
• Whisper
• SenseVoice
• FireredASR
• Close-source/API
• SeedASR
• StepASR
*Gao Z, Zhang S, McLoughlin I, et al. Paraformer: Fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition[J].
8. LLM 如何重塑语音技术
• ASR
• Non-LLM
• Paraformer*
• Open-source
• Whisper
• SenseVoice
• FireredASR
• Close-source/API
• SeedASR
• StepASR
*Gao Z, Zhang S, McLoughlin I, et al. Paraformer: Fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition[J].
9. LLM 如何重塑语音技术
• ASR
• Open-source
• Whisper
• SenseVoice
• FireredASR
• Close-source/API
• SeedASR
• StepASR*
Text token output
Context/Hotwords …
*https://platform.stepfun.com/docs/api-reference/audio/transcriptions
10. LLM 如何重塑语音技术
• ASR
• Open-source
• Whisper
• SenseVoice-L
• FireredASR
• Close-source/API
• SeedASR
• StepASR
[1] Yang X, Li J, Zhou X. A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition[J]. arXiv preprint arXiv:1810.11352, 2018.
[2] Gulati A, Qin J, Chiu C C, et al. Conformer: Convolution-augmented transformer for speech recognition[J]. arXiv preprint arXiv:2005.08100, 2020.
[3] Bai Y, Chen J, Chen J, et al. Seed-asr: Understanding diverse speech and contexts with llm-based speech recognition[J]. arXiv preprint arXiv:2407.046
11. LLM 如何重塑语音技术
*Xie T, Rong Y, Zhang P, et al. Towards controllable speech synthesis in the era of large language models: A survey[J]. arXiv e-prints, 2024: arXiv: 2412.06602.
12. LLM 如何重塑语音技术
• TTS
• NAR
• FastSpeech
• NatualSpeech
• E2-TTS
• AR(LLM)
• VALLE*
• CosyVoice
• Minimax-Speech
• StepTTS
• DiTAR
• VibeVoice
*Zhang, Ziqiang, et al. "Speak foreign languages with your own voice: Cross-lingual neural codec language modeling." arXiv preprint arXiv:2303.03926 (2023).
13. LLM 如何重塑语音技术
• TTS
• NAR
• FastSpeech
• NatualSpeech
• E2-TTS
• AR(LLM)
• VALLE
• CosyVoice
• Minimax-Speech
• StepTTS*
• DiTAR
• VibeVoice
*https://platform.stepfun.com/docs/api-reference/audio/create_audio
14. LLM 如何重塑语音技术
• TTS
• NAR
• FastSpeech
• NatualSpeech
• E2-TTS
• AR(LLM)
• VALLE
• CosyVoice
• Minimax-Speech
• StepTTS
• DiTAR
• VibeVoice*
*Peng Z, Yu J, Wang W, et al. Vibevoice technical report[J]. arXiv preprint arXiv:2508.19205, 2025.
15. LLM 如何重塑语音技术
• 对话/语音交互
• 是否有一种端到端架构,能够实现理解与生成一体化?
• YES
*Cui W, Yu D, Jiao X, et al. Recent advances in speech language models: A survey[J]. arXiv preprint arXiv:2410.03751, 2024.
16. LLM 如何重塑语音技术
• GPT-4o
*Hurst A, Lerer A, Goucher A P, et al. Gpt-4o system card[J]. arXiv preprint arXiv:2410.21276, 2024.
17. 02
如何构建端到端语音模型
表征
18. 如何在大模型中表征语音与音频信号
• Mel-Spectrogram
• 模数信号转换->分帧加窗->时频转换->梅尔滤波器组->取对
数
19. 如何在大模型中表征语音与音频信号
• Continuous Features
• Wav2Vec
• HuBERT
• WavLM
• Whisper Encoder
20. 如何在大模型中表征语音与音频信号
• Continuous Features
• Wav2Vec*
• HuBERT
• WavLM
• Whisper Encoder
*Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems,
2020, 33: 12449-12460.
21. 如何在大模型中表征语音与音频信号
• Continuous Features
• Wav2Vec
• HuBERT*
• WavLM
• Whisper Encoder
*Hsu W N, Bolte B, Tsai Y H H, et al. Hubert: Self-supervised speech representation learning by masked prediction of hidden units[J]. IEEE/ACM transactions on audio, speech,
and language processing, 2021, 29: 3451-3460.
22. 如何在大模型中表征语音与音频信号
• Continuous Features
• Wav2Vec
• HuBERT
• WavLM
• Whisper Encoder*
23. 如何在大模型中表征语音与音频信号
• LLM text token
24. 如何在大模型中表征语音与音频信号
• Discrete Token
• Semantic Token
• Acoustic Token
• Unified Token
• Other(Pitch/Style)
25. 如何在大模型中表征语音与音频信号
• Semantic Token
• Wav2Vec
• HuBERT
• WavLM
• BEST-RQ*
• S3Tokenizer
*Chiu C C, Qin J, Zhang Y, et al. Self-supervised learning with random-projection quantizer for speech recognition[C]//International Conference on Machine Learning. PMLR,
2022: 3915-3924.
26. 如何在大模型中表征语音与音频信号
• Semantic Token
• Wav2Vec
• HuBERT
• WavLM
• BEST-RQ
• S3Tokenizer*
*Du Z, Chen Q, Zhang S, et al. Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens[J]. arXiv preprint arXiv:2407.05407,
27. 如何在大模型中表征语音与音频信号
• Acoustic Token
• Soundstream
• Encodec*
• DAC
• FACodec
• WavTokenizer
*Défossez A, Copet J, Synnaeve G, et al. High fidelity neural audio compression[J]. arXiv preprint arXiv:2210.13438, 2022.
28. 如何在大模型中表征语音与音频信号
• Unified Token
• SpeechTokenizer
• SemantiCodec*
• X-Codec
• XY-Tokenizer
• UniCodec
• Mimo-Tokenizer
*Liu H, Xu X, Yuan Y, et al. Semanticodec: An ultra low bitrate semantic audio codec for general sound[J]. IEEE Journal of Selected Topics in Signal Processing, 2024.
29. 如何在大模型中表征语音与音频信号
• Unified Token
• SpeechTokenizer
• SemantiCodec
• X-Codec*
• XY-Tokenizer
• UniCodec
• Mimo-Tokenizer
*Ye Z, Sun P, Lei J, et al. Codec does matter: Exploring the semantic shortcoming of codec for audio language model[C]//Proceedings of the AAAI Conference on Artificial
Intelligence. 2025, 39(24): 25697-25705.
30. 如何在大模型中表征语音与音频信号
• 对比
• 输入侧
• 输出侧:离散表征生成
更稳定,但需要
diffusion补充细节;连
续表征预测目标过于平
滑。
*Wang D, Li J, Cui M, et al. Speech discrete tokens or continuous features? a comparative analysis for spoken language understanding in speechllms[J]. arXiv preprint
arXiv:2508.17863, 2025.
31. 02
如何构建端到端语音模型
架构
32. 模型架构
• 理解侧
• Continuous Features
• Discrete Token(Single Codebook)
• Discrete Token(Multi Codebook)
33. 模型架构
• Token生成策略
• Naive
• Multihead
• Interleaved
*Arora S, Chang K W, Chien C M, et al. On the landscape of spoken language models: A comprehensive survey[J]. arXiv preprint arXiv:2504.08528, 2025.
34. 模型架构
• Token2Wav/Audio Detokenizer/Vocoder/Speech Decoder
*Du C, Guo Y, Chen X, et al. VQTTS: High-fidelity text-to-speech synthesis with self-supervised VQ acoustic feature[J]. arXiv preprint arXiv:2204.00768, 2022.
35. 模型架构
• Large Audio Language Model
•
•
•
•
•
•
•
GPT-4o-Audio
Moshi*
GLM-4-Voice
Qwen2.5/3-Omni
Kimi-Audio
Mimo-Audio
Step-Audio1/2
*Défossez A, MazaréL, Orsini M, et al. Moshi: a speech-text foundation model for real-time dialogue[J]. arXiv preprint arXiv:2410.00037, 2024.
36. 模型架构
• Large Audio Language Model
•
•
•
•
•
•
•
GPT-4o-Audio
Moshi
GLM-4-Voice
Qwen2.5/3-Omni*
Kimi-Audio
Mimo-Audio
Step-Audio1/2
*Xu J, Guo Z, Hu H, et al. Qwen3-omni technical report[J]. arXiv preprint arXiv:2509.17765, 2025.
37. 模型架构
• Large Audio Language Model
•
•
•
•
•
•
•
GPT-4o-Audio
Moshi
GLM-4-Voice
Qwen2.5/3-Omni
Kimi-Audio
Mimo-Audio
Step-Audio1/2*
*Wu B, Yan C, Hu C, et al. Step-audio 2 technical report[J]. arXiv preprint arXiv:2507.16632, 2025.
38. 模型架构
• Step-Audio2
• 平衡理解与生成
• Audio Encoder连
续表征输入+离散
token输出
• 输入:12.5Hz
• 输出:25Hz
39. 02
如何构建端到端语音模型
训推
40. 模型训练——以Step - Audio2 为例
• Continue Pretrain
• 基于纯文本 LLM
• Stage 1:纯 ASR 对齐语音特征和文本特征空间(100B)
• Stage 2:扩码表,TTS + 语音问答任务建模语音 token(128B)
• 平衡 128B 文本数据
• Stage 3:正式预训练阶段,大量较低质量数据(400B)
• ASR,TTS,语音翻译,语音对话,文本语音混排续写
• 平衡 400B 文本数据
• Stage 4:Midtrain,少量较高质量、领域化数据(100B)
• ASR,TTS,语音翻译,语音对话,文本语音混排续写,副语言信息理解
• 平衡 100B 文本数据
41. 模型训练——以Step - Audio2 为例
• Posttrain
• SFT阶段引入 Human-Assistant 对话结构,精标数据轻量 SFT 方案(2B)
• 语音识别:精标ASR数据以及开源高质量数据集;
• 语音理解:AudioSet, AudioCaps 等;
• 语音翻译: CoVoST 2 等
• 工具调用:网页搜索,音频检索;
• 端到端语音对话:合成播客级对话数据;
42. 模型训练——以Step - Audio2 为例
• Posttrain-RL
• 深度推理冷启动:合成语音理解、副语言信息理解深度推理数据
• 优化深度推理,PPO 控制长度与偏好,GRPO 强化结果
• PPO: 长度 binary reward,1 if 0 < length < 200 else 0
• 实测大概对应 3~5s 的思考时间
• GRPO: group size 8, temperature 1
• 亮点能力:情感深度推理
• 面向心理咨询、情感安抚等高情商场景
43. 模型推理——以Step - Audio2 为例
• 交错Token处理
• 1:4
• 多轮上下文
• Audio+Text Context
44. 02
如何构建端到端语音模型
任务
45. 下游任务——以Step - Audio2 为例
• 语音理解
• 语音识别
• 音频与副语言理解
46. 下游任务——以Step - Audio2 为例
• 语音理解
• 语音识别
• 音频与副语言理解
• VAD
• 多说话人
• 情感理解
• 副语言理解
• 性别识别
• 年龄识别
• 音乐理解
Sys prompt
你是一位经验丰富的音频分析专家,擅长对各种语音音频进行深入细
致的分析。你的任务不仅仅是将音频内容准确转写为文字,还要对说
话人的声音特征(如性别、年龄、情绪状态)、背景声音、环境信息
以及可能涉及的事件进行全面描述。请以专业、客观的视角,详细、
准确地完成每一次分析和转写。
这是第一个说话人
说话的时间范围是0.0s到18.65s。
语音的内容是:刚刚刷抖音让我刷到一句特别难过的话。我觉得好难过
啊。他说,我可以明目张胆的想你,但是我不能明目张胆的去找你。我
可以明目张胆的喜欢你,但是不能明目张胆的拥有你。
这是一位年轻女性,年龄大约在15到25岁之间。她的声音略显稚嫩,带
有一些鼻音,语速偏慢,清晰度较高。她以倾诉和独白的方式表达自己
的情绪,语气中充满了悲伤和失落感。她的声音低沉而富有情感,语调
中透着压抑和无奈,似乎在向某人倾诉内心的痛苦。在背景中,有抒情
流行歌曲的音乐声,音量适中,营造出一种录音室或个人录音的环境。
她的表达让人感受到一种脆弱感和引人同情的印象。
47. 下游任务——以Step - Audio2 为例
• 语音合成
• 前端处理
• 可控生成
• 音频编辑
以多音字处理为例:
• <|THINK_START|>用户的输入包含拼音,分别为zen3,
me5,hui4,you3,zhe4,zhong3,shi4,zhe4, pian4, hai3,yu4, shi2, zai4, tai4,
shen2, mi4, le5
• 根据拼音、声调和上下文的语义理解,将这句话的拼音转成汉字,结果为:
怎么会有这种事,这片海域实在太神秘了!
• 在说这句话时,要注意使用用户标注的拼音和音调作为对应汉字的发音
<ITHINK_END|>
48. 下游任务——以Step - Audio2 为例
• 语音合成
• 前端处理
• 可控生成
• 音频编辑
我… [Sigh]…我现在脑子里一团乱,[Uhm]真的不知道下一步
该怎么走了……
49. 下游任务——以Step - Audio2 为例
• 语音合成
• 前端处理
• 可控生成
• 音频编辑
原始音频
编辑为撒娇风格
50. 下游任务——以Step - Audio2 为例
• 对话
• 情感对话
• 工具调用
51. 下游任务——以Step - Audio2 为例
• 对话
• 情感对话
• 工具调用
• 基于工具调用中的音频检索
•
•
•
•
Human: 切换成一个清朝格格的音色
Assistant: audio_search(query=清朝格格)
Input: <清朝格格 audio prompt>
Assistant: <参考 Input 生成的语音回复>
• 音色库
• 10w 量级的 audio – 描述对
• 不含名人
52. 下游任务
• 全双工对话
• VAD-Based
• Multichannel
• Interleaved
• Chunk-wise
*Arora S, Chang K W, Chien C M, et al. On the landscape of spoken language models: A comprehensive survey[J]. arXiv preprint arXiv:2504.08528, 2025.
53. 下游任务
• 全双工推理
• STITCH
• SHANKS
• CT*
• Step-MPS
*Wu D, Zhang H, Chen C, et al. Chronological Thinking in Full-Duplex Spoken Dialogue Language Models[J]. arXiv preprint arXiv:2510.05150, 2025.
54. 下游任务
• 全双工推理
• STITCH
• SHANKS
• CT
• Step-MPS*
*Wu D, Zhang H, Chen J, et al. Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models[J]. arXiv preprint arXiv:2510.09592, 2025.
55. 03
模型评估:什么是好模型
56. 模型评估
• 这很重要!
• 单点能力
• 语音识别
• 语音翻译
• 情感和副语言理解
• 音频理解
• 语音合成
• 语音克隆
• 音频编辑
• 对话能力
• 知识性
• 创作能力
• 工具调用
• 推理与规划
• 指令遵循
• 全双工
• 多轮一致性
• 情感与共情
57. 模型评估
• 这很重要!
• 语音对话BMK
• VoiceBench
• AIR-Bench
• ADU-Bench
• SD-Eval
• C3Benchmark
• URO-Bench
• VoxDialogue
• MULTI-BENCH*
58.
59. THANKS
大模型正在重新定义软件
Large Language Model Is Redefining The Software